Está en la página 1de 20

REPÚBLICA BOLIVARIANA DE VENEZUELA

MINISTERIO DE PODER POPULAR PARA LA EDUCACIÓN SUPERIOR


UNIVERSIDAD NACIONAL EXPERIMENTAL FRANCISCO DE MIRANDA
CONSEJO ACADEMICO BOLIVARIANO ESTADAL (CABE)
AREA CIENCIAS DE LA SALUD
PROGRAMA NACIONAL DE FORMACION EN FISIOTERAPIA
CATEDRA: FUNDAMENTOS ESTADISTICOS Y EPISTEMOLOGICOS EN
SALUD III
CORO- ESTADO- FALCON.

ESTUDIOS
BIVARIANTES

DOCENTE DE LA UNIDAD CURRICULAR: LICDA. YANNELIS SANCHEZ.

PARTICIPANTES:
ARENAS, MICHELL., C.I 29.901.483
DIAZ MUNELO, ANGELA M., C.I 13.027.732
DORANTES, BARBARA., C.I
LOPEZ, ALBERITH., C.I 30.126.931

SECCION 1

SANTA ANA DE CORO, OCTUBRE DE 2022.


Indice

Introducción
Objetivo General……………………………….………………………………………….2
¿Qué es proporciones en epidemiología?……………………………………………..3
Prueba paramétrica para datos independientes en la comparación de dos grupos.
……………………………………………………………………………….……..3
Comparación de medias: pruebas para datos apareados.
…………………………………………………………………………………4
Pruebas paramétricas en la comparación de datos apareados.
…………………………………………………………………………………5
Pruebas no paramétricas en la comparación de datos apareados.
…………………………………………………………………………………6
Pruebas no paramétricas para datos apareados en la comparación de dos grupos.
……………………………………………………………………………………..6
El estadístico ji-cuadrado (o chi cuadrado)…………………………….
…………………………………………………….6
¿Qué es una prueba de ji cuadrado?……………………………………………………
7
Tipos de prueba de ji
cuadrado…………………………………………………………..7
Prueba de Friedman ………………………………………………………………………
8
Tamaño Muestrales……………………………………………………………………….9
Modelos Multivariantes………………………………………………………………….11
Un confundidor…………………………………………………………………………...12
La estratificación epidemiológica…………………………………………………….…
12
La regresión
lineal………………………………………………………………………..13
Utilidad de la regresión lineal simple……………………………………………………
15
Conclusión………………………………………………………………………………..16
Bibliografía………………………………………………………………………………..17
Introducción

Los fenómenos de salud y enfermedad, las perturbaciones en procesos


biotecnológicos, los cambios en el comportamiento de los seres vivos, las
alteraciones en la ecología de un lugar tienen habitualmente múltiples causas, por
lo que explicamos hechos aplicando técnicas de estadística.
Con el análisis de los diferentes estudios bivariantes describimos y
evaluamos la relación entre dos o más variables o el comportamiento de una o
más variables en función de otra u varias.
Es por ello, que en el siguiente trabajo, presentamos el desarrollo de ciertos
puntos que nos permitirán comprender mejor este estudio, tomando en cuenta la
comparación de medias y proporciones en 3 o más poblaciones independientes;
comparación de medias y proporciones en poblaciones apariables; prueba Ji al
cuadrado; Prueba paramétricas y no paramétricas para la comparación de 2
poblaciones; Determinación de tamaños muestrales; formulación de modelos
multivariantes; efectos de confusión y modificación de efectos de interacción;
análisis de estratificado de variables cualitativa e introducción a la regresión lineal.

1
Objetivo General

Aprender y aplicar, las diferentes estrategias de procesos que abarcan el estudio


de bivariantes que conlleven o ayuden a obtener resultados óptimos y verídicos en
una investigación o trabajo de investigación.

2
¿Qué es proporciones en epidemiología?
Las proporciones son medidas que expresan la frecuencia con
la que ocurre un evento en relación con la población total en la cual éste puede
ocurrir. Esta medida se calcula dividiendo el número de eventos ocurridos entre la
población en la que ocurrieron Comparación de medias: pruebas para datos
independientes.
Existen varias pruebas estadísticas que permiten comparar las medias de
una variable continua entre dos o más grupos. Cada una de estas pruebas ha sido
diseñada para poder ser aplicada cuando se cumplen una serie de supuestos
necesarios, bajo diferentes condiciones de aplicación.
Prácticamente todas las hipótesis que podamos plantear (como comparar
las medias de una característica entre dos grupos) se pueden analizar bajo una
base paramétrica o una base no paramétrica. La decisión de cuándo aplicar una
prueba correspondiente a cada uno de estos grupos, depende básicamente de las
características inherentes a la variable que deseamos analizar.

Prueba paramétrica para datos independientes en la comparación de dos


grupos.
Como sabemos, en toda prueba existe una hipótesis nula que es
normalmente la igualdad de medias, frente a la hipótesis alternativa, que engloba
la existencia de un rasgo diferencial entre las medias, es decir, no son iguales. En
la prueba t de Student, el estadístico de contraste utilizado para probar la hipótesis
nula planteada (las medias de los dos grupos son iguales) se construye en función
de las diferencias registradas entre los valores de la variable de estudio evaluada
en cada uno de los grupos a comparar. Para ello se utiliza la información
procedente de las medias y desviaciones estándar (medidas resumen) de cada
uno de los grupos de estudio. El estadístico que se calcula varía ligeramente en
base a si las varianzas de los dos grupos en estudio son conocidas, desconocidas
pero iguales o desconocidas y distintas. Obviamente, el primer problema a
resolver es el de encontrar un método estadístico que nos permita decidir si la
varianza en ambos grupos es o no la misma. El test de la razón de varianzas o

3
test de Levene viene a resolver este problema. Bajo la suposición de que las dos
poblaciones siguen una distribución normal y tienen igual varianza (H0: σ1 = σ2)
se espera que la razón de varianzas siga una distribución F de Snedecor con
parámetros (n-1) y (m-1):

Esta prueba permitirá conocer si las varianzas de los dos grupos de


observaciones son o no iguales. Si su p-valor es menor a 0,05, rechazaremos la
hipótesis nula y supondremos que la variabilidad en ambos grupos es
sustancialmente distinta (varianzas no homogéneas). Por lo tanto, el estadístico a
calcular, variará ligeramente en función de las variabilidades muestrales. El
estadístico a utilizar sería el siguiente:

Comparación de medias: pruebas para datos apareados.


Imaginemos que deseamos comprobar si las cifras de tensión arterial
sistólica varían significativamente si son registradas antes o después de comer,
porque vamos a realizar un estudio y debemos determinar en qué momento
recogeremos esta información. Para realizar la prueba de hipótesis escogeríamos
una muestra de pacientes hipertensos a los cuales mediríamos la cifra de TAS
antes de comer y les volveríamos a hacer idéntica medición a los mismos sujetos
después de comer. Los valores de TAS estarían identificados para cada paciente,
por lo que compararíamos si las cifras de TAS de cada individuo de la muestra
difirieren significativamente entre los dos momentos del tiempo en los que fueron
registradas, teniendo en cuenta que la información en ambas ocasiones procede
del mismo individuo, es decir que existe una variabilidad intraindividual, inherente

4
al propio sujeto, que hay que considerar al realizar las comparaciones, no
pudiendo asumir la independencia de las observaciones. Estas pruebas
generalmente son aplicables en los estudios “pre-post” tratamiento, en los que es
necesario conocer la evolución clínica de parámetros que pueden verse alterados
por la administración de tratamientos farmacológicos o distintas terapias.
Al igual que en el caso anterior, existen unas condiciones de aplicabilidad,
bajo las cuales es adecuado realizar pruebas paramétricas, debiendo aplicar en
caso contrario, pruebas análogas no paramétricas, que no necesiten cumplir
dichos supuestos.

Pruebas paramétricas en la comparación de datos apareados.


La base de las pruebas para la comparación de medias apareadas consiste
en analizar las diferencias entre las observaciones de un mismo individuo.
Suponiendo que la variable aleatoria que define la diferencia entre dos
observaciones registradas en un mismo individuo (modelo antes-después) fuera
una variable aleatoria que se distribuyera normalmente, y queremos contrastar la
hipótesis de que se produjo un efecto entre ambas observaciones (cambio). En el
caso de resultar cierta, el estadístico de contraste que utilizaríamos se distribuiría
según la ley de probabilidad de la t de Student, por lo que la prueba que resultaría
más adecuada sería la prueba paramétrica de la t de Student para datos
apareados.
El estadístico de contraste desarrollado a partir del planteamiento de la hipó-tesis
a contrastar es:

donde:
1) d: media muestral de la diferencia entre las observaciones “pre” y “post”
2) n: tamaño de la muestra
3) Sd: desviación estándar muestral de las diferencias
4) tn-1: ley de probabilidad de la t de Student con n-1 grados de libertad

5
El cálculo del intervalo de la diferencia de medias al 95% de confianza, responde a
la siguiente fórmula:

Pruebas no paramétricas en la comparación de datos apareados.


A continuación, se explicará cómo llevar a cabo el análisis de datos en el
caso de comparar variables continuas entre 2 o más observaciones, teniendo en
cuenta datos apareados, utilizando medidas no paramétricas. Se mostrarán dos
ejemplos realizados mediante el paquete estadístico SPSS. El primer ejemplo
corresponderá al caso de comparación de 2 observaciones con pruebas no
paramétricas y el segundo, utilizando la comparación de k observaciones
apareadas con una prueba no paramétrica.

Pruebas no paramétricas para datos apareados en la comparación de dos


grupos.
La prueba de contraste de hipótesis análoga, en su versión no paramétrica
es la prueba de los rangos con signo de Wilcoxon. Básicamente, la prueba
consiste en ordenar las diferencias de menor a mayor y obtener sus rangos
respectivos.
A continuación, se suman los rangos correspondientes a las diferencias
negativas y a las diferencias positivas, es decir cuando la primera observación es
mayor que la segunda, y a la inversa, cuando la segunda observación es mayor a
la primera. Una vez construido el estadístico de contraste se evalúa a partir de las
tablas de Wilcoxon si se encuentra dentro de la región crítica, para decidir si se
acepta la hipótesis nula (no hay diferencias en las observaciones apareadas) o se
rechaza (si las hay).
El estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de
probabilidad del mismo nombre, sirve para someter a prueba hipótesis referidas a
distribuciones de frecuencias. En términos generales, esta prueba contrasta
frecuencias observadas con las frecuencias esperadas de acuerdo con la hipótesis

6
nula. En este artículo se describe el uso del estadístico ji-cuadrado para probar la
asociación entre dos variables utilizando una situación hipotética y datos
simulados. Luego se describe su uso para evaluar cuán buena puede resultar una
distribución teórica, cuando pretende representar la distribución real de los datos
de una muestra determinada. A esto se le llama evaluar la bondad de un ajuste.
Probar la bondad de un ajuste es ver en qué medida se ajustan los datos
observados a una distribución teórica o esperada. Para esto, se utiliza una
segunda situación hipotética y datos simulados.

¿Qué es una prueba de ji cuadrado?


La prueba de ji cuadrado es un método de prueba de hipótesis. Dos
pruebas de ji cuadrado habituales implican comprobar si las frecuencias
observadas de una o más categorías se ajustan a las esperadas.
¿La prueba de ji cuadrado es igual que la de χ²?
Sí, χ es la letra griega Ji.
¿Qué opciones tengo?
Si tiene una sola variable de medida, use una prueba ji cuadrado de bondad
de ajuste. Si tiene dos variables de medida, use la prueba de ji cuadrado de
independencia. Hay otras pruebas de ji cuadrado, pero estas dos son las más
frecuentes.

Tipos de prueba de ji cuadrado


La prueba de ji cuadrado se usa para comprobar hipótesis sobre si ciertos
datos son como se esperaba. La idea clave tras la prueba es comparar los valores
observados en los datos con los valores esperados que tendríamos si la hipótesis
nula es cierta.
Hay dos pruebas de ji cuadrado que se suelen usar: la prueba de bondad de
ajuste de ji cuadrado y la prueba de independencia de ji cuadrado Tanto para
la prueba de bondad de ajuste de ji cuadrado como para la prueba de
independencia de ji cuadrado, se dan los mismos pasos de análisis listados a

7
continuación Defina su hipótesis nula y su hipótesis alternativa antes de recopilar
los datos.
Decida el valor alfa. Esto implica decidir el riesgo que desea correr de llegar
a una conclusión errónea. Por ejemplo, digamos que define α=0,05 en su prueba
de independencia. En este caso decide correr un riesgo del 5 % de concluir que
ambas variables son independientes cuando no lo son.
Las pruebas o técnicas no paramétricas engloban una serie de pruebas
estadísticas que tienen en común la ausencia de asunciones acerca de la ley de
probabilidad que sigue la población de la que ha sido extraída la muestra. Así,
estas técnicas se aplican cuando no sabemos si la población de la cual se extrae
la muestra es normal o aproximadamente normal.

Estas técnicas no paramétricas se utilizan con frecuencia, puesto que


existen muchas variables que no siguen las condiciones de parametricidad. Estas
son: el uso de variables cuantitativas continuas, distribución normal de las
muestras, varianzas similares y muestras balanceadas.
Se denomina pruebas no paramétricas aquellas que no presuponen una
distracción de probabilidades para los datos, por ello se conoce también como de
distribución libre. En la mayor parte de ellas los resultados estadísticos se derivan
únicamente a partir de procedimientos de ordenación y recuento, por lo que su
base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas
en las que se desconoce si es válido suponer la normalidad de los datos, conviene
a partir de la utilización de la teoría basada en la normal. En estos casos se
emplea cómo parámetro de centralización la medida, que es aquel punto para el
que el valor de x está en el 50% de las veces por debajo y el 50% por encima.
Prueba de Friedman
En estadística la prueba friedman es una prueba no paramétrica
desarrollando por el economista Milton friedman. Equivalente a la prueba ANOVA
para medidas repetidas en la versión no paramétrica, el método consiste en
ordenar los datos por filas o bloques, reemplazándolos por su respectivo orden. Al
orden. Al ordenarlos debemos considerar la existencia de datos idénticos La

8
prueba de kruskal Wallis en estadística es un método no paramétrico para probar
si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al
ANOVA con los datos reemplazados por categorías.
Ya que la prueba no paramétrica de kruskal Wallis no asume normalidad en
los datos, en oposición al tradicional ANOVA. Si asume, bajo la hipótesis nula, que
los datos vienen de la misma distribución. Una forma común en que se viola este
supuesto es con los datos.
Prueba de los rangos con signo de wilcoxon estás pruebas determinan si
existe diferencias entre ellas, y se utiliza como alternativa a la prueba de t de
student cuando no se puede suponer la normalidad de dichas muestras. Debe su
nombre a Frank wilcoxon, que el público en 1945. Es una prueba no paramétrica
de comparación de dos muestras relacionadas y por lo tanto no necesita una
distribución específica. usa más bien el nivel ordinal de la variable dependiente. Se
utiliza para comparar dos mediciones relacionadas y determinar si la diferencia
entre ellas se debe al azar o no (en este último caso, que la diferencia sea
estadísticamente significativa).
Se utiliza cuando la variable subyacente es continua pero no es presupone
ningún tipo de distribución particular.
Estás pruebas se usa para comparar las diferencias entre dos muestras de
datos tomando antes y después del tratamiento, cuyo valor central se espera que
sea cero. Las diferencias iguales a cero son eliminadas y el valor absoluto de las
desviaciones con respecto al valor central son ordenadas de menor a mayor. A los
datos idénticos se les asigna el lugar medio en la serie. la suma de los rangos se
hace por separado para los signos positivos y los negativos, representa la menor
de esas dos sumas. Comparamos A con el valor proporcionado por las tablas
estadísticas al efecto para determinar si rechazamos o no la hipótesis nula, según
el nivel de significación elegido.

Tamaño Muestrales.
Todo estudio epidemiológico lleva implícito en la fase de diseño la
determinación del tamaño muestral necesario para la ejecución del mismo. El no

9
realizar dicho proceso, puede llevarnos a dos situaciones diferentes: primera que
realicemos el estudio sin el número adecuado de pacientes, con lo cual no
podremos ser precisos al estimar los parámetros y además no encontraremos
diferencias significativas cuando en la realidad sí existen. La segunda situación es
que podríamos estudiar un número innecesario de pacientes, lo cual lleva implícito
no solo la pérdida de tiempo e incremento de recursos innecesarios, sino que
además la calidad del estudio, dado dicho incremento, puede verse afectada en
sentido negativo.

Para determinar el tamaño muestral de un estudio, debemos considerar


diferentes situaciones (5-7):
A. Estudios para determinar parámetros. Es decir, pretendemos hacer inferencias
a valores poblacionales (proporciones, medias) a partir de una muestra
B. Estudios para contraste de hipótesis. Es decir, pretendemos comparar si las
medias o las proporciones de las muestras son diferentes.
Estimar una proporción:
Si deseamos estimar una proporción, debemos saber:
El nivel de confianza o seguridad. El nivel de confianza prefijado da lugar a
un coeficiente (Za). Para una seguridad del 95% = 1.96, para una seguridad del
99% = 2.58.
La precisión que deseamos para nuestro estudio.
Una idea del valor aproximado del parámetro que queremos medir (en este caso
una proporción). Esta idea se puede obtener revisando la literatura, por estudio
pilotos previos. En caso de no tener dicha información utilizaremos el valor p = 0.5
(50%).
Ejemplo: ¿A cuántas personas tendríamos que estudiar para conocer la
prevalencia de diabetes?
Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede
ser próxima al 5%; si no tuviésemos ninguna idea de dicha proporción
utilizaríamos el valor p = 0,5 (50%) que maximiza el tamaño muestral prueba
paramétricas para la comparación de las poblaciones

10
Las pruebas paramétricas son una herramienta estadística que se utiliza para el
análisis de los factores de la población. Esta muestra debe cumplir ciertos
requisitos como el tamaño, ya que mientras más grande sea, más exacto será el
cálculo.
Este método requiere que se especifique la forma de distribución de la
población materna estudiada. Puede tratarse, por ejemplo, de una distribución
normal, como ocurre en general cuando se trata de muestras de gran tamaño. En
general, estas pruebas sólo pueden aplicarse a variables numéricas.
Las pruebas paramétricas están basadas en la ley de distribución de la
variable que se estudia. A pesar de que existen muchos tipos de leyes de
distribución, éstas se basan en las normales, que tiene dos parámetros: la media y
la desviación estándar. Lo suficiente para conocer la probabilidad.

Modelos Multivariantes
Un modelo multivariado permite predecir para una observación determinada
en base a su patrón de covariables, el valor de una variable continua o la
probabilidad de ocurrencia de una variable dicotómica.
La estadística multivariante trata de comprender los diferentes objetivos y
antecedentes de cada una de las diferentes formas de análisis multivariante y
cómo se relacionan entre sí. La aplicación práctica de la estadística multivariante a
un problema particular puede involucrar varios tipos de análisis univariados y
multivariados para comprender las relaciones entre las variables y su relevancia
para el problema que se está estudiando.
Además, las estadísticas multivariadas se refieren a las distribuciones de
probabilidad multivariadas, en términos de:
cómo se pueden utilizar para representar las distribuciones de datos observados;
cómo se pueden utilizar como parte de inferencia estadística, particularmente
cuando varias cantidades diferentes son de interés para el mismo análisis. Ciertos
tipos de problemas que involucran datos multivariados, como, por ejemplo, la
regresión lineal simple y la múltiple, generalmente no se consideran casos
especiales de estadística multivariada porque el análisis se trata considerando la

11
distribución (univariada) condicional de una única variable respuesta dadas las
otras variables.

Un confundidor es una variable que está estadísticamente asociada a la


variable predictora y también lo está a la variable resultado o evento. ¿Por qué lo
llamamos confundidor? Porque en virtud de su asociación con ambas, genera una
asociación ficticia entre ambas, o modifica su sentido o magnitud. Lo que debe
quedar claro es que la asociación entre confundidor y resultado es real, y en todo
caso lo que deberemos explorar es si la que encontramos entre la variable
predictora y la variable resultado lo es. El confundidor es un predictor real del
resultado, o evento, no un intermediario de la relación entre la variable inicialmente
considerada y el resultado.
En cambio, decimos que hay interacción o modificación de efecto cuando el efecto
de una variable predictora sobre la variable respuesta difiere en diferentes estratos
de una tercera variable. La variable modificadora de efecto puede ser cualitativa o
cuantitativa. Cuando las variables interaccionan, el efecto conjunto es mayor
(interacción positiva) o menor (interacción negativa) que el esperado.
Entonces, en la asociación entre variable predictora y respuesta el
confundidor es una tercera variable que distorsiona dicha asociación, no
corresponde a un fenómeno real y al momento de describir dicha asociación en
sentido y magnitud, y debe ser corregido. El análisis estadístico permitirá definir la
asociación ajustando por la presencia del confundidor, de manera que pueda ser
adecuadamente cuantificada y expresada en un único valor de OR, RR, etc. La
confusión no corresponde a un fenómeno biológico.
La estratificación epidemiológica en los programas de Control puede
definirse como un proceso dinámico, Continuo de investigación, y diagnóstico,
análisis e Interpretación de información, que sirve para categorizar
Metodológicamente y de manera homogénea las áreas Geo ecológicas y grupos
de población de acuerdo a los Factores de riesgo. Esta estrategia tiene como
Característica principal el estudio epidemiológico en los Individuos y grupos
sociales definidos de los factores de Riesgo, responsables de la incidencia en el

12
ámbito local, y Permite definir las Intervenciones específicas de Prevención y
control, dirigidas a disminuir o eliminar los Principales factores. Es, por tanto, una
de las propuestas de enfoque y análisis epidemiológico a desarrollar.
Este procedimiento forma parte del proceso integrado de Diagnóstico-intervención
y evaluación, que, como parte del Enfoque epidemiológico de riesgo, sirve de
base, tanto para el diagnóstico situacional como en el apoyo para la toma de
decisiones de las estrategias de intervención.
La regresión lineal es la aproximación de un modelo lineal que se utiliza
para describir la relación entre dos o más variables. En la regresión lineal simple,
hay dos variables: una variable dependiente y una variable independiente. El
punto clave en la regresión lineal es que nuestro valor dependiente debe ser
continuo y no puede ser un valor discreto. Sin embargo, las variables
independientes pueden ser medidas en una escala de medida categórica o
continua.
Existen dos tipos de modelos de regresión lineal: regresión simple y regresión
múltiple. La regresión lineal simple es cuando se utiliza una variable independiente
para estimar una variable dependiente. Cuando se utiliza más de una variable
independiente, el proceso se denomina regresión lineal múltiple.
La mejor manera de entender la regresión lineal es dibujando nuestras
variables. Vamos a usar el tamaño del motor regresión lineal simple como una
variable independiente, y la Emisión como el valor objetivo que queremos predecir.
Un diagrama de dispersión muestra la relación entre estas variables. Además, se
ve que estas variables están relacionadas linealmente. Con la regresión lineal, se
puede ajustar una línea a través de los datos.
La línea de ajuste se muestra tradicionalmente como un polinomio. En un
problema de regresión simple (una sola variable independiente), la forma del
modelo sería y = \theta_0 + \theta_1 \cdot x_1. En esta ecuación, «y» es la
variable dependiente (valor pronosticado), x_1es la variable independiente, \
theta_1es conocida como «pendiente» y el valor\theta_0se conoce como
«ordenada en el origen». \theta_0y\theta_1son los coeficientes de la ecuación
lineal.

13
Cálculo de los coeficientes
Ahora la pregunta es ¿Cómo se determina cuál de las líneas «encaja mejor»?
¿Cómo calcular\theta_0y\theta_1para encontrar la mejor línea para «ajustar» los
datos?
Supongamos que ya hemos encontrado la mejor línea de ajuste para
nuestros datos. Solo nos faltaría comprobar lo bien que se ajustan los datos reales
con esta línea. Esto significa que, si para un elemento de la muestra tenemos un
valor de la variable independiente, la variable dependiente calculada debe
aproximarse muy cerca del valor real. Esto no suele ser así, ya que siempre suele
existir un error, y esto significa que nuestra línea de predicción no es precisa. Este
error se denomina error residual.
Podemos decir que el error es la distancia desde el punto de datos hasta la
línea de regresión ajustada y que la media de todos los errores residuales muestra
lo mal que encaja la línea con todo el conjunto de datos. Matemáticamente, es
calculado por la ecuación del error de cuadrado medio (ECM), o en inglés «mean
squared error» (MSE). El objetivo es encontrar una línea en la que se minimice la
media de todos estos errores.
\[ MSE=\frac{1}{n}\sum_{i=1}^{n}{(y_i-y'_i)^2} \]
Podemos utilizar unas fórmulas matemáticas para calcular\theta_0y\theta_1:
\theta_1 = \frac{\sum_{i=1} ^{s}{(x_i -\overline{x}) \cdot (y_i -\overline{y})}}{\
sum_{i=1}^{s}{(x_i -\overline{x}) ^2}}
\theta_0 = \overline{y} - \theta_1 \cdot \overline{x}
Se requiere que calculemos la media de las columnas independientes y
dependientes de todo el conjunto de datos, por lo que todos los datos deben estar
disponibles. Una vez calculada la media, se estima el valor de\theta_1y luego con
ese valor calcular\theta_0.
Realmente no necesitas recordar la fórmula para el cálculo de estos parámetros,
la mayoría de las librerías usadas para el aprendizaje automático en Python, R, y
Scala pueden encontrar fácilmente estos parámetros. Pero siempre es bueno
entender cómo funciona.

14
Después de que encontramos los parámetros de la ecuación lineal, hacer
predicciones es tan simple como solucionar la ecuación para un conjunto
específico de entradas.

Utilidad de la regresión lineal simple.


La regresión lineal es la más básica que hay que utilizar y entender. Es muy
útil, ya que es rápida y no requiere ajuste de parámetros como ocurre en otros
cálculos de predicción donde hay que ajustar el parámetro K en los K-Vecinos más
cercanos o la tasa de aprendizaje en las Redes Neuronales. La regresión lineal
también es fácil de entender y altamente interpretables.

15
Conclusiones

En conclusión, general los estudios de técnicas estadísticas bivariantes o


multivariantes permiten el análisis conjunto de dos o más características de los
individuos de una población con el propósito de detectar posibles relaciones entre
ellas. La naturaleza (nominal, ordinal o numérica) de las características objeto de
estudio determinará las herramientas más adecuadas para su análisis.

16
Bibliografía

http://www.helixbios.com/analisis-bivariable-y-multivariable

http://www.est.uc3m.es/esp/nueva_docencia/getafe/economia/estadistica_ii/
documentacion_transp_archivos/tema3esp.pdf

http://www.ub.edu/aplica_infor/spss/cap5-2.htm

https://blog.minitab.com/es/como-elegir-entre-una-prueba-no-parametrica-y-una-
prueba-parametrica#:~:text=Las%20pruebas%20param%C3%A9tricas%20t
%C3%ADpicas%20solo,afectadas%20por%20los%20valores%20at
%C3%ADpicos.

https://www.sac.org.ar/cuestion-de-metodo/que-es-un-modelo-multivariado/

http://www.est.uc3m.es/amalonso/esp/bstat-tema8vme.pdf

http://alceingenieria.net/bioestadistica/estratifica.pdf

http://www.labredes.unlu.edu.ar/sites/www.labredes.unlu.edu.ar/files/site/data/
bdm/clase_regresion.pdf

17

También podría gustarte