Análisis de correlación y regresión lineal

ESCUELA DE
MEDICINA
INFORME 10: " ANÁLISIS DE
CORRELACIÓN Y REGRESIÓN LINEAL
SIMPLE” Semestre / Año:
Ciclo V / 2021-I
Docente:
Dr. Rodríguez López Wilver Omero
Becerra Calderón Lili Maribel 2018217894

Benel Pérez Elmer 2020108104
Casas Gordillo Darwin Eduardo 2019152770
Castillo Milian Dayana Jasminne 2017223138
Castro Carrasco Jennifer Kathrin 2020235156
Chanamé Mego Brandon Sebastian 2020108983
Cruz carrillo Jesús Manuel 2019127781
Laino Pintado Enoc Jimmy Junior 2019113409
Grupo
07
2021
BIOESTADÍSTICA
INTRODUCCIÓN
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian
la relación lineal existente entre dos variables. Antes de profundizar en cada uno de
ellos, conviene destacar algunas diferencias:
• La correlación cuantifica como de relacionadas están dos variables, mientras que la

regresión lineal consiste en generar una ecuación (modelo) que, basándose en la
relación existente entre ambas variables, permita predecir el valor de una a partir de la
otra.
• El cálculo de la correlación entre dos variables es independiente del orden o asignación

de cada variable a e, mide únicamente la relación entre ambas sin considerar
dependencias. En el caso de la regresión lineal, el modelo varía según qué variable se
considere dependiente de la otra (lo cual no implica causa efecto).
• A nivel experimental, la correlación se suele emplear cuando ninguna de las variables

se ha controlado, simplemente se han medido ambas y se desea saber si están
relacionadas. En el caso de estudios de regresión lineal, es más común que una de las
variables se controle (tiempo, concentración de reactivo, temperatura...) y se mida la
otra.
• Por norma general, los estudios de correlación lineal preceden a la generación de

modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.
1
BIOESTADÍSTICA
OBJETIVOS
1. Realizar prueba de hipótesis del coeficiente de correlación de Pearson.

2. Construir la ecuación de regresión lineal.
3. Interpretar coeficiente de determinación.
2
BIOESTADÍSTICA
MARCO TEÓRICO
CORRELACIÓN LINEAL
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos
parámetros es la covarianza, que indica el grado de variación conjunta de dos variables
aleatorias.
Siendo e la media de cada variable y 𝑥𝑖 e 𝑦𝑖 el valor de las variables para la

observación .
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo
tanto, no es comparable entre distintos pares de variables. Para poder hacer
comparaciones se estandariza la covarianza, generando lo que se conoce como
coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el
coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
• Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y 1
una correlación negativa perfecta.
• Se emplean como medida de fuerza de asociación (tamaño del efecto):
– 0: asociación nula.
– 0.1: asociación pequeña.
– 0.3: asociación mediana.
– 0.5: asociación moderada.
– 0.7: asociación alta.
– 0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación son:
• La correlación de Pearson funciona bien con variables cuantitativas que tienen una
distribución normal. En el libro Handbook of Biological Statatistics se menciona que
sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los
valores extremos que las otras dos alternativas.
3
BIOESTADÍSTICA
• La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo,

o bien cuando no se satisface la condición de normalidad para variables continuas
y los datos se pueden transformar a rangos. Es un método no paramétrico.
• La correlación de Kendall es otra alternativa no paramétrica para el estudio de la

correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y
muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay muchas
ligaduras.
Además del valor obtenido para el coeficiente de correlación, es necesario calcular su

significancia. Solo si el p-value es significativo se puede aceptar que existe correlación, y
esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del
coeficiente de correlación a +1 o −1, si no es significativo, se ha de interpretar que la
correlación de ambas variables es 0, ya que el valor observado puede deberse a simple
aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de

correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras, por un
lado está el parámetro estimado (en este caso el coeficiente de correlación) y por otro
su significancia a la hora de considerar la población entera. Si se calcula el coeficiente de
correlación entre e en diferentes muestras de una misma población, el valor va a
variar dependiendo de las muestras utilizadas. Por esta razón se tiene que calcular la
significancia de la correlación obtenida y su intervalo de confianza.
Para este test de hipótesis, 𝐻0 considera que las variables son independientes
(coeficiente de correlación poblacional = 0) mientras que, la 𝐻𝑎, considera que existe
relación (coeficiente de correlación poblacional 0)
La correlación lineal entre dos variables, además del valor del coeficiente de correlación
y de sus significancia, también tiene un tamaño de efecto asociado. Se conoce como
coeficiente de determinación 𝑅2. Se interpreta como la cantidad de varianza de
explicada por . En el caso del coeficiente de Pearson y el de Spearman, 𝑅2 se obtiene
elevando al cuadrado el coeficiente de correlación. En el caso de Kendall no se puede
calcular de este modo. (No he encontrado como se calcula).
Mediante bootstrapping también se puede calcular la significancia de un coeficiente de

correlación. Es una alternativa no paramétrica al t-test. Resampling: Test de
permutación, Simulación de Monte Carlo y Bootstrapping).
4
BIOESTADÍSTICA
COEFICIENTE DE PEARSON
El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación

difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o
si se aplica la población Coeficiente de Pearson poblacional ( ).
CONDICIONES
• La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario,
el coeficiente de Pearson no la puede detectar).
• Las dos variables deben de ser cuantitativas.
• Normalidad: ambas variables se tienen que distribuir de forma normal. Varios
textos defienden su robustez cuando las variables se alejan moderadamente de la
normal.
• Homocedasticidad: La varianza de debe ser constante a lo largo de la variable
. Esto se puede identificar si en el scatterplot los puntos mantienen la misma
dispersión en las distintas zonas de la variable . Esta condición no la he encontrado
mencionada en todos los libros.
CARACTERÍSTICAS
• Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y -1
una correlación lineal negativa perfecta.
• Es una medida independiente de las escalas en las que se midan las variables.
• No varía si se aplican transformaciones a las variables.
• No tiene en consideración que las variables sean
dependientes o independientes.
• El coeficiente de correlación de Pearson no equivale a la pendiente de la recta de
regresión.
• Es sensible a outliers, por lo que se recomienda en caso de poder justificarlos,
excluirlos del análisis.
5
BIOESTADÍSTICA
INTERPRETACIÓN
Además del valor obtenido para el coeficiente, es necesario calcular su significancia. Solo
si el p-value es significativo se puede aceptar que existe correlación y esta será de la
magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de
correlación a +1 o -1, si no es significativo, se ha de interpretar que la correlación de
ambas variables es 0 ya que el valor observado se puede deber al azar. (Ver más adelante
como calcular la significancia).
COEFICIENTE DE SPEARMAN (Spearman's rho)
El coeficiente de Spearman es el equivalente al coeficiente de Pearson pero con una

previa transformación de los datos a rangos. Se emplea como alternativa cuando los
valores son ordinales, o bien, cuando los valores son continuos pero no satisfacen la
condición de normalidad requerida por el coeficiente de Pearson y se pueden ordenar
transformándolos en rangos. Al trabajar con rangos, es menos sensible que Pearson a
valores extremos. Existe una diferencia adicional con respecto a Pearson. El coeficiente
de Spearman requiere que la relación entre las variables sea monótona, es decir, que
cuando una variable crece la otra también lo hace o cuando una crece la otra decrece
(que la tendencia sea constante). Este concepto no es exactamente el mismo que
linealidad.
Siendo 𝑑𝑖 la distancia entre los rangos de cada observación (𝑥𝑖 − 𝑦𝑖) y n el número de
observaciones.
COEFICIENTE TAU DE KENDALL
Trabaja con rangos, por lo que requiere que las variables cuya relación se quiere
estudiar sean ordinales o que se puedan transformar en rangos. Al ser no paramétrico,
es otra alternativa al Coeficiente de correlación de Pearson cuando no se cumple la
condición de normalidad. Parece ser más aconsejable que el coeficiente de Spearman
cuando el número de observaciones es pequeño o los valores se acumulan en una región
por lo que el número de ligaduras al generar los rangos es alto.
,
Siendo el número de pares concordantes, aquellos en los que el rango de la segunda

variable es mayor que el rango de la primera variable. el número de pares
6
BIOESTADÍSTICA
discordantes, cuando el rango de la segunda es igual o menor que el rango de la primera

variable.
Tau represents a probability; that is, it is the difference between the probability that the
two variables are in the same order in the observed data versus the probability that the
two variables are in different orders.
JACKKNIFE CORRELATION
El coeficiente de correlación de Pearson resulta efectivo en ámbitos muy diversos, sin

embargo, tiene la desventaja de no ser robusto frente a outliers a pesar de que se cumpla
la condición de normalidad. Si dos variables tienen un pico o un valle común en una
única observación, por ejemplo por un error de lectura, la correlación va a estar
dominada por este registro a pesar de que entre las dos variables no haya correlación
real alguna. Lo mismo puede ocurrir en la dirección opuesta. Si dos variables están
altamente correlacionadas excepto para una observación en la que los valores son muy
dispares, entonces la correlación existente quedará enmascarada. Una forma de evitarlo
es recurrir a la Jackknife correlation, que consiste en calcular todos los posibles
coeficientes de correlación entre dos variables si se excluye cada vez una de las
observaciones. El promedio de todas las Jackknife correlations calculadas atenuará en
cierta medida el efecto del outlier.
Donde es el número de observaciones y es el coeficiente de correlación de Pearson

estimado entre las variables y , habiendo excluido la observación .
Además del promedio, se puede estimar su error estándar (𝑆𝐸) y así obtener
intervalos de confianza para la Jackknife correlation y su correspondiente p-value.
Intervalo de confianza del 95% (𝑍 = 1.96)
7
BIOESTADÍSTICA
P-value para la hipótesis nula de que 𝜃 = 0:
Cuando se emplea este método es conveniente calcular la diferencia entre el valor de

correlación obtenido por Jackknife correlation y el que se obtiene si se emplean todas
las observaciones (𝑟). A esta diferencia se le conoce como Bias. Su magnitud es un
indicativo de cuanto está influenciada la estimación de la correlación entre dos variables
debido a un valor atípico u outlier.
Si se calcula la diferencia entre cada correlación estimada en el proceso de Jackknife

y el valor de correlación (^𝑟) obtenido si se emplean todas las observaciones, se puede
identificar que observaciones son más influyentes.
Cuando el estudio requiere minimizar al máximo la presencia de falsos positivos, a pesar
de que se incremente la de falsos negativos se puede seleccionar como valor de
correlación el menor de entre todos los calculados en el proceso de Jackknife.
A pesar de que el método de Jackknife permite aumentar la robustez de la correlación de

Pearson, si los outliers son muy extremos su influencia seguirá siendo notable. Siempre
es conveniente una representación gráfica de los datos para poder identificar si hay
valores atípicos y eliminarlos. Otras alternativas robustas son la correlación de
Spearman o el método de Bootstrapping.
8
BIOESTADÍSTICA
REGRESIÓN LINEAL SIMPLE
La información aquí presente recoge los principales conceptos de la regresión lineal. Se

puede encontrar una descripción mucho más detallada en los libros Introduction to
Statistical Learning y en Linear Models with R.
La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una

recta) que permita explicar la relación lineal que existe entre dos variables. A la variable
dependiente o respuesta se le identifica como y a la variable predictora o
independiente como .
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝜖
Siendo 𝛽0 la ordenada en el origen, 𝛽1 la pendiente y el error aleatorio. Este último

representa la diferencia entre el valor ajustado por la recta y el valor real. Recoge el
efecto de todas aquellas variables que influyen en pero que no se incluyen en el modelo
como predictores. Al error aleatorio también se le conoce como residuo.
En la gran mayoría de casos, los valores 𝛽0 y 𝛽1 poblacionales son desconocidos, por lo

que, a partir de una muestra, se obtienen sus estimaciones . Estas estimaciones
se conocen como coeficientes de regresión o least square coefficient estimates, ya que
toman aquellos valores que minimizan la suma de cuadrados residuales, dando lugar a
la recta que pasa más cerca de todos los puntos. (Existen alternativas al método de
mínimos cuadrados para obtener las estimaciones de los coeficientes).
Donde 𝑆𝑦 y 𝑆𝑥 son las desviaciones típicas de cada variable y el coeficiente de

correlación.
es el valor esperado la variable cuando = 0, es decir, la intersección de la recta
con el eje y. Es un dato necesario para generar la recta pero, en ocasiones, no tiene
interpretación práctica (situaciones en las que no puede adquirir el valor 0).
Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de

ellos es necesario satisfacer distintas condiciones. En caso de querer medir la relación
lineal entre dos variables, la recta de regresión lo va a indicar de forma directa (ya que
9
BIOESTADÍSTICA
calcula la correlación). Sin embargo, en caso de querer predecir el valor de una variable
en función de la otra, no solo se necesita calcular la recta, sino que además hay que
asegurar que el modelo sea bueno.
CONDICIONES PARA LA REGRESIÓN LINEAL
1. Linealidad: La relación entre ambas variables debe ser lineal. Para comprobarlo se
puede recurrir a:
– Graficar ambas variables a la vez (scatterplot o diagrama de dispersión),
superponiendo la recta del modelo generado por regresión lineal.
– Calcular los residuos para cada observación acorde al modelo generado y
graficarlos (scatterplot). Deben distribuirse de forma aleatoria en torno al
valor 0.
2. Distribución Normal de los residuos: Los residuos se tiene que distribuir de
forma normal, con media igual a 0. Esto se puede comprobar con un histograma,
con la distribución de cuantiles (qqnorm() + qqline()) o con un test de hipótesis de
normalidad. Los valores extremos suelen ser una causa frecuente por la que se viola
la condición de normalidad.
3. Varianza de residuos constante (homocedasticidad): La varianza de los

residuos ha de ser aproximadamente constante a lo largo del eje . Se puede
comprobar mediante gráficos (scatterplot) de los residuos de cada observación
(formas cónicas son un claro indicio de falta de homocedasticidad) o mediante
contraste de hipótesis mediante el test de Breusch-Pagan.
4. Valores atípicos y de alta influencia: Hay que estudiar con detenimiento los
valores atípicos o extremos ya que pueden generar una falsa correlación que
realmente no existe, u ocultar una existente. (Ver descripción detallada en la
sección de apuntes varios).
5. Independencia, Autocorrelación: Las observaciones deben ser independientes

unas de otras. Esto es importante tenerlo en cuenta cuando se trata de mediciones
temporales. Puede detectarse estudiando si los residuos siguen un patrón o
tendencia. Otro caso frecuente es el de tener varias mediciones para un mismo
sujeto. En estos casos, primero se obtiene la media de cada uno y después se ajusta
el modelo empleando las medias.
Dado que las condiciones se verifican a partir de los residuos, primero se suele generar
el modelo y después se valida. De hecho, el ajuste de un modelo debe verse como un
proceso iterativo en el que se ajusta un modelo inicial, se evalúa mediante sus residuos
y se mejora. Así hasta llegar a un modelo óptimo.
10
BIOESTADÍSTICA
INFERENCIA MEDIANTE REGRESIÓN LINEAL. SIGNIFICANCIA E INTERVALO DE

CONFIANZA PARA 𝖰𝖰 y 𝖰𝖰
En la mayoría de casos, aunque el estudio de regresión se aplica a una muestra, el

objetivo último es obtener un modelo lineal que explique la relación entre las dos
variables en toda la población. Esto significa que el modelo generado es una estimación
de la relación poblacional a partir de la relación que se observa en la muestra y, por lo
tanto, está sujeta a variaciones. Para cada uno de los parámetros de la ecuación de
regresión lineal simple (𝛽0 y 𝛽1) se puede calcular su significancia (p-value) y su
intervalo de confianza. El test estadístico más empleado es el t-test (existen alternativas
no paramétricas).
El test de significancia para la pendiente (𝛽1) del modelo lineal considera como
hipótesis:
• 𝐻0: No hay relación lineal entre ambas variables por lo que la pendiente del modelo
lineal es cero. 𝛽1 = 0
• 𝐻𝑎: Sí hay relación lineal entre ambas variables por lo que la pendiente del modelo
lineal es distinta de cero. 𝛽1 ≠ 0
De esta misma forma también se aplica a (𝛽0)
CÁLCULO DEL ESTADÍSTICO T y del p-value:
El error estándar de 𝛽0 y 𝛽1 se calcula con las siguientes ecuaciones:
La varianza del error 𝜎2 se estima a partir del Residual Standar Error (RSE), que puede
entenderse como la diferencia promedio que se desvía la variable respuesta de la
verdadera línea de regresión. En el caso de regresión lineal simple, RSE equivale a:
11
BIOESTADÍSTICA
• Grados de libertad (df) = número observaciones - 2 = número observaciones

número predictores - 1
• p-value = P(|t| > valor calculado de t)
INTERVALOS DE CONFIANZA
Cuanto menor es el número de observaciones , menor la capacidad para calcular el

error estándar del modelo. Como consecuencia, la exactitud de los coeficientes de
regresión estimados se reduce. Esto tiene importancia sobretodo en la regresión
múltiple.
12
BIOESTADÍSTICA
CUESTIONARIO
1.-El diagnóstico de la deficiencia de cobre (Cu) es dificultoso cuando se toma como

único parámetro a la cupremia, pues en las deficiencias moderadas de cobre esta no
siempre disminuye. En el curso de una investigación cuyo objetivo era determinar la
relación entre los niveles de Cu sanguíneo y hepático (para poder evaluar así la fiabilidad
que aportan los valores de la cupremia), se muestreó sangre e hígado de un cierto
número de animales de laboratorio para determinar nivel de Cu, ceruloplasmina oxidasa
(CPO), hemoglobina y hematocrito. Los valores de hematocrito y hemoglobina fueron
normales en todos los casos. A continuación, se reproducen los valores de Cu sérico y
CPO correspondientes a una muestra aleatoria de 6 del total de los casos estudiados:
¿Puede afirmarse que hay relación lineal significativa entre ambos indicadores?
Cu sérico CPO XY
0.4 9 0.16 81 3.6
0.45 23 0.2025 529 10.35
0.52 32 0.2704 1024 16.64
0.7 28 0.49 784 19.6
0.87 42 0.7569 1764 36.54
0.92 57 0.8464 3249 52.44
TOTAL 3.86 191 2.7262 7431 139.17
13
BIOESTADÍSTICA
= 0.809
• el coeficiente de correlación indica una relación lineal directa intensa
• Ho: r = 0
H1: r ¹ 0
• el nivel de significancia no se indica, por ello se asume que es 0.05

•
• tt = t n-2 → t4
=2.78
• tc = 4.07 vs tt = 2.78
• Debido a que el valor de tc es mayor al valor hallado en la tabla (t 4), se debe rechazar la
hipótesis nula (Ho). La hipótesis nula (Ho) establece que no existe una relación lineal, es
decir, que el coeficiente de correlación (r) es igual a 0.
14
BIOESTADÍSTICA
2. El Gerente de una Clínica dispone de la siguiente información:
a) Grafique y determine la ecuación de la tendencia

Para ello tenemos que ordenar nuestros datos, en este caso lo haremos mediante
tablas:
Observación Año (X) Cirugías (Y) X2 Y2 XY
1 2008 120 4032064 14400 240960
2 2009 143 4036081 20449 287287
3 2010 150 4040100 22500 301500
4 2011 170 4044121 28900 341870
5 2012 162 4048144 26244 325944
6 2013 158 4052169 24964 318054
Total 12063 903 24252679 137457 1815615
Ahora, para determinar la ecuación de tendencia (regresión), primero tendremos que hallar el
valor de b, utilizando la siguiente fórmula:
15
BIOESTADÍSTICA
Reemplazamos:
No redondeamos el valor de b, debido a que el valor de a resultaría distinto.
Ahora, hallaremos el valor de a:
Reemplazando:
Por tanto, la ecuación de la regresión sería la siguiente:
Interpretación: Por cada incremento de un año, el número de cirugías en dicha clínica

aumentan en 7.6 puntos.
16
BIOESTADÍSTICA
La forma de la relación entre las variables “año” y “número de cirugías” es de una línea directa,
o dicho de otra forma, es un relación positiva o directamente relacionada.
b) Proyecte las cirugías al corazón para el año 2014
Para ello, utilizaremos la ecuación de regresión de la anterior pregunta, y estimaremos el

número de cirugías al 2014:
Interpretación: Se estima al 2014, un aproximado de 178 cirugías en dicha clínica.
3.- Se efectúa un experimento médico para determinar el efecto de la droga efedrina en

las pulsaciones del corazón. Un paciente recibe diversas dosis diarias de la droga
durante seis días. La tabla que sigue resume los resultados del experimento.
DOSIS DIARIA Nº DE
TOTAL DE PULSACIONES
EFEDRINA(gramos) POR MINUTO
3 70
2 60
1 50
17
BIOESTADÍSTICA
3 80
5 100
4 90
Nota. 1 gramo = 0.06 gramos
a. Grafique un diagrama de dispersión
Efecto de la droga efedrina en las pulsaciones del

corazón
120
100
80
60
40
20
0
0 1 2 3 4 5 6
Dosis diarias total de efedrina(gramos)
b. Determine la ecuación de regresión lineal. Interprete los coeficientes de regresión

lineal. Grafique sobre el diagrama de dispersión, la línea de regresión.
• ECUACIÓN DE REGRESIÓN LINEAL

DOSIS DIARIA N.º DE
TOTAL, DE PULSACIONES POR
EFEDRINA MINUTO
xy
3 70 9 4900 210
2 60 4 3600 120
1 50 1 2500 50
3 80 9 6400 240
5 100 25 10000 500
4 90 16 8100 360
TOTAL 18 450 64 35500 1480
18
BIOESTADÍSTICA
18 ×450
1480 − 6
324 = = = 13
64− 6
= 450 − (13) == 75 − 39 = 36
6
Conociendo los valores de b y a, se tiene el modelo de regresión estimado que sería
Y=36+13X-> y=13X+36
INTERPRETACIÓN: Por cada incremento de dosis de Efedrina, el número de pulsaciones

promedio aumenta en 13 puntos.
Efecto de la droga Efedrina en las pulsaciones del

corazón y = 13x + 36
150 R² = 0.9657
100 Nº DE PULSACIONES POR

MINUTO
50
Lineal (Nº DE
0 PULSACIONES POR
0 1 2 3 4 5 6 MINUTO)
Dosis diarias total de efedrina(gramos)
c. Estímese el número de pulsaciones para una dosis diaria de 4 granos de efedrina.
SOLUCIÓN:
y = 13*(4) + 36 = 88
d. Calcule e interprete el coeficiente de correlación.
SOLUCIÓN:
r = 98.27%
Interpretación: indica una relación lineal exacta positiva intensa (creciente) de

98.27%
19
BIOESTADÍSTICA
e. Calcule e interprete el coeficiente de determinación
SOLUCIÓN:
R = 96.57%
Interpretación: indica la variación del número de pulsaciones por minuto quedará

explicada en 96,57% por la ecuación de regresión que está en función de la Dosis
diaria total de efedrina (granos).
20
BIOESTADÍSTICA
CONCLUSIONES
1. El coeficiente de correlación de Pearson, Es una prueba estadística para analizar

la relación entre dos variables medidas en un nivel por intervalos o de razón. Se
le conoce también como “coeficiente producto-momento”. Se calcula a partir de
las puntuaciones obtenidas en una muestra en dos variables. Se relacionan las
puntuaciones recolectadas de una variable con las puntuaciones obtenidas de la
otra, con los mismos participantes o casos.
2. El análisis de regresión es solo una herramienta más dentro de las opciones para
que el clínico y el investigador se acerquen a la naturaleza de los resultados. Es
un modelo estadístico para estimar el efecto de una variable sobre otra. Está
asociado con el coeficiente r de Pearson. Brinda la oportunidad de predecir las
puntuaciones de una variable a partir de las puntuaciones de la otra variable.
Entre mayor sea la correlación entre las variables (covariación), mayor
capacidad de predicción.
3. Los coeficientes rho de Spearman, simbolizado como rs, y tau de Kendall,
simbolizado como t, son medidas de correlación para variables en un nivel de
medición ordinal (ambas), de tal modo que los individuos, casos o unidades de
análisis de la muestra pueden ordenarse por rangos (jerarquías). Son
coeficientes utilizados para relacionar estadísticamente escalas tipo Likert por
aquellos investigadores que las consideran ordinales.
21
BIOESTADÍSTICA
REFERENCIAS
BIBLIOGRÁFICAS
1. Moncho J. Análisis de regresión simple. 1º edición. España: Elsevier; 2015

2. Cruz A. Correlación y Regresión Lineal [Internet]. Perú; 2005 [consultado el
citado el 28 de marzo 2021]. Disponible en:
https://www.monografias.com/trabajos30/prueba-de-hipotesis/prueba-
de-hipotesis.shtml
3. Agustin G. Regresión Lineal [internet]. Cáceres: Universidad de
Extremadura; 2011 [citado el 28 de marzo 2021]. Disponible en:
https://mascvuex.unex.es/ebooks/sites/mascvuex.unex.es.mascvuex.eboo
ks/files/files/file/Bioestadistica_9788469494325.pdf
4. Toykin D. Correlación Simple. Universidad Continental [Internet]. 2019
[citado el 28 de marzo 2021]; Disponible en:
https://repositorio.continental.edu.pe/handle/20.500.12394/5858
5. Fernández L, Muñoz M, Rodríguez M, Sánchez M, Valero A. Regresión Simple.
[Internet]. Cádiz: Universidad de Cádiz. 2009 [citado el 28 de marzo 2021].
Disponible en: https://libros.metabiblioteca.org/handle/001/140
22

Análisis de correlación y regresión lineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de correlación y regresión lineal

Cargado por

Copyright:

Formatos disponibles

ESCUELA DE

Becerra Calderón Lili Maribel 2018217894

• La correlación cuantifica como de relacionadas están dos variables, mientras que la

• El cálculo de la correlación entre dos variables es independiente del orden o asignación

• A nivel experimental, la correlación se suele emplear cuando ninguna de las variables

• Por norma general, los estudios de correlación lineal preceden a la generación de

1. Realizar prueba de hipótesis del coeficiente de correlación de Pearson.

Siendo e la media de cada variable y 𝑥𝑖 e 𝑦𝑖 el valor de las variables para la

Las principales diferencias entre estos tres coeficientes de asociación son:

• La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo,

• La correlación de Kendall es otra alternativa no paramétrica para el estudio de la

Además del valor obtenido para el coeficiente de correlación, es necesario calcular su

El test paramétrico de significancia estadística empleado para el coeficiente de

Mediante bootstrapping también se puede calcular la significancia de un coeficiente de

El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación

COEFICIENTE DE SPEARMAN (Spearman's rho)

El coeficiente de Spearman es el equivalente al coeficiente de Pearson pero con una

COEFICIENTE TAU DE KENDALL

Siendo el número de pares concordantes, aquellos en los que el rango de la segunda

discordantes, cuando el rango de la segunda es igual o menor que el rango de la primera

El coeficiente de correlación de Pearson resulta efectivo en ámbitos muy diversos, sin

Donde es el número de observaciones y es el coeficiente de correlación de Pearson

Intervalo de confianza del 95% (𝑍 = 1.96)

P-value para la hipótesis nula de que 𝜃 = 0:

Cuando se emplea este método es conveniente calcular la diferencia entre el valor de

Si se calcula la diferencia entre cada correlación estimada en el proceso de Jackknife

A pesar de que el método de Jackknife permite aumentar la robustez de la correlación de

REGRESIÓN LINEAL SIMPLE

La información aquí presente recoge los principales conceptos de la regresión lineal. Se

La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una

El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

Siendo 𝛽0 la ordenada en el origen, 𝛽1 la pendiente y el error aleatorio. Este último

En la gran mayoría de casos, los valores 𝛽0 y 𝛽1 poblacionales son desconocidos, por lo

Donde 𝑆𝑦 y 𝑆𝑥 son las desviaciones típicas de cada variable y el coeficiente de

Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de

CONDICIONES PARA LA REGRESIÓN LINEAL

3. Varianza de residuos constante (homocedasticidad): La varianza de los

5. Independencia, Autocorrelación: Las observaciones deben ser independientes

INFERENCIA MEDIANTE REGRESIÓN LINEAL. SIGNIFICANCIA E INTERVALO DE

En la mayoría de casos, aunque el estudio de regresión se aplica a una muestra, el

De esta misma forma también se aplica a (𝛽0)

CÁLCULO DEL ESTADÍSTICO T y del p-value:

El error estándar de 𝛽0 y 𝛽1 se calcula con las siguientes ecuaciones:

• Grados de libertad (df) = número observaciones - 2 = número observaciones

• p-value = P(|t| > valor calculado de t)

Cuanto menor es el número de observaciones , menor la capacidad para calcular el

1.-El diagnóstico de la deficiencia de cobre (Cu) es dificultoso cuando se toma como

• el coeficiente de correlación indica una relación lineal directa intensa

• el nivel de significancia no se indica, por ello se asume que es 0.05

2. El Gerente de una Clínica dispone de la siguiente información:

a) Grafique y determine la ecuación de la tendencia

1 2008 120 4032064 14400 240960

2 2009 143 4036081 20449 287287

3 2010 150 4040100 22500 301500

4 2011 170 4044121 28900 341870

5 2012 162 4048144 26244 325944

6 2013 158 4052169 24964 318054

Total 12063 903 24252679 137457 1815615

No redondeamos el valor de b, debido a que el valor de a resultaría distinto.

Ahora, hallaremos el valor de a:

Por tanto, la ecuación de la regresión sería la siguiente:

Interpretación: Por cada incremento de un año, el número de cirugías en dicha clínica

b) Proyecte las cirugías al corazón para el año 2014