Está en la página 1de 45

Universidad Veracruzana

Región Orizaba - Córdoba


Campus Ciudad Mendoza
EE Bioestadística
Académico: Dr. Guillermo Ruiz Navarro
Tema: Análisis de Regresión y correlación
Elaborado por: Miguel Ángel Córdova López
Fecha: 23 de marzo de 2020
MISIÓN
Formar médicos generales competentes para promover la salud, prevenir,
diagnosticar, tratar y rehabilitar las enfermedades que afectan a la población; a
través de un programa educativo de calidad, pertinente, que fomenta la
investigación, distribución del conocimiento, innovación y la sustentabilidad.

VISIÓN
En el año 2030 el programa educativo de Licenciatura de Medico Cirujano de la
Universidad Veracruzana, es reconocido por formar profesionales competentes y
humanistas en los ámbitos estatales, nacionales e internacionales; a través de la
docencia, investigación, difusión de la cultura, vinculación con los sectores de la
sociedad, con una organización académica y administrativa moderna, innovadora y
sustentable, fundamentada en la legislación universitaria.
• El análisis de regresión consiste en emplear métodos que permitan
determinar la mejor relación funcional entre dos o más variables
concomitantes (o relacionadas). El análisis de correlación estudia el
grado de asociación de dos o más variables.
• Una relación funcional matemáticamente hablando, está dada por:

Y = f(x1,...,xn; θ1,...,θm)
donde:

Y : Variable respuesta (o dependiente)


xi : La i-ésima variable independiente (i=1,..,n)
θj : El j-ésimo parámetro en la función (j=1,..,m)
f : La función
• Para elegir una relación funcional particular como la representativa de
la población bajo investigación, usualmente se procede:

1) Una consideración analítica del fenómeno que nos ocupa, y


2) Un examen de diagramas de dispersión.
• Una vez decidido el tipo de función matemática que mejor se ajusta
(o representa nuestro concepto de la relación exacta que existe entre
las variables) se presenta el problema de elegir una expresión
particular de esta familia de funciones; es decir, se ha postulado una
cierta función como término del verdadero estado en la población y
ahora es necesario estimar los parámetros de esta función (ajuste de
curvas).
• Como los valores de los parámetros no se pueden determinar sin
errores por que los valores observados de la variable dependiente no
concuerdan con los valores esperados, entonces la ecuación general
replanteada, estadísticamente, sería:

Y = f(x1,...xn;θ1,...,θm) + ε

donde ε respresenta el error cometido en el intento de observar la


característica en estudio, en la cual muchos factores contribuyen al valor
que asume ε.
Cuando la relación funcional entre las variables dependiente (Y) e independiente
(X) es una línea recta, se tiene una regresión lineal simple, dada por la ecuación

Y = ßo + ß1X + ε

donde:

ßo : El valor de la ordenada donde la línea de regresión se intersecta al eje Y. ß1 :


El coeficiente de regresión poblacional (pendiente de la línea recta) ε : El error.
Suposiciones de la regresión lineal
1. Los valores de la variable independiente X son "fijos".
2. La variable X se mide sin error (se desprecia el error de medición en X)
3. Existe una subpoblacion de valores Y normalmente distribuido para
cada valor de X.
4. Las variancias de las subpoblaciones de Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la misma
recta.
6. Los valores de Y están normalmente distribuidos y son
estadísticamente independientes
Los supuestos del 3 al 6 equivalen a decir que los errores son
aleatorios, que se distribuyen normalmente con media cero y variancia
σ².
Promedios

Sumas de cuadrados de productos de X y Y

SCY también corresponde a la suma de cuadrados total = SC total


Estimación de parámetros
La función de regresión lineal simple es expresado como:
Y = ßo + ß1X + ε
la estimación de parámetros consiste en determinar los parámetros ßo
y ß1 a partir de los datos muestrales observados; es decir, deben
hallarse valores como bo y b1 de la muestra, que represente a ßo y ß1,
respectivamente.
Empleando el método de los mínimos cuadrados, es decir minimizando
la suma de cuadrados de los errores, se determinan los valores de bo y
b1, así:
• b0 : es el valor que representa (estimador) a ß0 constituye el intercepto
cuando X=0; b1 : es el valor que representa (estimador) a ß1.
• Sus desviaciones estándares respectivas son:

• Luego, la ecuación de regresión es: y = bo + b1X


• El coeficiente de regresión (b1) .- pendiente de la recta de regresión,
representa la tasa de cambio de la respuesta Y al cambio de una unidad en
X.
• Si b1=0, se dice que no existe relación lineal entre las dos variables.
Fuentes de variación en la regresión lineal
• Los cálculos de regresión pueden ser vistos como un proceso de
partición de la suma total de cuadrados; así, gráficamente se tiene:


• Se observa que la desviación total para un Yi en particular es igual a la
suma de las desviaciones explicada e inexplicada, simbolicamente.
Luego:

• SC total = SC regresion + SC residual


• Suma de Cuadrados del Total (SCT), mide la dispersión (variación
total) en los valores observados de Y. Este término se utiliza para el
cálculo de la variancia de la muestra.
• Suma de Cuadrados explicada (Suma de Cuadrados debido a la
Regresión, SCR) mide la variabilidad total en los valores observados de
Y en consideración a la relación lineal entre X e Y.
• Suma de Cuadrados residual (inexplicada, Suma de Cuadrados del
Error, SCE) mide la dispersión de los valores Y observados respecto a
la recta de regresión Y (es la cantidad que se minimiza cuando se
obtiene la recta de regresión).
Análisis de Variancia para la regresión lineal
simple
Cuando cada partición se asocia a una porción correspondiente del
total de grados de libertad, la técnica es conocida cono analisis de
variancia (ANVA), que generalmente se presenta en un cuadro de la
siguiente forma:
• La prueba estadística “F” evalua las hipótesis:

• Hp: ß1 = 0. No existe una regresión lineal entre X e Y.

• Ha: ß1 ≠ 0. Existe regresion lineal de Y en función de X.


• Para el ejemplo del grafico (año base 1990 = 0)
• Modelo de regresión estimado:
• Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X
• X = El periodo.
• R² = (49223 / 105526) *100% = 46%
• Intercepto = 467,42
• Tasa = 24,42
• Significa que el crecimiento anual es de 24 mil metros cúbicos.
Intervalos de confianza para ß1 (tasa)
• En muchos casos es de interés conocer entre que valores se
encuentra el coeficiente de regresión de la población ß1 para un
cierto grado de confianza fijada, este procedimiento permite hallar los
valores llamados límites de confianza, así:

• b1 - t0 Sb1 ≤ ß1 ≤ b1 + to Sb1

• donde: t0 es el valor "t" tabular al nivel de significación α y n-2 grados


de libertad ( t0 = tα,n-2).
• t 0.05, 8 = 2,30; SC X = 82.5; Sb1 = 9,23

• Limite Inferior = 24,42 – 2,30 (9,23) = 3.12

• Limite Superior = 24,42 + 2,30 (9,23) = 45,72


• Con estos resultados se puede afirmar al 95% de confianza que la tasa
de crecimiento en madera aserrada es positiva y por lo menos se
tendrá un crecimiento de 3 mil metros cubicos por año.

• En función del modelo se puede hacer estimaciones para los


siguientes años:
• Estas proyecciones son puntuales, en base al modelo; para año 2000,
X=10, resulta una producción de 711 mil m3 de madera aserrada.

• Para obtener limites de confianza para estos valores predichos, se


debe determinar sus desviaciones estándar correspondiente; utilice la
siguiente formula:
• Limites : Valor Predicho ± (t0.05,n-2 ) (S_predicho)
• Para el 2002, los limites de confianza son:
• Limite Inferior = 760,55 – 2,30 (111,98) = 502
• Limite Superior = 760,55 + 2,30 (111,98) = 1018

• Esta información significa que para el año 2002, se estima una


producción de madera aserrada entre 502 a 1018 miles de m3.
Se plantea los siguientes casos:
• a) Cuando ß1 = 0; es decir, si la variable Y no esta relacionada
linealmente con la variable X. Esto equivale a plantear la hipótesis Hp:
ß1=0, y vía una prueba F comparar el valor de F calculado (Fc) con el
valor F tabular (Fo), donde Fc=CMR/CME y Fo=Fα(1,n-2)gl. Si Fc>Fo, se
rechaza la hipóteis planteada, esto supone un valor ß1 distinto de
cero y se concluye que Y se puede expresar en terminos de X
linealmente.
• b) Cuando ß1 tiene un valor específico distinto de cero ß10; es decir,
Hp: ß1=ß10. En este caso, para la prueba de esta hipótesis se usa el
estadístico t de Student. El valor t calculado es hallado mediante la
expresión: tc = (b1-ß10)/Sb1
• Si tc > tα se rechaza la hipótesis planteada, donde tα es el valor de la
tabla al nivel α y n-2 gl.
• Para el ejemplo planteado, se rechaza la hipotesis planteada, esto
significa que existe una relación lineal significativa del tiempo y la
producción de madera aserrada total.
Análisis de Correlación
• El análisis de correlación emplea métodos para medir la significación
del grado o intensidad de asociación entre dos o más variables. El
concepto de correlación está estrechamente vinculado al concepto de
regresión, pues, para que una ecuación de regresión sea razonable los
puntos muestrales deben estar ceñidos a la ecuación de regresión;
además el coeficiente de correlación debe ser:
• Grande cuando el grado de asociación es alto (cerca de +1 o -1, y
pequeño cuando es bajo, cerca de cero.
• Independiente de las unidades en que se miden las variables.
Coeficiente de correlacion Lineal Simple ( r).
• Es un número que indica el grado o intensidad de asociación entre las
variables X e Y. Su valor varía entre -1 y +1; esto es:
• -1 ≤ r ≤ 1.
• Si r = -1, la asociación es perfecta pero inversa; es decir, a valores altos
de una variable le corresponde valores bajos a la otra variable, y
viceversa.
• Si r=+1, también la asociación es perfecta pero directa.
• Si r=0, no existe asociación entre las dos variables.
• Luego puede verse que a medida que r se aproxime a -1 ó +1 la
asociación es mayor, y cuando se aproxima a cero la asociación
disminuye o desaparece.
• El coeficiente de correlación está dada por:
• Para los datos de la producción de madera aserrada total entre los
años 1990 a 1999, existe una asociación de 0.68.
Coeficiente de Determinacion (R²)
• Mide el porcentaje de variación en la variable respuesta, explicada
por la variable independiente.
• De la descomposición de la suma de cuadrados total, se obtuvo:
• SCT = SCR + SCE
• SCR = Suma de cuadrados de la regresión. SCE = Suma de cuadrados
residual (error).
• dividiendo ambos miembros por la SCT, se tiene:
• 1 = SCR/SCT + SCE/SCT
• de este resultado, se define el coeficiente de determinacion como:
• R² = 1 - SCE/SCT = SCR/SCT
• R² = SC regresion / SC total
• Como SCR ≤ SCT, se deduce que 0 ≤ R² ≤ 1.
Interpretación de R²:
• Se interpreta como una medida de ajuste de los datos observados y
proporciona el porcentaje de la variación total explicada por la
regresión.
• R² es un valor positivo, expresado en porcentaje es menor de 100.
• También, se puede obtener el R² ajustado que es la relación entre
cuadrados medios, así:
• R² ajustado = 1 – CME / CM Total;
• Este valor podría ser negativo en algunos casos.
• Lo que se espera que ambos R², resulten similares, para dar una
confianza al coeficiente de determinación.
• Para el ejemplo, resulta:
• R² ajustado = 1 – 70378 / (105526 / 9 ) = 0,39 y R² = 1 – 56302,7 /
105525,86 = 0,46
Referencias
• Documento, con nombre de “Análisis de regresión y correlación” de F.
de Mendirubu. Única información encontrada en el documento en
línea, recuperado el día 23 de marzo de 2020 en el siguiente link:
https://tarwi.lamolina.edu.pe/~fmendiburu/index-filer/academic/met
odos1/Regresion.pdf

También podría gustarte