Está en la página 1de 4

GIMNASIO PEDAGÓGICO SAMPUESANO

GUÍA DE ESTADÍSTICA 10º


DOCENTE: CARLOS SALOM
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL
Diagrama de dispersión
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos
asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada
conjunto). El diagrama muestra estos pares como una nube de puntos.
Las relaciones entre los conjuntos asociados de datos se infieren a partir de
la forma de las nubes.
Una relación positiva entre X e Y significa que los valores crecientes de X
están asociados con los valores crecientes de Y.
Una relación negativa significa que los valores crecientes de x están
asociados con los valores decrecientes de Y.

COEFICIENTE DE CORRELACIÓN DE PEARSON

En estadística, el coeficiente de correlación de Pearson es una medida de la


relación lineal entre dos variables aleatorias cuantitativas. A diferencia de
la covarianza, la correlación de Pearson es independiente de la escala de
medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de
Pearson como un índice que puede utilizarse para medir el grado de relación
de dos variables siempre y cuando ambas sean cuantitativas y continuas.
Interpretación
Varios grupos de puntos (x, y), con el coeficiente de correlación para cada
grupo. Nótese que la correlación refleja la no linealidad y la dirección de la
relación lineal. En la figura del centro, la varianza de y es nula, por lo que la
correlación es indeterminada.
El valor del índice de correlación varía en el intervalo [-1,1], indicando el signo
el sentido de la relación:
 Si r = 1, existe una correlación positiva perfecta. El índice indica una
dependencia total entre las dos variables denominada relación directa:
cuando una de ellas aumenta, la otra también lo hace en proporción
constante.
 Si 0 < r < 1, existe una correlación positiva.

CARLOS SALOM CANTERO


GIMNASIO PEDAGÓGICO SAMPUESANO
GUÍA DE ESTADÍSTICA 10º
DOCENTE: CARLOS SALOM
 Si r = 0, no existe relación lineal. Pero esto no necesariamente implica
que las variables son independientes: pueden existir todavía relaciones
no lineales entre las dos variables.
 Si -1 < r < 0, existe una correlación negativa.
 Si r = -1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa:
cuando una de ellas aumenta, la otra disminuye en proporción
constante.

Fórmula

𝑺𝒙𝒚
𝒓=
𝑺𝒙 𝑺𝒀
Donde:
𝑺𝒙𝒚 covarianza de “x” e “y”

∑(𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
𝑺𝒙𝒚 =
𝑵

Desviaciones estándar

̅)𝟐
(𝒙𝒊 − 𝒙 ̅)𝟐
(𝒚𝒊 − 𝒚
𝑺𝒙 = √ 𝑺𝒀 = √
𝑵 𝑵

COEFICIENTE DE DETERMINACIÓN (R2)


La bondad de la predicción depende de la relación entre las variables. Si dos
variables no cavarían, no podremos hacer predicciones válidas, y si la
intensidad de la covariación es moderada, las predicciones no serán
demasiado buenas. En consecuencia, hay que disponer de alguna medida de la
capacidad de la ecuación de Regresión para obtener predicciones buenas (en
el sentido de que sean lo menos erróneas posible).
Esta medida es el Coeficiente de Determinación, que es el cuadrado del
coeficiente de correlación de Pearson, y da la proporción de variación de la
variable Y que es explicada por la variable X (variable predictora o
explicativa). Si la proporción es igual a 0, significa que la variable predictora

CARLOS SALOM CANTERO


GIMNASIO PEDAGÓGICO SAMPUESANO
GUÍA DE ESTADÍSTICA 10º
DOCENTE: CARLOS SALOM
no tiene NULA capacidad predictiva de la variable a predecir (Y). Cuanto
mayor sea la proporción, mejor será la predicción. Si llegara a ser igual a 1 la
variable predictora explicaría TODA la variación de Y, y las predicciones NO
tendrían error.

R2= (r)2 0<R <12

MODELO DE REGRESIÓN
Un modelo de regresión es un modelo matemático que busca determinar la
relación entre una variable dependiente (Y) con respecto a otras variables
llamadas explicativas o independientes (X).
El modelo de regresión se suele utilizar en las Ciencias Sociales con el fin de
determinar si existe o no relación causal entre una variable dependiente (Y)
y un conjunto de otras variables explicativas (X). Asimismo, el modelo busca
determinar cuál será el impacto sobre la variable Y ante un cambio en las
variables explicativas (X).
Así, por ejemplo, un economista podría estar interesado en determinar la
relación entre el ingreso de los trabajadores y su nivel de educación. Para
esto, podría llevar acabo un modelo de regresión en el cual la variable
independiente (Y) será el ingreso del trabajador. En cuanto a las variables
explicativas (X), se deben incluir todas aquellas que podrían explicar el
ingreso entre las que se encuentran por supuesto la educación, la experiencia,
la educación de los padres, etc.

̂ = 𝒃 + 𝒂𝒙
𝒚

𝑺𝒙𝒚 ̅ − 𝒂𝒙
𝒃=𝒚 ̅
𝒂=
𝑺𝒙 𝟐

Ejemplo.
En una encuesta familiar se han tomado datos de las siguientes
variables, correspondientes a N = 8 familias:
X = Renta disponible
Y = Cantidad dedicada a alimentación
Los datos se resumen e n la siguiente tabla:

CARLOS SALOM CANTERO


GIMNASIO PEDAGÓGICO SAMPUESANO
GUÍA DE ESTADÍSTICA 10º
DOCENTE: CARLOS SALOM

Renta disponible Cantidad de alimentos


212 40
152 32
155 35
121 33
96 26
185 37
68 25
126 27

Hallar:
a) Gráfico de dispersión
b) Coeficiente correlación lineal
c) Coeficiente de determinación
d) Recta de regresión

x y (𝐱 𝐢 − 𝐱̅) (𝐲𝐢 − 𝐲̅) (𝐱 𝐢 − 𝐱̅)𝟐 (𝐲𝐢 − 𝐲̅)𝟐 (𝐱 𝐢 − 𝐱̅)(𝐲𝐢 − 𝐲̅)


212 40
152 32
155 35
121 33
96 26
185 37
68 25
126 27

CARLOS SALOM CANTERO

También podría gustarte