Está en la página 1de 5

GUÍA METODOLÓGICA DE ESTADÍSTICA INFERENCIAL

ING. ROBERTO LINCE


ANALISIS DE CORRELACION Y REGRESION
Hasta el momento, nos hemos ocupado del análisis de una sola variable, es decir de una sola
característica, desde una sola población hasta varias poblaciones, corresponde entonces realizar el
análisis sobre dos o más variables. El análisis de correlación y regresión corresponde al análisis
respecto del comportamiento que presentan en conjunto dos o más variables relacionadas, es decir
dos o más características en los mismos elementos poblacionales; para esto, es necesario entender
a que nos referimos con relación;
Relación: se refiere a la influencia que ejerce una característica sobre otra, entendiéndose la
influencia como la afectación o estímulo de la una variable respecto de la otra o viceversa. Lo
cual origina un comportamiento conjunto de las dos variables.

En virtud de tal relación se definen y diferencian dos tipos de variables:

Variable Independiente: es aquella característica que influye o incide en el comportamiento de la


otra variable, y se la nomina siempre como X.
Variable Dependiente: es aquella que es influida o afectada por la otra variable y es la que tiene
particular interés en el estudio y es la que se nomina como Y.

También, se requiere diferenciar el sentido de la relación que presentan las variables analizadas,
para esto se tiene que:

Relación Positiva o directa: se da cuando a un incremento de la variable independiente X le


corresponde un incremento en la variable dependiente Y.
Relación Negativa o indirecta: es cuando a un incremento en X le corresponde una disminución
en Y.
Relación Nula: cuando no existe ningún tipo de sentido definible respecto del comportamiento
conjunto de las variables.

Por ejemplo, si se relaciona las ventas con la publicidad, la publicidad sería la variable independiente
X, porque es la que influye en el comportamiento de las ventas, y lógicamente las ventas sería Y; el
sentido de la relación podría tener los siguientes esquemas:

a) Directa
b) Indirecta
c) Nula

Gráficamente será:
Por otro lado, se requiere determinar el tipo de relación que describen las dos variables en virtud de
identificar el comportamiento conjunto de ambas variables y establecer los criterios para la
predicción y pronóstico que corresponde al análisis de regresión, encontrándose que la relación
podría ser de tipo lineal, exponencial o logarítmica.

1. ANÁLISIS DE CORRELACIÓN

En primera instancia, se debe obtener un panorama respecto de la relación que definen las dos
variables analizadas, lo cual se consigue a través del diagrama de dispersión, una vez identificado el
comportamiento conjunto, se requiere de un descriptor que exprese el sentido y la fuerza de la
relación identificada y su correspondiente parámetro, para esto se tiene el coeficiente de correlación
r, y su parámetro ρ (rho).

Coeficiente de correlación ρ (rho): mide el grado de relación que existe entre dos variables y
puede tomar valores desde -1 hasta 1, siendo su estimador puntual r, es decir:

-1 ≤ r ≥ 1

Donde el signo del indicador expresa si la relación es directa o inversa y el valor representa la fuerza
de la relación, entendiéndose que 1 implica una relación perfecta.

Para tener un referente para su interpretación se podría considerar el siguiente esquema:

Si r ≥ 0.9 se considera una relación fuerte


Si 0.7 ≤ r > 0.9 será una relación significativa o moderada
Si 0.5 ≤ r > 0.7 será una relación débil

Más allá de estos valores ya no resulta relevante la relación encontrada y se la podría considerar
aleatoria.
Debe considerarse que, la relación que se está analizando debe guardar una escenario lógico y
coherente, numéricamente se puede establecer relación entre variables que no la tienen en la
realidad.

Por ejemplo; la producción de petróleo con la crianza de ovejas, numéricamente pueden presentar
relación pero no la tienen en realidad.

Dentro del escenario de la inferencia estadística, corresponde entonces realizar las estimaciones y
sus respectivas pruebas de hipótesis, considerando que se lo hace a partir de la información
generada por una muestra, según los esquemas analizados en las herramientas respectivas.

Para calcular r se tiene la siguiente ecuación:


(𝑛 − 1)𝑆𝑥 𝑆𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (∑ 𝑦)2 ]

Donde se entiende que r es una medida de la relación entre, la variación conjunta de XY respecto de
la media de la variación conjugada de X con la de Y.

Para realizar la prueba respectiva, se deben considerar los siguientes puntos:

1. Definiciones.- Población, Variables independiente y dependiente, y Parámetro.


2. Realizar la gráfica de dispersión.- para identificar gráficamente el sentido y tipo de relación.
3. Formular las hipótesis.- para este caso las hipótesis serán:
H0: ρ = 0
H1: ρ > 0 ó ρ < 0 según si la relación se considera positiva o negativa respectivamente
4. Determinar la significancia y el valor crítico.- es decir, el valor de t en la tabla conforme la
significancia (α), los grados de libertad serán gl = n - 2
5. Establecer la regla de decisión.- Si tc > tα ; se rechaza H0
6. Escoger el estadístico de prueba.- en este caso la prueba para ρ es:

𝑟√𝑛 − 2
𝑡𝑐 =
√1 − 𝑟 2

7. Calcular los valores.- determinar el valor de r y r2, y remplazar en la ecuación,


8. Tomar la decisión.- esto es, rechazar o aceptar H0 según la evidencia muestral,
9. Elaborar la conclusión general.- resolución conforme el escenario de aplicación de la prueba.

Para demostrar el procedimiento anterior se tiene el siguiente ejemplo:


Ejemplo:
Una muestra de 10 familias en el área de Quito reveló las siguientes cifras referentes al tamaño de familia y
la cantidad de dinero (en dólares) gastada en alimentos, por semana.
Tamaño Cantidad Tamaño Cantidad
de la gastada de la gastada
familia familia
3 $ 99 3 $111
6 104 4 74
5 151 4 91
6 129 5 119
6 142 3 91

La variable independiente X será el tamaño de la familia y la variable dependiente Y será el gasto, es


decir el gasto depende del tamaño de la familia.

El diagrama de dispersión será:

Diagrama de dispersión
200

150
Gasto

100

50

0
0 2 4 6 8
Tamaño

Conforme la gráfica parece existir una relación positiva entre ambas variables, habrá que determinar
si es estadísticamente significativa.

1. Definiciones.- Población, todas las casas del sector de Quito


Variable independiente, el tamaño de la familia
Variable dependiente, el Gasto delas familias,
Parámetro, ρ el nivel de correlación entre el tamaño y el gasto de
todas las familias de Quito.
2. Formular las hipótesis.- para este caso las hipótesis serán:
H0: ρ = 0
H1: ρ > 0 por cuanto se supone positiva
3. Determinar la significancia y el valor crítico.- la significancia α = 0.05, con gl = 10 – 2 = 8,
t = 2.823
4. Establecer la regla de decisión.- Si tc >2,823 ; se rechaza H0
5. Escoger el estadístico de prueba.- en este caso la prueba para ρ es:

𝑟√𝑛 − 2
𝑡𝑐 =
√1 − 𝑟 2

6. Calcular los valores.- remplazando valores se tiene,

0.5892√10 − 2
𝑡𝑐 = = 2,062
√1 − 0.58922

7. Tomar la decisión.- como 2,062 es menor que 2,823 se acepta la hipótesis H0,
8. Elaborar la conclusión general.- según la evidencia de la muestra, la relación observada
entre el tamaño de la familia y el gasto familiar no es estadísticamente significativa.

También podría gustarte