Está en la página 1de 6

ESTADISTICA I

ANALISIS DE REGRESION Y CORRELACION.

En esta parte del curso estudiaremos la asociación entre dos variables 𝑋 i 𝑌, conocida también
como asociación simple.
Una forma de estudio de la asociación entre las variables 𝑋 i 𝑌 es la regresión que consiste en
determinar una relación funcional entre ellas con el fin de que se pueda predecir el valor de una
variable en base a la otra. La variable que va a predecir se denomina variable dependiente y la
variable que es la base de la predicción se denomina variable independiente.
Otra forma del estudio de la asociación entre las variables X i Y, es denominada correlación, que
consiste en determinar la variación conjunta de las dos variables, su grado de relación, y su sentido
(positivo o negativo). La medida del grado de relación se denomina coeficiente o índice de
correlación, el cuadrado del índice de correlación se denomina “Coeficiente de determinación”.

DIAGRAMA DE DISPERSIÓN.

La investigación de una relación entre dos variables comienza con un intento de descubrir la forma
aproximada de esta, para lo cual se presentan los datos observados de la variable bidimensional
mediante una gráfica en un sistema de coordenadas cartesianas. Esta gráfica recibe el nombre de
“diagrama de dispersión” o “nube de puntos” que muestra la ubicación de los valores (𝑥𝑖 , 𝑦𝑖 ). Es
frecuentemente posible visualizar el tipo de relación existente entre dos variables a partir del
diagrama de dispersión.

COVARIANZA

La covarianza es una estadística que mide el grado de dispersión o variabilidad conjunta de dos
variables X i Y con respecto a sus medias respectivas (𝑋̅, 𝑌̅).

Definición.

La covarianza de n valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … … , (𝑥𝑛 , 𝑦𝑛 ) de una variable bidimensional (𝑋, 𝑌) es


el número 𝐶𝑜𝑣 (𝑋, 𝑌 ) ó 𝑆𝑥𝑦 que se define igual a la media aritmética de los productos de las
desviaciones de los datos con respecto a sus correspondientes medias (𝑋̅ , 𝑌̅). Es decir:
ESTADISTICA I

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝑆𝑥𝑦 =
𝑛
En el numerador de 𝑆𝑋𝑌 se verifica la relación:
𝑛 𝑛

∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅


𝑖=1 𝑖=1
∑𝑛
𝑖=1 𝑥𝑖 𝑦𝑖
Luego, 𝑆𝑋𝑌 = 𝑛
− 𝑥̅ 𝑦̅

La covarianza a diferencia de la varianza puede ser negativa.

COEFIECIENTE O INDICE DE CORRELACION

Definición.- El coeficiente de correlación de Pearson de n pares de valores:


(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … … , (𝑥𝑛 , 𝑦𝑛 ) de una variable bidimensional (𝑋, 𝑌) es el número abstracto 𝑟 que
se calcula mediante:

𝑆𝑥𝑦
𝑟=
𝑆𝑋 𝑆𝑌

Donde: 𝑆𝑋𝑌 𝑒𝑠 𝑙𝑎 𝑐𝑜𝑣𝑎𝑟𝑖𝑛𝑧𝑎 𝑑𝑒 𝑋 𝑒 𝑌


𝑆𝑋 𝑒𝑠 𝑙𝑎 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑋

𝑆𝑦 𝑒𝑠 𝑙𝑎 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑌

El coeficiente o índice de correlación lineal también verifica:

𝑆𝑥𝑦 𝑛 ∑𝑛𝑖=1 𝑥𝑦 − ∑𝑛𝑖=1 𝑥 ∑𝑛𝑖=1 𝑦


𝑟= =
𝑆𝑋 𝑆𝑌 √𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 √𝑛 ∑ 𝑦 2 − (∑ 𝑦)2

Verificaremos que el coeficiente de correlación 𝑟 es un número comprendido entre -1 y


1, es decir: −1 ≤ 𝑟 ≤ 1.
ESTADISTICA I

Interpretación:

Si 𝑟 = 1 𝑠𝑒 𝑑𝑖𝑐𝑒 𝑞𝑢𝑒 ℎ𝑎𝑦 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎.

𝑟 = −1 𝑠𝑒 𝑑𝑖𝑐𝑒 𝑞𝑢𝑒 ℎ𝑎𝑦 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎.

0.8 ≤ 𝑟 < 1 ó − 1 < 𝑟 ≤ 0.8 𝑠𝑒 𝑑𝑖𝑐𝑒 𝑞𝑢𝑒 ℎ𝑎𝑦 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑒𝑥𝑐𝑒𝑙𝑒𝑛𝑡𝑒.

0.5 ≤ 𝑟 < 0.8 ó − 0.8 < 𝑟 ≤ −0.5 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑏𝑢𝑒𝑛𝑎.

0.3 ≤ 𝑟 < 0.5 ó − 0.5 < 𝑟 ≤ −0.3 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑝𝑜𝑏𝑟𝑒.

0 ≤ 𝑟 < 0.3 ó − 0.3 < 𝑟 ≤ 0 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙.

REGRESIÓN

La regresión es la función matemática que para un valor de una característica da el valor esperado
de otra característica con la cual está ligada. La regresión entre dos características puede ser lineal
o no lineal.
ESTADISTICA I

La regresión es lineal cuando las variaciones de la característica dependiente están ligadas


proporcionalmente con las variaciones de la característica independiente, es decir cuando se
relaciona a un modelo de la forma:

𝑌 = 𝛼 + 𝛽𝑥 + 𝜉.

El estudio de análisis de regresión lineal simple de la variable 𝑌 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 𝑋 consiste en


estimar la relación anterior mediante: 𝑦̂ = 𝑎 + 𝑏𝑥

Donde: 𝑦̂ : 𝑒𝑠 𝑒𝑙 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑑𝑒 𝑌.

𝑎: 𝑒𝑠 𝑒𝑙 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑑𝑒 𝛼.

𝑏: 𝑒𝑠 𝑒𝑙 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑑𝑒 𝛽. Llamado el Coeficiente de regresión.

La estimación de la recta se realiza mediante el método de mínimos cuadrados, obteniéndose los


valores de los coeficientes “𝑎” y “𝑏” que están dados por:

𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖 𝑆𝑥𝑦
𝑏= ó 𝑏=
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 𝑆𝑋2

𝑎 = 𝑦̅ − 𝑏𝑥̅

Interpretación del coeficiente de regresión “b” .-

 El coeficiente “𝑏” es la pendiente de la recta de regresión o el coeficiente de regresión


lineal. La constante “a” es la ordenada en el origen.
 Si 𝑏 > 0, entonces la tendencia lineal es creciente, es decir, a mayores valores de
𝑋 corresponden mayores valores de 𝑌. También, a menores valores de 𝑋 corresponden menores
valores de 𝑌.
 Si 𝑏 < 0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de
𝑋 corresponden menores valores de 𝑌. También, a menores valores de 𝑋 corresponde mayores
valores de 𝑌.
 Si 𝑏 = 0, entonces, 𝑌 = 𝑎. Luego, 𝑌 permanece estacionario para cualquier valor de 𝑋,
en este caso se dice que, no hay regresión.
ESTADISTICA I

EJERCICIOS

1. Los ingresos “𝑋” y los gastos ”𝑌“ mensuales en dólares de una muestra de 100 familias han
dado los siguientes resultados.

𝑋̅ = 210. 𝑌̅ = 200. 𝑆𝑋2 = 5.76. 𝑆𝑌2 = 2.56. ∑ 𝑋𝑌 = 4200364.8.

Determine la recta de regresión de mínimos cuadrados de 𝑌 en 𝑋 y estime el gasto de una familia


que tiene $ 250 de ingreso.

2. Supongamos que se quiere estimar la relación entre ingreso y consumo para tal efecto se
eligió una muestra de 6 familias. De los datos se define la variable dependiente (𝑌 =
𝑐𝑜𝑛𝑠𝑢𝑚𝑜) y la variable independiente (𝑋 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜), estos datos se muestran en la tabla
siguiente:

INGRESO 35 40 38 55 42 60
CONSUMO 30 35 30 50 35 50

a) Ajustar una curva para este conjunto de datos.


b) ¿En cuánto estimaría el consumo para una familia que tiene un ingreso de 45?
c) ¿Qué porcentaje de la varianza del consumo es explicado por la variabilidad del ingreso?
Tarea
3. El estudio de mercado trata de averiguar si es efectiva la propaganda televisada de un
producto que salió a la venta con relación al tiempo de publicidad (en horas por semana). Se
recopilaron datos a partir de la segunda semana de iniciada la publicidad resultando el cuadro que
sigue. No se pudo recopilar datos de la cuarta semana.

SEMANA 2 3 4 5 6 7
TIEMPO DE PROPAGANDA 20 25 22 28 36 40
VENTA DE PRODUCTOS 300 310 -- 320 350 420
ESTADISTICA I

a) ¿Es efectiva la publicidad del producto?


b) ¿En cuánto estimaría las ventas para la semana 4?
Solución

X Y XY 𝑋2

4. Una compañía de alimentos maneja una cadena de tiendas al menudeo para medir la
eficiencia de las tiendas se estudió la relación del número de empleados (X) y el promedio del
volumen de ventas mensuales (Y) expresado en cientos de dólares para todas las tiendas durante el
año pasado. La gráfica de los datos sugiere una relación lineal entre las variables. S e tiene la
siguiente información:
𝑛 = 100 ∑ 𝑋 = 600 ∑ 𝑌 = 1600 ∑ 𝑋𝑌 = 13600 ∑ 𝑋 2 = 5200 ∑ 𝑌 2 = 37700
a) Hallar la recta de regresión de mínimos cuadrados para estimar las ventas a partir de
número de empleados. ¿En cuánto se estiman las ventas para una tienda de 12 empleados?
b) ¿Qué porcentaje de la varianza de las ventas es explicada por la variabilidad del número de
empleados?
c) ¿Cuántos empleados tiene la tienda cuya venta promedio se estima en $1,100

También podría gustarte