Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y CORRELACIÓN
SIMPLE
OBJETIVOS
Al finalizar el Tema , el participante será capaz de:
1. Utilizar diagramas de dispersión para visualizar la
relación entre dos variables.
2. Identificar relaciones simples entre variables
•• • •
•
• • • •
entre X y Y vistos
• ••
• •• • ••
en diagramas de • •• •
•
•• •••
dispersión X X X
Y • Y Y
• •• • • • ••
•• •
•• • • •
•• • •• • • •
•
•
• •• • • • • ••
••
•• • • ••
•
•• •• •• • • •
•• •
••• •
•
• •
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Aplicación
Los datos siguientes muestran las cantidades
consumidas de complemento nutricional (en Kg.) y
el aumento de peso de niños con signos de
desnutrición.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
2do Paso: Encuentre los valores mínimos y máximos
para X e Y. Elija las escalas que se usarán en los
ejes horizontal y vertical, de manera que ambas
longitudes sean aproximadamente iguales, facilitando
la lectura del diagrama.
20
15
10
0
0.0 2.0 4.0 6.0
3er Paso: Registre los datos en el gráfico. Cuando
se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
círculos concéntricos (o), o registre el segundo punto
muy cerca del primero.
20
15
10
0
0.0 2.0 4.0 6.0
4to Paso: Agregue toda la información que
puede ser de utilidad para entender el diagrama,
tal como: título del diagrama, período de tiempo,
número de pares de datos, nombre de la variable
y unidades de cada eje, entre otros.
Relación complemento nutricional y
aumento de peso
20
Aumento de peso
15
(Kg)
10
5
0
0.0 2.0 4.0 6.0
Complemento nutricional (Kg)
17.2 Las ecuaciones lineales simples
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de Variables
En una ecuación como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.
Y = b0 + b1 X
Variable Variable
Dependiente Independiente
B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en
igual sentido (aumentos o disminuciones), las
variables están directamente relacionadas. Se
observa el signo +
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o
X
Cuando cambios en X, provoca variaciones en Y
en sentido inverso (X aumenta, Y disminuye o
viceversa), las variables están inversamente
relacionadas. Se observa en la ecuación el signo
-. Y
Ejemplo: o
Y = 20 - 3X
o o
o o
o
o
X
C) Grado de la ecuación:
La ecuación es de primer grado si la
variable independiente está elevada al
exponente 1. Su gráfica genera una línea
recta (por lo que también se le llama
ecuación lineal)
Ejemplo: Y = 30 + 4 X
Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor
del exponente. Su gráfica no es una línea recta.
Ejemplo:
12
11
10
. .
.
(5,10.5)
9
.
8 (4,9)
7
.
6 (3,7.5)
5
(2,6)
4
3 (1,4.5)
2
1
1 2 3 4 5 X
E) Forma general:
La ecuación simple de primer grado tiene la
siguiente forma general
Y = b0 + b 1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando ∆X = 1.
b0: el valor autónomo, es decir, Y = b0 cuando X = 0.
En la gráfica es la intersección con el eje Y
Ejemplo: Y
Y = 3 + 1.5X
.
b0 = 3
X
17.3 Regresión lineal simple
Es una técnica estadística que permite
determinar la mejor ecuación que represente la
relación entre dos variables relacionadas.
= error
Yi - Y
10
8
. Línea de
estimación
6 Ŷ
Min ∑ ( Y - Y )
2 4
•
Error= -6
i 2
•
•
. Error= 2
X
2 4 6 8 10 12 14
El método utiliza un sistema de ecuación llamado
ecuaciones normales, que tienen la siguiente
forma:
X Y X2 XY
∑ Y = nb0 + b1 ∑ X
1.0 8.0 1.0 8.0
1.5 10.0 2.3 15.0
∑ XY = b 0∑ X + b1∑ X 2 2.0
2.5
9.0
12.0
4.0
6.3
18.0
30.0
3.0 14.0 9.0 42.0
siguiente: 5.5
32.5
14.0
126.0
30.3
126.3
77.0
442.0
∑X ∑Y ∑X ∑ XY
2
Sustituyendo los valores ∑ Y = 126,0 , n = 5, ∑ X = 32,5
2
∑ XY = 4 42 ∑ = 126,3
X
y ,en las ecuaciones normales,
obtenemos el siguiente sistema de ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479
b1= 1,576 ,por lo tanto,
Ŷ = 7,479 + 1,576X
c) Interpretación
Y
.
Yi
1.5
2.0
10.0
9.0
9.843
10.630
.
Y 2.5 12.0 11.418
3.0 14.0 12.206
Valor 3.5 13.0 12.994
observado Valor 4.0 15.0 13.782
estimado 4.5 17.0 14.570
5.0 14.0 15.358
5.5 14.0 16.146
xo X
17.4 Error estándar de estimación (S yx)
2
∑ (Y - Ŷ)
Syx =
n−2
14
X Y Ŷ ( Y − Ŷ ) ( Y − Ŷ ) 2
21,20 21,20
S yx = = = 2,65
10 − 2 8
Syx =1,628
r2 =
(
∑ Ŷ - Y )
2
(
∑Y -Y
i
)2
Se elevan al cuadrado, para evitar que ∑ ( Y - Y ) = 0
obteniéndose un número positivo.
1er Paso: Cálculo de la venta media por vendedor
son ( Y )
n
∑Y
Y= i=1 i
n
Y1 + Y2 + Y3 + Y4 + Y5
Y=
5
9 + 5 + 7 + 14 + 10 45
Y= =
5 5
Y = 9 unidades
2do Paso: Se calcula la variación total, es decir, la
sumatoria de las desviaciones de las ventas
observadas (Yi) con respecto a la media: ∑ Yi - Y
2
( )
Y Y ( Y − Y) ( Y − Y) 2
8.0 12.6 -4.6 21.16
10.0 12.6 -2.6 6.76
9.0 12.6 -3.6 12.96
12.0 12.6 -0.6 0.36
14.0 12.6 1.4 1.96
13.0 12.6 0.4 0.16
15.0 12.6 2.4 5.76
17.0 12.6 4.4 19.36
14.0 12.6 1.4 1.96
14.0 12.6 1.4 1.96
126.0 126.0 0.0 72.4
∑Y ∑Y ∑ ( Y − Y) ∑ ( Y − Y)
2
3er Paso: Se calcula la variación explicada, es
decir, la sumatoria de las desviaciones cuadráticas
entre las ventas esperadas y la venta media de la
muestra: ∑ ( Y - Y )
2
Ŷ Y ( Ŷ − Y ) ( Ŷ − Y ) 2
51,2
r2 = = 0,707
72,4
r = r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
están directamente relacionados.
Cuando r es negativo, indica que X e Y
están inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión
Interpretación del coeficiente de
correlación de Pearson
r = 0,707
r = 0,84
El gráfico muestra un
adecuado ajuste entre 3
2
el incremento de peso Residuos
1
No se observa una -3
tendencia. Variable X 1
El análisis del gráfico nos brinda el criterio para
adoptar el modelo lineal o dejarlo de lado. Si fuese
así, podríamos probar con modelos no lineales como
el cuadrático, logaritmo o exponencial.
El análisis de residuos se complementa con el
cálculo de los residuos estandarizados (SRi), que
resultan de la división del residuo dividido por su
error estándar. εi
SR i =
S YX 1 − hi
En donde 1
hi = +
( Xi − X ) 2
n
n
∑ i − nX
2 2
X
i=1
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades
que reflejen la variación estandarizada alrededor
de la línea de regresión.
1.5
1
0.5
0
-0.5 0 5 10 15 20
-1
-1.5
-2
B. Evaluación de las suposiciones
a. Homoscedasticidad
b. Normalidad
c. Independencia:
17.7 Medición de la autocorrelación: Durbin-Watson
Una de las suposiciones del modelo de regresión
básico es la independencia de los residuos. Esta
suposición es violada con frecuencia cuando los
datos son recopilados en periodos secuenciales,
debido a que un residuo en cualquier punto del
tiempo puede tender a ser parecido a los residuos
que se encuentran en puntos de tiempo
adyacentes.
El estadístico D de Durbin-Watson mide la
correlación de cada residuo y el residuo del
periodo inmediato anterior al periodo de interés.
El estadístico D (Durbin-Watson)
n
(
∑ i i−1
ε − ε ) 2
D= i =2
n
∑i
ε
i=1
2
Model Summaryb
Change Statistics
R Square
Model Change F Change df1 df2 Sig. F Change Durbin-Watson
1 .707a 19.336 1 8 .002 1.517
a. Predictors: (Constant), Complemento
b. Dependent Variable: AUMENTO
σ ε2
β1,
b1∼ N SC x
b1 − β1 b1 − β1
= ≈t
Sb1 S yx
SC x
σε2 desconocido
SC x conocido
σ 2
ε
Lo que se vahacer
n
(
es ∑
Y )
estimar
2
−b 2SC
∑
2
Y −
n 1 x
i =1
se S
estima mediante la siguiente formula:
2
yx =
n −2
-t0 t0
Pr( − t 0 ≤ t ≤ t 0 )
b1 − β 1
Pr − t 0 ≤ ≤ t0 = 1− α
S yx
SC x
S yx S yx
Pr b1 − t 0 ≤ β 1 ≤ b1 + t 0 = 1− α
SC x SC x
B. Intervalo de confianza para β0
1 x
2
b0 ≈ Ν β0 ,σ ε2 +
n SC
x
b0 − β0 b0 − β0
= ≈ t n −2
Sb0 1 x
2
S yx +
n SC x
donde:
Y ( ∑ Y)
2
− b 2 SC
∑
2
−
n 0 x
S 2
yx =
n −2
-t0 t0
Pr( −t 0 ≤ t ≤ t 0 )
b − β
Pr − t 0 ≤ 0 0
≤ t0 = 1− α
S
b 0
( )
Pr b 0 − t 0Sb0 ≤ β0 ≤ b 0 + t 0Sb0 = 1 − α
(
1 X
Ŷ ≈ N µy / X0 ,σε2 + 0
− X
2
)
n SC x
( )
Pr ŷ − t 0S ŷ ≤ µy / X0 ≤ ŷ + t 0S ŷ = 1 −α
donde:
1(X
S ŷ = S 2yx + 0
− x
2
)
n SC x
D. Intervalo de confianza para un valor
individual
Además de obtener una estimación de intervalo
de confianza para el valor promedio, a menudo
es importante tener la capacidad de predecir la
respuesta que se obtendría para un valor
individual.
(
1 X
Ŷ ≈ N µy / X0 ,σ ε2 1 + + 0
− X
2
)
n SC x
El intervalo de predicción está estimando
un valor individual, no un parámetro.
( )
Pr ŷ − t 0S ŷ ≤ µY / X0 ≤ ŷ + t 0S ŷ = 1 −α
donde:
1 X
S ŷ = S 2yx 1 + + 0
(− x
2
)
n SC x
17.9 Análisis de varianza de la
regresión simple
El análisis de varianza es una técnica que
permite localizar las fuentes de variabilidad
que ayuden a explicar el comportamiento de
la variable dependiente.
σε2
Error
Experimental
∑ Y2 n
• b12SC x n − 2 S 2yx
Total SC total n −1
Asumiendo que existe una regresión lineal,
determine:
A.La ecuación de regresión e interprete los
coeficientes de regresión.
B.El intervalo de confianza para β1y para un valor
individual si X = 3,8.
C.El cuadro de ANOVA para la regresión lineal
D.El valor de ŷ cuando X = 5,1
E.La prueba de hipótesis respectiva a partir del
ANOVA e interprete el resultado.
F.Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.
Solución
Primero se realizan los cálculos necesarios:
n = 10
∑ Xi = 32,5
∑ Yi = 126
∑ Xi2 = 126,25
∑ Yi2 = 1660
∑ Xi Yi = 442
A. Cálculo de los coeficientes de regresión:
Ŷ = b0 + b1X
b0 = Y − b1 X
∑ Xi Yi − ∑
Xi ∑ Yi ( 32,5)(126 )
442 −
n 10 32,5
b1 = = = = 1,57
( ∑ Xi )
2
126,25 −
( 32,5 ) 20,62
∑ Xi − n
2
10
Ŷ = 7,49 + 1,57 X
Interpretación:
b0= Se espera que el peso que un niño que no
consume este complemento nutricional sea
7,49 Kg.
b1= Por cada Kg. de complemento nutricional, el
peso del niño se incrementará en 1,57 Kg.
B. Intervalo de confianza para β1
S yx S yx
Pr 1,57 − t ( 0,10 )( 8 ) ≤ β1 ≤ 1,57 + t ( 0,10 )( 8 ) = 1 − 0,10
SC x SC x
S yx S yx
Pr 1,57 − 1,86 ≤ β1 ≤ 1,57 + 1,86 = 0,90
4,54 4,54
1660 −
( 126 )
2
− (1,57 ) ( 20,62)
2
10 72,7 − 50,82
S 2
yx = = = 2,69
8 8
S yx = 1,642
1,642 1,642
Pr 1,57 − 1,86 ≤ β1 ≤ 1,57 + 1,86 = 0,90
4,54 4,54
1 ( 3,80 − 3,25 )
2
S Ŷ = 1,642 1 + + =
10 20,62
Interpretación
C. Análisis de Varianza
4. Criterios de decisión
F1-α/2 Fα/2
0,0041 5,32
{ }
Pr 16,91 − (1,86 ) S Ŷ ≤ µ Y X0 ≤ 16,91 + (1,86 ) S Ŷ = 1 − α
17.10 Resultados con Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.99582747
Coeficiente de determinación R^2 0.99167236
R^2 ajustado 0.98959045
Error típico 1.5310881
Observaciones 6
ANÁLISIS DE VARIANZA
GL SC CMe F cal P-valor
Regresión 1 1116.62308 1116.62308 476.328138 2.60786E-05
Residuos 4 9.37692308 2.34423077
Total 5 1126
Paciente 1 2 3 4 5 6 7 8 9 10 11
Prueba nueva 50 55 60 65 70 75 80 85 90 95 100
Prueba estandar 61 61 59 71 80 76 90 106 98 100 114
Caso 2
Se llevo a cabo un experimento para estudiar el
efecto de cierto medicamento para disminuir la
frecuencia cardiaca en adultos. Se reunieron los
siguientes datos: dosis en miligramos del
medicamento y la diferencia entre la frecuencia
cardiaca mas baja después de la administración
del medicamento y un control antes de
administrarlo.
Dosis (mg) 1 1 1 1 2 2 2 2 3 3 3 3
Reduccion ritmo cardiaco 10 8 12 12 14 12 16 18 17 20 18 20
2
5. El coeficiente de correlación de muestra, r, no es nada más que r
y no podemos interpretar su significado directamente como un
porcentaje del mismo tipo
21. Una valor pequeño de r2 implica que no existe una relación de causa-
efecto significativa entre X y Y