Está en la página 1de 44

CORRELACIN Y REGRESIN EMPLEANDO EXCEL Y GRAPH

1) ANLISIS DE CORRELACIN
Dado dos variables, la correlacin permite hacer estimaciones del valor de una de ellas conociendo el
valor de la otra variable.
1.1) DIAGRAMA DE DISPERSIN
Los diagramas de dispersin son planos cartesianos en los que se marcan los puntos correspondientes a
los pares ordenados (X,Y) de los valores de las variables.
1.2) CLASIFICACIN DE LA CORRELACIN
1.2.1) Segn la relacin entre variables
- Correlacin lineal: Se representa mediante una lnea recta.
- Correlacin no lineal: Se representa con una lnea curva.
1.2.2) Segn el nmero de variables
- Correlacin simple: La variable dependiente acta sobre la variable independiente.
- Correlacin mltiple: Cuando la variable dependiente acta sobre varias variables independientes.
- Correlacin parcial: Cuando la relacin que existe entre una variable dependiente y una
independiente es de tal forma que los dems factores permanezcan constantes.
1.2.3) Segn el valor cuantitativo
- Correlacin perfecta: El valor del coeficiente de correlacin es 1
- Correlacin imperfecta: El coeficiente de correlacin es menor a 1 sea en sentido positivo o
negativo.
- Correlacin nula: El coeficiente de correlacin es 0. No existe correlacin entre las variables.
Ejemplo: Nmero de calzado de una persona y su cociente intelectual.

1.2.4) Segn el signo


- Correlacin positiva.- Dos variables tiene correlacin positiva cuando al aumentar o disminuir el
valor de una de ellas entonces el valor correspondiente a la otra aumentar o disminuir
respectivamente, es decir, cuando las dos variables aumentan en el mismo sentido. Ejemplo: Peso de
una persona y su talla.
- Correlacin negativa.- Dos variables tiene correlacin negativa cuando al aumentar o disminuir el
valor de una de ellas entonces el valor de la otra disminuir o aumentar respectivamente, es decir, una
variable aumenta y otra disminuye o viceversa. Ejemplo: Nmero de partidos ganados por un equipo en
una temporada y su posicin final en la tabla.

Mgs. Mario Surez

Correlacin y Regresin

1.3) COEFICIENTES DE CORRELACIN


Los coeficientes de correlacin son medidas que indican la situacin relativa de los mismos sucesos
respecto a las dos variables, es decir, son la expresin numrica que nos indica el grado de relacin
existente entre las 2 variables y en qu medida se relacionan. Son nmeros que varan entre los lmites
+1 y -1. Su magnitud indica el grado de asociacin entre las variables; el valor r = 0 indica que no
existe relacin entre las variables; los valores 1 son indicadores de una correlacin perfecta positiva
(al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o decrecer X, decrece o crece Y).

No hay correlacin

Correlacin Positiva

Correlacin Negativa

Mgs. Mario Surez

Correlacin y Regresin

Para interpretar el coeficiente de correlacin utilizamos la siguiente escala:

Valor
-1
-0,9 a -0,99
-0,7 a -0,89
-0,4 a -0,69
-0,2 a -0,39
-0,01 a -0,19
0
0,01 a 0,19
0,2 a 0,39
0,4 a 0,69
0,7 a 0,89
0,9 a 0,99
1

Significado
Correlacin negativa grande y perfecta
Correlacin negativa muy alta
Correlacin negativa alta
Correlacin negativa moderada
Correlacin negativa baja
Correlacin negativa muy baja
Correlacin nula
Correlacin positiva muy baja
Correlacin positiva baja
Correlacin positiva moderada
Correlacin positiva alta
Correlacin positiva muy alta
Correlacin positiva grande y perfecta

1.3.1) COEFICIENTE DE CORRELACIN DE KARL PEARSON


Llamando tambin coeficiente de correlacin producto-momento.
Se calcula aplicando la siguiente ecuacin:

)(

r = Coeficiente producto-momento de correlacin lineal


x X X ; y Y Y
Ejemplo ilustrativo:
Con los datos sobre las temperaturas en dos das diferentes en una ciudad, determinar el tipo de
correlacin que existe entre ellas mediante el coeficiente de PEARSON.
X 18 17 15 16 14 12 9 15 16 14 16 18 X =180
Y 13 15 14 13 9 10 8 13 12 13 10 8 Y= 138
Solucin:
Se calcula la media aritmtica

Para X:

Para Y:

Mgs. Mario Surez

Correlacin y Regresin

Se llena la siguiente tabla:


X
18
17
15
16
14
12
9
15
16
14
16
18
=180

Y
13
15
14
13
9
10
8
13
12
13
10
8
= 138

x = X-
3
2
0
1
-1
-3
-6
0
1
-1
1
3

y = Y-
1,5
3,5
2,5
1,5
-2,5
-1,5
-3,5
1,5
0,5
1,5
-1,5
-3,5

x2
9
4
0
1
1
9
36
0
1
1
1
9
72

xy
4,5
7
0
1,5
2,5
4,5
21
0
0,5
-1,5
-1,5
-10,5
28

y2
2,25
12,25
6,25
2,25
6,25
2,25
12,25
2,25
0,25
2,25
2,25
12,25
63

Se aplica la frmula:

)(

)(

Existe una correlacin moderada


En Excel se calcula de la siguiente manera:

Mgs. Mario Surez

Correlacin y Regresin

El diagrama de dispersin en Excel:

El diagrama de dispersin en el programa Graph:

Mgs. Mario Surez

Correlacin y Regresin

TAREA DE INTERAPRENDIZAJE
1) Elabore un organizador grfico de los tipos de correlacin.
2) Con los datos de la siguiente tabla sobre las temperaturas del da X y del da Y en determinadas
horas en una ciudad
X 9 10 12 14 16 18 20 22 24 26 28 30
Y 12 14 15 16 17 20 22 23 26 28 31 32
2.1) Calcule el coeficiente de correlacin de Pearson empleando la frmula y mediante Excel.
0,99
2.2) Elabore el diagrama de dispersin de manera manual.
2.3) Elabore el diagrama de dispersin empleando Excel.
2.4) Elabore el diagrama de dispersin empleando el programa Graph.
3) Cree y resuelva un ejercicio similar al anterior.
4) Consulte y presente un ejemplo resuelto del coeficiente de correlacin de Pearson para datos
agrupados en intervalos en http://www.monografias.com/trabajos85/coeficiente-correlacion-karlpearson/coeficiente-correlacion-karl-pearson.shtml
1.3.2) COEFICIENTE DE CORRELACIN POR RANGOS DE SPEARMAN
Este coeficiente se emplea cuando una o ambas escalas de medidas de las variables son ordinales, es
decir, cuando una o ambas escalas de medida son posiciones. Ejemplo: Orden de llegada en una carrera
y peso de los atletas.
Se calcula aplicando la siguiente ecuacin:

(
)
rs = Coeficiente de correlacin por rangos de Spearman
d = Diferencia entre los rangos ( X menos Y)
n = Nmero de datos
Nota: Los datos hay que traducirlos u ordenarlos en rangos. A los puntajes ms elevados le asignamos
el rango 1 al siguiente el rango 2 y as sucesivamente. Si se repiten dos puntajes o ms se calculan las
medias aritmticas.
Ejemplo ilustrativo: La siguiente tabla muestra el rango u orden obtenido en la primera evaluacin
(X) y el rango o puesto obtenido en la segunda evaluacin (Y) de 8 estudiantes universitarios en la
asignatura de Estadstica. Realizar el diagrama de dispersin y calcular el coeficiente de correlacin por
rangos de Spearman.
Estudiante
Dyana
Elizabeth
Mario
Orlando
Mathas
Josu
Anita
Luca
Mgs. Mario Surez

X
1
2
3
4
5
6
7
8

Y
3
4
1
5
6
2
8
7

Correlacin y Regresin

Solucin:
El diagrama de dispersin hecho en Excel se muestra en la siguiente figura:

Para calcular el coeficiente de correlacin por rangos de Spearman de se llena la siguiente tabla:
Estudiante
Dyana
Elizabeth
Mario
Orlando
Mathas
Josu
Anita
Luca

X
1
2
3
4
5
6
7
8

Y
3
4
1
5
6
2
8
7

d= X-Y
-2
-2
2
-1
-1
4
-1
1

d2=(X-Y)2
4
4
4
1
1
16
1
1
2
d = 32

Se aplica la frmula:

Por lo tanto existe una correlacin positiva moderada entre la primera y segunda evaluacin de los 8
estudiantes.

Mgs. Mario Surez

Correlacin y Regresin

En Excel se calcula de la siguiente manera:

TAREA DE INTERAPRENDIZAJE
1) Consulte sobre la biografa de Spearman y realice un organizador grfico de la misma.
2) La siguiente tabla muestra el rango u orden obtenido en la primera evaluacin (X) y el rango o
puesto obtenido en la segunda evaluacin (Y) de 8 estudiantes universitarios en la asignatura de
Matemtica.
X
1
2
3
4
5
6
7
8

Y
4
5
6
8
3
2
1
7

2.1) Realice el diagrama de dispersin en forma manual.


2.2) Realice el diagrama de dispersin empleando Excel.
2.3) Realice el diagrama de dispersin empleando el programa Graph.
2.4) Calcule el coeficiente de correlacin por rangos de Spearman empleando la ecuacin.
-0,19
2.5) Calcule el coeficiente de correlacin empleando Excel.
-0,1905
3) Cree y resuelva un ejercicio similar al anterior.

Mgs. Mario Surez

Correlacin y Regresin

4) La siguiente tabla muestra las calificaciones de 8 estudiantes universitarios en las asignaturas de


Matemtica y Estadstica. Calcular el coeficiente de correlacin por rangos de Spearman y realizar el
diagrama de dispersin.
N Estudiante Matemtica Estadstica
1 Dyana
10
8
Elizabeth
2
9
6
Mario
3
8
10
Orlando
4
7
9
Mathas
5
7
8
Josu
6
6
7
Anita
7
6
6
8 Luca
4
9

Consulte la solucin de este ejercicio en http://www.monografias.com/trabajos85/coeficientecorrelacion-rangos-spearman/coeficiente-correlacion-rangos-spearman.shtml


5) Cree y resuelva un ejercicio similar al anterior.

1.4) COEFICIENTE DE DETERMINACIN


Revela qu porcentaje del cambio en Y se explica por un cambio en X. Se calcula elevando al cuadrado
el coeficiente de correlacin.

)(

xX X
y Y Y
r = Coeficiente de correlacin de Pearson
Coeficiente de determinacin

La ecuacin del coeficiente producto-momento (Coeficiente de Pearson)


escribirse en la forma equivalente:

De donde coeficiente de determinacin =

)(

puede

( )( )
( ) ][

( ) ]

Ejemplo ilustrativo
Con los datos de la siguiente tabla sobre las temperaturas, calcular el coeficiente de determinacin
empleando la ecuacin obtenida de la forma equivalente del coeficiente de Pearson.
X 18 17 15 16 14 12 9 15 16 14 16 18
Y 13 15 14 13 9 10 8 13 12 13 10 8

Mgs. Mario Surez

Correlacin y Regresin

Solucin:
Se calcula el coeficiente de Pearson llenando la siguiente tabla:
X
18
17
15
16
14
12
9
15
16
14
16
18
X=180

Y
13
15
14
13
9
10
8
13
12
13
10
8
Y =138

XY
234
255
210
208
126
120
72
195
192
182
160
144
XY=2098

X2
Y2
324
169
289
225
225
196
256
169
196
81
144
100
81
64
225
169
256
144
196
169
256
100
324
64
2
2
X = 2772 X =1650

Se aplica la ecuacin para calcular el coeficiente de Pearson.

( )( )
( ) ][

( ) ]

][

][

) ][

) ]

Elevando al cuadrado coeficiente de Pearson queda calculado el coeficiente de determinacin.


Coeficiente de determinacin =

Esto establece que 17,28% del cambio en Y se explica mediante un cambio en X.

Nota:
El r2 tiene significado slo para las relaciones lineales. Dos variables pueden tener r2 =0 y sin embargo
estar relacionadas en sentido curvilneo. El valor de r2 no se interpreta como si la variable Y fuera
causado por un cambio de la variable X, ya que la correlacin no significa causa.

Mgs. Mario Surez

Correlacin y Regresin

10

En Excel se calcula elevando al cuadrado el coeficiente de correlacin o insertando la funcin


=COEFICIENTE.R2 como muestra la siguiente figura:

TAREA DE INTERAPRENDIZAJE
1) La siguiente tabla muestra el dinero en miles de dlares gastado en publicidad por una empresa (X)
para vender sus productos, y el nmero en miles de clientes (Y) que compran los productos de la
empresa.
X 15 17 14 13 18 20 17 18 16 14 20 18
Y 30 34 28 26 32 40 34 36 32 25 40 36

1.1) Realice el diagrama de dispersin en forma manual.


1.2) Realice el diagrama de dispersin empleando Excel.
1.3) Realice el diagrama de dispersin empleando el programa Graph.
1.4) Calcule el coeficiente de Pearson empleando las dos frmulas.
0,96015
1.5) Calcule el coeficiente de determinacin empleando las dos frmulas y mediante Excel.
0,9219

Mgs. Mario Surez

Correlacin y Regresin

11

2) La siguiente tabla muestra el tiempo en minutos dedicado al estudio y la calificacin sobre 10


obtenida.
X 140 150 130 120 170 190 180 160 200 110 100 90
Y 7
8
7
6
8
10 9
8
10 6
5
4
2.1) Realice el diagrama de dispersin en forma manual.
2.2) Realice el diagrama de dispersin empleando Excel.
2.3) Realice el diagrama de dispersin empleando el programa Graph.
2.4) Calcule el coeficiente de Pearson empleando las dos frmulas.
0,9817
2.5) Calcule el coeficiente de determinacin empleando las dos frmulas y mediante Excel.
0,9638
3) Cree y resuelva un ejercicio similar a los anteriores.

2) ANLISIS DE REGRESIN
Los primeros y ms importantes estudios al respecto se deben a los cientficos Francis Galton (18221911) y Karl Pearson (1857-1936). Fue Galton quien utiliz por primera vez el trmino regresin para
indicar que, aunque influida por la estatura de sus padres, la estatura de los hijos regresaba a la media
general.
La regresin examina la relacin entre dos variables, pero restringiendo una de ellas con el objeto de
estudiar las variaciones de una variable cuando la otra permanece constante. En otras palabras, la
regresin es un mtodo que se emplea para predecir el valor de una variable en funcin de valores
dados a la otra variable. En estadstica la palabra predecir no se utiliza en el sentido empleado por los
astrlogos, futurlogos y mentalistas, sino mas bien en un sentido lgico como es el de utilizar el
conocimiento del comportamiento de una variable para obtener informacin sobre otra variable. Por
ejemplo, puede predecirse el resultado que obtendr un estudiante en su examen final, basados en el
conocimiento de las calificaciones promedio de sus exmenes parciales, o predecir la preferencia de los
estudiantes por profesiones cientficas, conociendo los promedios de sus calificaciones en los estudios
escolares.
En todos los casos de regresin existe una dependencia funcional entre las variables. En el caso de dos
variables, siendo una de ellas (X) variable independiente y la otra (Y) la dependiente, se habla de
regresin de Y sobre X; Por ejemplo, los ingenieros forestales utilizan la regresin de la altura de los
rboles sobre su dimetro, lo cual significa que midiendo el dimetro (variable independiente) y
reemplazando su valor en una relacin definida segn la clase de rbol se obtiene la altura, y aun sin
necesidad de clculos aprecian la altura utilizando grficas de la funcin de dependencia, altura =
funcin del dimetro.
2.1) PRINCIPIO DE LOS MNIMOS CUADRADOS
2.1.1) LA RECTA DE LOS MNIMOS CUADRADOS
Se llama lnea de mejor ajuste y se define como la lnea que hace mnima la suma de los cuadrados de
las desviaciones respecto a ella de todos los puntos que corresponden a la informacin recogida.

Mgs. Mario Surez

Correlacin y Regresin

12

La recta de los mnimos cuadrados que aproxima el conjunto de puntos X 1 ,Y1 , X 2 ,Y2 , X 3 ,Y3
, X N , YN tomando en cuenta a Y como variable dependiente tiene por ecuacin

A esta ecuacin suele llamarse recta de regresin de Y sobre X, y se usa para estimar los valores de Y
para valores dados de X.
se le suma en ambos lados

Si a la recta de regresin

Si a la recta de regresin

(
) se obtiene

) se obtiene

se multiplica por X a ambos lados y luego se suma

Las constantes a 0 y a1 quedan fijadas al resolver simultneamente las ecuaciones anteriormente


encontradas, es decir, al resolver el siguiente sistema de ecuaciones:

Y a0 N a1 X

2
XY a0 X a1 X
Que se llaman las ecuaciones normales para la recta de mnimos cuadrados.
Las constantes a 0 y a1 de las anteriores ecuaciones tambin se pueden calcular empleando las
siguientes frmulas:

( )

( )
Otra ecuacin para los mnimos cuadrados para x X X y y Y Y de la recta de regresin de Y
sobre X es:

(
)

La recta de los mnimos cuadrados que aproxima el conjunto de puntos X 1 ,Y1 , X 2 ,Y2 , X 3 ,Y3
, X N , YN tomando en cuenta a X como variable dependiente tiene por ecuacin

A esta ecuacin suele llamarse recta de regresin de X sobre Y, y se usa para estimar los valores de X
para valores dados de Y. Las constantes
y
quedan fijadas al resolver el siguiente sistema de
ecuaciones:
X b0 N b1 Y

2
XY b0 Y b1 Y

Las constantes
frmulas:

del sistema de ecuaciones anterior se pueden calcular empleando las siguientes

Mgs. Mario Surez


( )

Correlacin y Regresin

( )

13

Otra ecuacin para los mnimos cuadrados para x X X y y Y Y es:


(

El punto de interseccin entre las rectas Y a0 a1 X con X b0 b1Y se simboliza X , Y y se llama


centroide o centro de gravedad.

Ejemplo ilustrativo
Con los datos de la siguiente tabla sobre la altura en centmetros (X) y los pesos en kilogramos (Y) de
una muestra de 8 estudiantes varones tomada al azar del segundo semestre de una universidad.
X 152 157 162 167 173 178 182 188
Y 56 61 67 72 70 72 83 92
1) Ajustar la recta de mnimos cuadrados para Y como variable dependiente resolviendo el sistema:

Y a0 N a1 X

2
XY a0 X a1 X
2) Ajustar la recta de mnimos cuadrados para Y como variable dependiente empleando las frmulas:

( )

( )

3) Ajustar la recta de mnimos cuadrados para Y como variable dependiente empleando la frmula:

(
)

4) Ajustar la recta de mnimos cuadrados para X como variable dependiente resolviendo el sistema:

X b0 N b1 Y

2
XY b0 Y b1 Y
5) Calcular el punto centroide.
6) Calcular el coeficiente de determinacin.
7) Elaborar el diagrama de dispersin. Y en el mismo diagrama graficar las dos rectas de mnimos
cuadrados obtenidas en los pasos anteriores.
8) Estimar el valor de Y cuando X = 200 en el diagrama de dispersin de Y como variable dependiente.
R: 8,2
9) Estimar el valor de X cuando Y= 100 en el diagrama de dispersin X como variable dependiente.

Mgs. Mario Surez

Correlacin y Regresin

14

Solucin:
Para comenzar a resolver el ejercicio se llena la siguiente tabla:
XY
X2
8512
23104
9577
24649
10854
26244
12024
27889
12110
29929
12816
31684
15106
33124
17296
35344
2
Y = 573 XY = 98295 X = 231967

X
152
157
162
167
173
178
182
188

Y
56
61
67
72
70
72
83
92

X =1359

Y2
3136
3721
4489
5184
4900
5184
6889
8464
2
Y = 41967

1) Reemplazando valores en el sistema se tiene:

Y a0 N a1 X

2
XY a0 X a1 X

Resolviendo el sistema por determinantes (regla de Cramer) se obtiene:


|

Interpretacin:
- El valor
- El valor de

Mgs. Mario Surez

indica que la recta tiene una pendiente positiva aumentando a razn de 0,864
indica el punto en donde la recta interseca al eje Y cuanto X = 0

Correlacin y Regresin

15

En Excel el sistema se resuelve de la siguiente manera:

Reemplazando valores en la ecuacin respectiva se obtiene:

2) Con los datos de la tabla anterior se substituye valores en las siguientes ecuaciones:

( )

( )

Reemplazando valores en la ecuacin respectiva se obtiene:

3) Se calcula las medias aritmticas de X y Y para llenar la siguiente tabla:

Mgs. Mario Surez

Correlacin y Regresin

16

x= - y= -
-17,88 -15,625
-12,88 -10,625
-7,875
-4,625
-2,875
0,375
3,125
-1,625
8,125
0,375
12,125 11,375
18,125 20,375

X
152
157
162
167
173
178
182
188

Y
56
61
67
72
70
72
83
92

X=1359

Y=573

xy
279,297
136,797
36,422
-1,078
-5,078
3,047
137,922
369,297
xy = 956,625

x2
y2
319,516
244,141
165,766
112,891
62,016
21,391
8,266
0,141
9,766
2,641
66,016
0,141
147,016
129,391
328,516
415,141
2
2
x = 1106,875 x = 925,875

Reemplazando valores en la frmula respectiva se obtiene:

4) Reemplazando valores en sistema respectivo se obtiene:

X b0 N b1 Y

2
XY b0 Y b1 Y
{

Resolviendo el sistema se obtiene:

Mgs. Mario Surez

Correlacin y Regresin

17

Reemplazando valores en la ecuacin de la recta de mnimos cuadrados se obtiene:

Interpretacin:
- El valor

indica que la recta tiene una pendiente positiva aumentando a razn de 1,033

- El valor de

indica el punto en donde la recta interseca al eje X cuanto Y = 0

5) Para calcular el centroide X , Y se resuelve el sistema formado por las dos rectas de los mnimos
cuadrados en donde X es y Y es .
{
Al resolver el sistema se obtiene el centroide: X = 169,3 y Y = 71,092

6) Se aplica la ecuacin para calcular el coeficiente de Pearson.

( )( )
( ) ][

( ) ]

) ][

) ]

Elevando al cuadrado coeficiente de Pearson queda calculado el coeficiente de determinacin.


Coeficiente de determinacin =

7) En Excel, insertando grfico de dispersin se obtiene la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

18

Empleando el programa Graph se obtiene la siguiente figura:

8) Reemplazando X = 200 en la ecuacin solicitada se obtiene:

9) Reemplazando Y = 100 en la ecuacin solicitada se obtiene:

TAREA DE INTERAPRENDIZAJE
1) Consulte sobre la biografa de Francis Galton y de Cramer, y realice un organizador grfico de cada
una.
2) Dada la siguiente tabla sobre la altura en centmetros (X) y los pesos en kilogramos (Y) de una
muestra de 8 estudiantes varones tomada al azar del segundo semestre de una universidad.
X 150 155 160 165 170 175 180 185
Y 55 60 63 67 70 74 79 85
2.1) Ajuste la recta de mnimos cuadrados para Y como variable dependiente resolviendo el sistema. El
sistema resuelva de manera manual y mediante Excel.
Y a0 N a1 X

2
XY a0 X a1 X

Mgs. Mario Surez

Correlacin y Regresin

19

2.2) Ajuste la recta de mnimos cuadrados para Y como variable dependiente empleando las frmulas

( )

( )

2.3) Ajuste la recta de mnimos cuadrados para Y como variable dependiente empleando la frmula

(
)

2.4) Ajuste la recta de mnimos cuadrados para X como variable dependiente resolviendo el sistema. El
sistema resuelva de manera manual y mediante Excel.
X b0 N b1 Y

2
XY b0 Y b1 Y

2.5) Ajuste la recta de mnimos cuadrados para X como variable dependiente empleando las frmulas

( )

( )

2.6) Ajuste la recta de mnimos cuadrados para X como variable dependiente empleando la frmula

(
)

2.7) Calcule el punto centroide de manera manual y empleando Excel.

2.8) Calcule el coeficiente de determinacin.


0,99
2.9) Elabore el diagrama de dispersin. Y en el mismo diagrama graficar las dos rectas de mnimos
cuadrados obtenidas en los pasos anteriores. Elabore de manera manual, empleando Excel y el
programa Graph.
2.10) Estime el valor de Y cuando X = 173 en el diagrama de dispersin de Y como variable
dependiente.
73,6
2.11) Estime el valor de X cuando Y = 73 en el diagrama de dispersin de Y como variable
dependiente.
172,2
3) Cree y resuelva un ejercicio similar al anterior con datos obtenidos de 10 amigas suyas.

Mgs. Mario Surez

Correlacin y Regresin

20

2.1.2) LA PARBOLA DE LOS MNIMOS CUADRADOS


La parbola de mnimos cuadrados que aproxima el conjunto de puntos (X1,Y1) , (X2,Y2),
(X3,Y3),..(XN,YN) tiene ecuacin dada por Y a0 a1 X a2 X 2 , donde las constantes a 0 , a1 y a 2 se
determinan al resolver simultneamente el sistema de ecuaciones que se forma al multiplicar la
ecuacin Y a0 a1 X a2 X 2 por 1, X, Y sucesivamente, y sumando despus.

Y a0 N a1X a 2 X 2

2
3
XY a0 X a1X a 2 X
X 2Y a X 2 a X 3 a X 4
0
1
2

Ejemplo ilustrativo
La siguiente tabla muestra la poblacin de un pas en los aos 1960-2010 en intervalos de 5 aos.
Ao
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Poblacin (millones) 4,52 5,18 6,25 7,42 8,16 9,12 10,92 11,62 12,68 13,12 13,97
1) Ajustar una parbola de mnimos cuadrados de la forma Y a0 a1 X a2 X 2
2) Calcular los valores de tendencia para los aos dados.
3) Estimar la poblacin para los aos 2015 y 2020.
4) Calcular el coeficiente de determinacin.
5) Elaborar un diagrama de dispersin, y en el mismo diagrama graficar la parbola de los mnimos
cuadrados.
Nota: Se recomienda codificar o cambiar la numeracin de los aos, eligiendo X de modo que el ao
central, 1985, corresponda a X= 0, para que se hagan ms fciles los clculos.

Solucin:
1) Para ajustar una parbola de mnimos cuadrados se llena la siguiente tabla:
Ao

X2

X3

X4

XY

X2Y

1960
1965
1970
1975
1980
1985
1990
1995
2000

-5
-4
-3
-2
-1
0
1
2
3

4,52
5,18
6,25
7,42
8,16
9,12
10,92
11,62
12,68

25
16
9
4
1
0
1
4
9

-125
-64
-27
-8
-1
0
1
8
27

625
256
81
16
1
0
1
16
81

-22,6
-20,72
-18,75
-14,84
-8,16
0
10,92
23,24
38,04

113
82,88
56,25
29,68
8,16
0
10,92
46,48
114,12

Mgs. Mario Surez

Correlacin y Regresin

21

2005
2010

4
5
0

13,12
13,97
102,96

16
25
110

64
125
0

256
625
1958

52,48
69,85
109,46

209,92
349,25
1020,66

Se reemplaza valores en el sistema y se obtiene:

Y a0 N a1X a 2 X 2

2
3
XY a0 X a1X a 2 X
X 2Y a X 2 a X 3 a X 4
0
1
2

Resolviendo el sistema empleando determinantes (regla de Cramer) se obtiene:

Mgs. Mario Surez

Correlacin y Regresin

22

El sistema resuelto en Excel se muestra en la siguiente figura:

Reemplazando los valores encontrados se obtiene la ecuacin de la parbola de mnimos cuadrados:


Y = 9,464 + 0,995X - 0,01X2
2) Los valores de tendencia se obtienen al reemplazar los valores de X en la ecuacin de la parbola de
mnimos cuadrados, los cuales se presenta en la siguiente tabla:
Ao X
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
2010
Mgs. Mario Surez

-5
-4
-3
-2
-1
0
1
2
3
4
5

Y
4,52
5,18
6,25
7,42
8,16
9,12
10,92
11,62
12,68
13,12
13,97

Valores de tendencia
Y = 9,464 + 0,995X - 0,01X2
4,24
5,32
6,39
7,43
8,46
9,46
10,45
11,41
12,36
13,28
14,19
Correlacin y Regresin

23

3) Para estimar la poblacin de los aos 2015 y 2020 se transforma estos aos a X siguiendo la
secuencia de la tabla anterior, siendo X = 6 para el ao 2015 y X= 7 para el 2020
Entonces para el 2015 se tiene:
Y = 9,464 + 0,995X - 0,01X2 =9,464 + 0,995(6) - 0,01(6)2 = 9,464 + 5,97-0,36 =15,074
Para el 2020 se tiene:
Y = 9,464 + 0,995X - 0,01X2 =9,464 + 0,995(7) - 0,01(7)2 = 9,464 + 6,965-0,49 =15,939
4) Se llena la siguiente tabla y se aplica la ecuacin para calcular el coeficiente de Pearson
Ao
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
2010

X
-5
-4
-3
-2
-1
0
1
2
3
4
5
0

Y
4,52
5,18
6,25
7,42
8,16
9,12
10,92
11,62
12,68
13,12
13,97
102,96

X2
25
16
9
4
1
0
1
4
9
16
25
110

XY
-22,6
-20,72
-18,75
-14,84
-8,16
0
10,92
23,24
38,04
52,48
69,85
109,46

Y2
20,430
26,832
39,063
55,056
66,586
83,174
119,246
135,024
160,782
172,134
195,161
1073,490

( )( )
( ) ][

( ) ]

( ) ][

) ]

Elevando al cuadrado coeficiente de Pearson queda calculado el coeficiente de determinacin.


(
)
Coeficiente de determinacin =
El coeficiente de determinacin calculado en Excel se muestra en la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

24

5) El diagrama de dispersin y la parbola de los mnimos cuadrados mediante Excel se muestra en la


siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

25

Empleando el programa Graph se obtiene la siguiente figura:

TAREA DE INTERAPRENDIZAJE
1) La siguiente tabla muestra la poblacin aproximada de la Provincia de Imbabura en los aos
1960-2010 en intervalos de 5 aos.
Ao
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Poblacin (miles) 123 140 170 201 221 247 296 315 344 356 379
1.1) Ajuste una parbola de mnimos cuadrados de la forma Y a0 a1 X a2 X 2
Y = 256,464 + 26,991X - 0,265X2
1.2) Calcule los valores de tendencia para los aos dados de manera manual y empleando Excel.
Ao
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Valor de tendencia 114,88 144,26 173,11 201,42 229,21 256,46 283,19 309,39 335,05 360,19 384,79
1.3) Estime la poblacin para los aos 2015 y 2020
Ao 2015 = 408,87 miles de habitantes
Ao 2020 = 432,42 miles de habitantes
1.4) Calcule el coeficiente de determinacin de manera manual y empleando Excel.
Mgs. Mario Surez

Correlacin y Regresin

26

0,992
1.5) Elabore un diagrama de dispersin, y en el mismo diagrama graficar la parbola de los mnimos
cuadrados de manera manual, empleando Excel y empleando Graph.

2) Cree y resuelva un ejercicio de aplicacin de la parbola de los mnimos cuadrados con datos de la
poblacin del Ecuador o de cualquier otro pas de manera manual, empleando Excel y Graph.

2.1.3) REGRESIN EXPONENCIAL


Cuando la curva de regresin de y sobre x es exponencial, es decir para cualquier x considerada, la
media de la distribucin est dada por la siguiente ecuacin predictora:

Tomando logaritmos en ambos miembros:


y se puede estimar ahora log Y y log , y de ah obtener y , aplicando los mtodos de los mnimos
cuadrados.
Donde las constantes y quedan fijadas al resolver simultneamente las ecuaciones:

log Y log N log X

2
X log Y log X log X

Ejemplo ilustrativo: Las cifras siguientes son datos sobre el porcentaje de llantas radiales producidas
por cierto fabricante que an pueden usarse despus de recorrer cierto nmero de millas:
Miles de Millas recorridas (X)
Porcentaje til (Y)

1
99

2
95

5
85

15
55

25
30

30
24

35
20

40
15

1) Elaborar el diagrama de dispersin.


2) Ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados.
3) Calcular la ecuacin predictora.
4) Graficar la ecuacin predictora.
5) Estimar qu porcentaje de las llantas radiales del fabricante durarn 50000 millas.
Solucin:
1) Elaborando el diagrama de dispersin empleando Excel se obtiene la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

27

Empleando el programa Graph se obtiene la siguiente figura:

2) Se llena la siguiente tabla:


X
1

Y
99

2
5
15
25
30
35
40
X=153

95
85
55
30
24
20
15

Mgs. Mario Surez

log Y
1,996
1,978
1,929
1,740
1,477
1,380
1,301
1,176

X2
1
4
25
225
625
900
1225
1600

X logY
1,996
3,955
9,647
26,105
36,928
41,406
45,536
47,044

log Y=12,97759

X2 = 4605

X logY = 212,61769

Correlacin y Regresin

28

Resolviendo empleando Excel se muestra en la siguiente figura:

Reemplazando valores en el sistema se obtiene:

log Y log N log X

2
X log Y log X log X
{

Al resolver el sistema se obtiene:


|

|
|

Reemplazando valores se obtiene:

Aplicando el antilogaritmo se obtiene:

Mgs. Mario Surez

Correlacin y Regresin

29

Resolviendo empleando Excel se muestra en la siguiente figura:

3) Reemplazando en la ecuacin predictora se obtiene:

4) Graficando la ecuacin predictora empleando Excel se obtiene la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

30

En Graph se obtiene la siguiente figura:

5) La estimacin del porcentaje de llantas radiales que durarn 50000 millas se obtiene reemplazando
en la ecuacin predictora el valor de X = 50

Entonces el porcentaje sera de 9,106%


TAREA DE INTERAPRENDIZAJE
1) Elabore un organizador grfico sobre la regresin exponencial.
2) Las cifras siguientes son datos sobre el porcentaje de llantas radiales producidas por cierto fabricante
que an pueden usarse despus de recorrer cierto nmero de millas:
Miles de Millas recorridas (X)
Porcentaje til (Y)

1
98

2
92

5
80

10
64

20
36

30
32

40
17

50
11

2.1) Ajuste una curva exponencial aplicando el mtodo de mnimos cuadrados. Resolver manualmente
y empleando Excel. Realizar los clculos empleando la mayor cantidad de decimales.
2.2) Calcule la ecuacin predictora.
2.3) Grafique la ecuacin predictora de manera manual, empleando Excel y el programa Graph.
2.4) Estime qu porcentaje de las llantas radiales del fabricante durarn 35000 millas.
21,7%
Mgs. Mario Surez

Correlacin y Regresin

31

3) Cree y resuelva un ejercicio empleando los conocimientos de la regresin exponencial de manera


manual, empleando Excel y Graph.

2.1.4) REGRESIN POTENCIAL


La regresin potencial tiene por ecuacin predictora:

y la regresin recproca es:

Para el primer caso los valores siguen una ley potencial. Si la ecuacin predictora est dada por:
Y X , tomando logaritmos en ambos miembros, queda:

Donde las constantes y quedan fijadas al resolver simultneamente las ecuaciones:

log Y log N log X

2
log X log Y log log X (log X )
Para el segundo caso, si la ecuacin predictora est dada por Y 1/( X ) , entonces invirtiendo, la
misma expresin se puede escribir 1/ Y ( X ) /1 , o sea:

Donde las constantes y quedan fijadas al resolver simultneamente las ecuaciones:

Y N X

1
X X X 2
Y

Ejemplos ilustrativo N 1
Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es el volumen (variable
independiente) e Y es la presin de una masa dada de gas (variable resultante).
X 1 2 3 4
5
6
7
Y 7 30 90 170 290 450 650
1.1) Elaborar el diagrama de dispersin.
1.2) Ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados.
1.3) Calcular la ecuacin predictora.
1.4) Graficar la ecuacin predictora.
1.5) Estimar la presin de la masa de gas de volumen 9.
Mgs. Mario Surez

Correlacin y Regresin

32

Solucin:
1.1) El diagrama de dispersin elaborado en Excel se presenta en la siguiente figura:

El diagrama de dispersin elaborado en Graph se presenta en la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

33

1.2) Para ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados se llena la siguiente
tabla:
X
1
2
3
4
5
6
7
X=28

Y
7
30
90
170
290
450
650

log X log Y
log X
log Y
(log X)2
0,0000
0,8451
0,0000
0,0000
0,3010
1,4771
0,4447
0,0906
0,4771
1,9542
0,9324
0,2276
0,6021
2,2304
1,3429
0,3625
0,6990
2,4624
1,7211
0,4886
0,7782
2,6532
2,0646
0,6055
0,8451
2,8129
2,3772
0,7142
logX=3,7024 logY=14,4354 log X log Y =8,8829 (log X)2= 2,4890

Reemplazando valores en el sistema de ecuaciones se obtiene:

log Y log N log X

2
log X log Y log log X (log X )
{

Al resolver el sistema se obtiene: log = 0,819 ; = 2,351


Reemplazando valores en la ecuacin predictora expresada en logaritmos se tiene:

1.3) Para calcular la ecuacin predictora, primero se calcula el valor de de la siguiente manera:

Reemplazando en la ecuacin predictora se obtiene:

1.4) Graficando la ecuacin predictora mediante Excel se muestra en la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

34

Empleando Graph se obtiene la siguiente figura:

1.5) Para estimar la presin de la masa de gas de volumen 9 se reemplaza el valor X = 9 en la ecuacin
predictora

Ejemplo ilustrativo N 2
Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es la variable
independiente e Y la variable resultante.
X 1
2 3
4
5
6
7
Y 1,4 1 0,9 0,7 0,6 0,55 0,5
2.1) Elaborar el diagrama de dispersin.
2.2) Calcular las constantes y , aplicando el mtodo de mnimos cuadrados.
2.3) Calcular la ecuacin predictora.
2.4) Graficar la ecuacin predictora.
2.5) Estimar el valor de Y para X = 9
Solucin:
2.1) El diagrama de dispersin elaborado en Excel se muestra en la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

35

El diagrama de dispersin elaborado en Graph se muestra en la siguiente figura:

2.2) Para calcular las constantes y , aplicando el mtodo de mnimos cuadrados se llena la
siguiente tabla:
X
1
2
3
4
5
6
7
X = 28

Y
1,4
1
0,9
0,7
0,6
0,55
0,5

1/Y
0,7143
1,0000
1,1111
1,4286
1,6667
1,8182
2,0000
(1/Y) = 9,7388

X(1/Y)
0,7143
2,0000
3,3333
5,7143
8,3333
10,9091
14,0000
X(1/Y) = 45,0043

X2
1
4
9
16
25
36
49
2
X = 140

Reemplazando valores en el siguiente sistema se obtiene:


1

Y N X

1
X X X 2
Y

Al resolver el sistema se obtiene:


= 0,5271; = 0,2160
2.3) Para calcular la ecuacin predictora se reemplaza los valores encontrados de y , y se obtiene:

Mgs. Mario Surez

Correlacin y Regresin

36

2.4) La grfica la ecuacin predictora elaborada en Excel se muestra en la siguiente figura:

La grfica la ecuacin predictora elaborada en Graph se muestra en la siguiente figura:

2.5) Para estimar el valor de Y para X = 9 se reemplaza el valor de X en la ecuacin predictora.

Mgs. Mario Surez

Correlacin y Regresin

37

TAREA DE INTERAPRENDIZAJE
1) Elabore un organizador grfico sobre la regresin potencial.
2) Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es el volumen (variable
independiente) e Y es la presin de una masa dada de gas (variable resultante).
X 1 2 3 4
5
6
7
Y 5 35 90 180 300 460 670
2.1) Elabore el diagrama de dispersin de manera manual, empleando Excel y Graph
2.2) Ajuste una curva exponencial aplicando el mtodo de mnimos cuadrados empleando por lo menos
4 decimales para los clculos.
2.3) Calcule la ecuacin predictora.
2.4) Grafique la ecuacin predictora de manera manual, empleando Excel y Graph.
2.5) Estime la presin de la masa de gas de volumen 9.
979,17
3) Cree y resuelva un ejercicio similar al anterior.
4) Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es la variable
independiente e Y la variable resultante.
X 1
2 3
4
5
6
7
Y 1,5 1 0,8 0,9 0,5 0,4 0,3
4.1) Elabore el diagrama de dispersin de manera manual, empleando Excel y Graph.
4.2) Calcule las constantes y , aplicando el mtodo de mnimos cuadrados de manera manual y
empleando Excel.
= 0,0159; = 0,4196
4.3) Calcule la ecuacin predictora.

4.4) Grafique la ecuacin predictora de manera manual, empleando Excel y Graph.


4.5) Estime el valor de Y para X = 8
0,2965

5) Cree y resuelva un ejercicio similar al anterior de manera manual, empleando Excel y el programa
Graph.

Mgs. Mario Surez

Correlacin y Regresin

38

2.2) ERROR ESTNDAR DE ESTIMACIN


Es el grado de dispersin de los datos con respecto a la recta de regresin
El error estndar de estimacin se calcula con la frmula:
(

Donde:
= cada valor de Y
= valor estimado de Y a partir de la recta de regresin
N = nmero de datos
Nota: Como se puede observar, el error estndar de estimacin es un clculo de la desviacin estndar
de la muestra de datos con respecto a la recta de regresin, en la que
sustituye a la media de la
muestra, y con n-2 en el denominador en vez de n-1. La razn de que sea n-2, es debido a que se pierde
2 grados de libertad al calcular las 2 constantes,
y en la recta de regresin.
Otras ecuaciones para calcular el error estndar de estimacin son:

Donde:
= ordenada en el origen (punto de interseccin de la recta con el eje y)
a1 = pendiente de la recta (tangente del ngulo de inclinacin de la recta)

Ejemplo ilustrativo
Calcular error estndar de estimacin empleando las 3 frmulas dadas, utilizando los datos de la tabla
del ejemplo para ajustar la recta de mnimos cuadrados para Y como variable dependiente.
X
152
157
162
167
173
178
182
188

Y
56
61
67
72
70
72
83
92

Solucin:
Para comenzar a resolver este ejemplo recordemos que ya se obtuvo los valores respectivos al resolver
el ejemplo para ajustar la recta de mnimos cuadrados, los cuales fueron:
X = 1359; Y = 573; XY = 98295; X2 = 231967; Y2 = 41967; xy = 956,625; x2 = 1106,875;
y2 = 925,875;
= -75,191; = 0,864;

Mgs. Mario Surez

Correlacin y Regresin

39

1) Para emplear la primera frmula se llena la siguiente tabla:


X
152
157
162
167
173
178
182
188

Y
56
61
67
72
70
72
83
92

Yest = -75,191+0,86X
-75,191+0,86(152)
-75,191+0,86(157)
-75,191+0,86(162)
-75,191+0,86(167)
-75,191+0,86(173)
-75,191+0,86(178)
-75,191+0,86(182)
-75,191+0,86(188)

Yest
55,529
59,829
64,129
68,429
73,589
77,889
81,329
86,489

(Y- Yest)2
0,222
1,371
8,243
12,752
12,881
34,680
2,792
30,371
103,312

Se reemplaza valores en la primera frmula se obtiene:


(

Realizando los clculos de los componentes de la frmula empleando Excel se obtiene un valor ms
exacto, ya que Excel utiliza una mayor cantidad de decimales al realizar los clculos. Estos clculos se
muestran en la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

40

2) Reemplazando valores en la segunda frmula se obtiene:

)(

Los clculos de los componentes de la frmula empleando Excel se muestran en la siguiente figura:

Mgs. Mario Surez

Correlacin y Regresin

41

3) Reemplazando valores en la tercera frmula se obtiene:

Los clculos de los componentes de la frmula empleando Excel se muestran en la siguiente figura:

En Excel:

Mgs. Mario Surez

Correlacin y Regresin

42

El diagrama dispersin y la recta de mnimos cuadrados elaborado en Excel se muestra en la siguiente


figura, donde R2 es el coeficiente de determinacin:

Interpretacin: El valor de
4,064 de la recta de regresin.

, significa que los puntos estn dispersos a una distancia de


TAREA DE INTERAPRENDIZAJE

Dada la siguiente tabla sobre la altura en centmetros (X) y los pesos en kilogramos (Y) de una muestra
de 8 estudiantes varones tomada al azar del segundo semestre de una universidad.
X 150 155 160 165 170 175 180 185
Y 56 61 64 68 72 75 80 90
1) Calcule el coeficiente de determinacin de manera manual y empleando Excel.
0,97
2) Calcule el error estndar de estimacin empleando la primera frmula. Utilice 5 decimales para los
clculos. Los elementos de la frmula calcule empleando Excel, tal como se indic en el ejemplo.
2,1
3) Calcule el error estndar de estimacin empleando la segunda frmula. Utilice 5 decimales para los
clculos. Los elementos de la frmula calcule empleando Excel, tal como se indic en el ejemplo.
2,1
4) Calcule el error estndar de estimacin empleando la tercera frmula. Utilice 5 decimales para los
clculos. Los elementos de la frmula calcule empleando Excel, tal como se indic en el ejemplo.
2,1
5) Calcule el error estndar de estimacin empleando exclusivamente Excel.
2,1
6) Elabore el diagrama de dispersin, y en el mismo diagrama graficar la recta de regresin. Realice de
manera manual, empleando Excel y Graph.

Mgs. Mario Surez

Correlacin y Regresin

43

REFERENCIAS BIBLIOGRFICAS
SUREZ, Mario, (2012), Interaprendizaje de Estadstica Bsica, Universidad Tcnica del Norte
TAPIA, Fausto
Ibarra, Ecuador.
SUREZ, Mario, (2011), Coeficiente de correlacin de Pearson para datos agrupados en intervalos,
www.monografias.com/trabajos86/
SUREZ, Mario, (2011), Coeficiente
www.monografias.com/trabajos85/

de

Correlacin

por

Rangos

de

Spearman,

SUREZ, Mario, (2011), La recta de los mnimos cuadrados, www.monografias.com/trabajos85/


SUREZ, Mario (2011), Anlisis de regresin mediante la parbola de los mnimos cuadrados,
www.monografias.com/trabajos86/
SUREZ, Mario (2011), Regresin potencial mediante
www.monografias.com/trabajos89/

el mtodo de los mnimos cuadrados,

SUREZ, Mario (2011), Regresin exponencial mediante el mtodo de los mnimos cuadrados,
www.monografias.com/trabajos89/

Mgs. Mario Surez

Correlacin y Regresin

44

También podría gustarte