Está en la página 1de 24

Lección

5.1 lliagrama de dispersión


La representac¡ón gráfica más útil para describir el comportamiento conjunto de dos
variables es el d¡agrama de dispersión o nube de puntos, donde cada caso aparece re-
presentado como un punto en el plano definido por la variable "X", que es generalmente
independ¡ente y por la var¡able "Y" que es depend¡ente de X.

Cuando el diagrama recoge un gran número de observaciones, algunos puntos


representan a más de un caso ya que estos se superponen. La representac¡ón gráfica
mediante el Diagrama de Dispersión, permite comprobar la existencia de relación lineal
entre las dos variables; y la med¡da analítica adecuada, la da el coeficiente de correlación
lineal.

Ejemplo 1: Si en la ordenada o eje "Y", se grañca la var¡able peso y en la absc¡sa o


eje "X", se grafica la variable Est (Estatura), se obtiene:

¡ t99¡
ESTADíSTICA II

r10

f00 o
§
f!
s G§

^ae
vañ o
80 ooB-
Hmo
- oBoo
m "olo ' Bo o
orü a_ §
oo o§ o^
o"
60 o rÉ --o
'ok og
¡sofl^É
a pu§.--H"
o E oEElg '"o
f0 o
ot" -f¡
§o
§
o
d,
r¡J
ü.. 30l
1¡10 ?m

E§T

Como se observa en el gráfico ambas variables presentan una relación lineal positiva;
es decir, a medida que aumenta el valor de la variable Est aumenta también el valor de
la variable Peso.

Ejemplo 2: Si en la ordenada o eje "Y", se grafica la variable Tiempo de Servicios y


en la abscisa o eje "X', se grafica la variable Edad, se obtiene:

DIAGRAMA DE ESPARCIMIENTO DE LA EDAD Y TIEMPO


DE SERVICIOS DE 15 TRABAJADORES

30
o
-o 25
tÉ. 20
t¡l
tt,
aa
a
u15 -a
o o
810 aa
-a
l=¡J 5
t
a
tr
0

§200r
wALTER cÉspEoes RR¡,1 íRrz

Se aprecia que la nube de puntos resultante tiene una forma alargada, con una
relación positiva en donde es posible ajustar o representar por una línea recta.

Los Diagramas de Dispersión además de describirelcomportamiento de la información;


con la nube de datos, usted puede tener una idea sobre cual será la función matemática
que describa mejor dicho comportamiento.

Figura: Diferentes nubes de puntos y modelos de regresión para ellas.

tr¡fodelo Lins.al l¡fodelo no Lineal


Mal ajurte Buen ajuste

Cu¡¡dn xcrtrÉ,
ytrÉffi

Variahle¡ no rl aoo nadas


Ninguna curva de ngesron
esadEcuad¿ a
)a
I a
o
a
Cuando x. crcce,'

Cuando interviene una determinada función matemática sobre una dispersión de


datos, el diagrama se transforma en algún modelo de Regresión.

120 ll
Lección 7

§.2 Regresiún
Las técnicas de regresión es un proceso que permite hacer predicciones sobre los
valores de cierta variable Y (dependiente), a partir de los de otra X (independiente),
entre las que se intuye que existe una relación.

Para ilustrar mejor al lector por ejemplo si se compara la estatura media en centímetros
en el eje X y la estatura media en metros en el eje Y al obseruar a un grupo de personas, no
es necesario hacer grandes esfuezos para saber que la relación que hay entre ambas es:

Y=X/100
En cambio esta relación sencilla puede ser más compleja, si por ejemplo se comparan
estas mismas personas colocando en el eje X a la estatura media en centímetros y en
el eje Y el peso en kilogramos. Esta relación requiere de un análisis y solo después del
mismo se puede concluir:

Y=X-110+error
La razón es que no es cierto que conocida la altura de un individuo, no puede deter-
minar su peso exacto, si dos personas que miden 170 cm pueden tener pesos de 60 y
65 kilos. Sin embargo, alguna relación entre ellas debe existir, pues parece mucho más

§203 §
E 5TA D íST ICA II

probable que un ¡nd¡v¡duo de 200 cm pese más que otro que m¡da 120 cm. Es más, de
acuerdo a lo mencionado, la conclusión Y = X - 110 + error, parece acertada.

A la relación entre dos o más variable a partir de una serie de datos, se le denom¡na
Regresión.

Cuando la relac¡ón esta dada por: i = t'1x.¡

Se le denom¡na Relac¡ón Funcional y el criterio para construir i, es que la diferenc¡a


entre y ei sea pequeña; es dec¡r, que el error de estimac¡ón sea pequeño.

i=r1*.¡, Y-i=e¡ror
La Relación Funcional puede tamb¡én ser a la inversa, es dec¡r que X están en función
de Y; pero este tipo de relación no se verá en este I4anual Auto Instruct¡vo.

Cuando se util¡zan solamente dos variables, la Regresión es denominada SIMPLE; en


cambio, cuando se utilizan más de dos variables, la Regres¡ón es MULTIPLE.

5.2,1 Ajuste en una función de regresión simple

Sign¡fica buscar o definir la función que exprese con mayor precisión la relación entre
var¡ables. Gráficamente será aquella func¡ón que mejor se adecué a la nube de puntos. En
este sentido, es recomendable como primer paso construir el "diagrama o nube de puntos",
luego analizar su forma y dec¡dir el tipo de función matemática para la línea de regres¡ón.

Analít¡camente, la relación i = r1x¡. permite obtener valores est¡mados i a partir de


los valores reales de X, entonces el problema del ajuste de una func¡ón es que la dife-
renc¡a o sesgo (e,) entre los valores reales de y y los estimados i sea mínimo, para cada
valor se tendría: e = Y - y. Entonces se trata de un problema de m¡n¡mizac¡ón, el mismo
que se resuelve con el Método de los Mínimos Cuadrados,

El ajuste de funciones de regresión simple, se pueden utilizar d¡versas funciones


matemát¡cas conoc¡das, tales como:

. La LÍnea Recta Y=a+bX


. La Pará bola i=a+bX+cX2
. La Curva Potencia I i=bx'
. La Curva Exponenc¡al i= ab,
. La Hipérbola Eq u¡látera i = a/)(
. La Curva Logíst¡ca 1/?=a+bcx
. La Curva Gompertz ?=abo
Cada una de estas funciones tiene una forma part¡cular para un conjunto determ¡nado
de valores (X, Y), y defin¡do por el valor de ¡os parámetros o coeficientes de la respect¡_
va ecuación. Por una nube de puntos pueden pesar uná infinidad de líneas o funciones,
de esta familia habrá una que es la función que mejor se ajusta a la nube de puntos.
WALTE R CÉSPEDES RA I"1íR E Z

La operación para determ¡nar la función de regresión óptima, se conoce como "Ajus-


te de una función de regresión". En este Manual se tratará solamente de Regresión
s¡mple para la recta y para la parábola, que son las más usadas por tener mayor aplica-
c¡ón estadística en los negoc¡os.

El problema de ajuste de una función de regresión a un conjunto de n valores (X, Y),


comprende tres pasos:

10 Graficar el diagrama de esparc¡m¡ento o una nube de puntos (X, Y).

20 Deñnir la forma de la func¡ón de regresión (recta, parábola, exponenc¡al, etc.).

30 Determinar el valor numér¡co de los parámetros de la función eleg¡da. Los


parámetros de la func¡ón de regresión se obtienen a partir de las Ecuac¡ones Normales
obtenidas por el Método de los Mín¡mos Cuadrados.

5.2.2 El nétodo de Los minimos cuadrados

Establece que la mejor recta o curva posible es aquella que m¡nimiza la suma de los
cuadrados de las desviaciones entre los puntos dados Y¡ y los correspond¡entes a d¡cha
curva i.

E e,2 =¡ (Y, -i¡u - Error Mínimo

Donde i = f(X), es la ecuación eleg¡da para la función de regresión; s¡n embargo, no


es sufic¡ente con elegir la func¡ón de regresión, por que en la nube de datos se pueden
trazar en diferentes formas la misma función con el mismo error de cálculo. Por esta
razón se busca a aquel trazo de la función que al ser elevado el error al cuadrado, dé el
mínimo error.

Con el método de Mínimos cuadrados se logra calcular los parámetros de Ia ecuación


eleg¡da (Recta, Parábola, etc.). Tamb¡én con los mismos parámetros, se pueden hallar
los coefic¡entes de correlac¡ón respectivos.

5.2.3 Regresión lineal simple

A la regres¡ón l¡neal se le conoce como Regresión de la Recta, la que se define de la


sigu¡ente manera:

Y=a+b(x)+e
A partir de esta deñnic¡ón; se puede estimar el valor de "Y", no considerando ei
error:

Y=a+b(x)

2C5
ESTADíSTICA II

En la ecuación, los parámetros son:

a = Origen (Es el valor de ?, cuando X = 0)

b = Pend¡ente (Es la variaclón constante posit¡va o negat¡va de ? , por cada valor


que camb¡e x)
Tales parámetros¡ como ya se ha menc¡onado en el ítem anter¡or, se calcularán ut¡-
l¡zando el método por Mínimos cuadrados, que se deñne basado en la ecuac¡ón de la
recta, de la siguiente manera:

EY = a(n) + bEx
:XY=aEX+ b:x'z
Para hallar los parámetros respectivos (a y b), basados en el método de cálculo por
Mín¡mos Cuadrados, el alumno puede util¡zar cualquiera de las s¡gu¡entes soluc¡ones:

a) Solución por el¡m¡nac¡ón de uno de los parámetros para encontrar el otro:

Para este caso util¡zan las ecuaciones simultaneas, en donde con un valor artificial
negat¡vo se ¡guala el coeficiente de una de las ¡ncógn¡tas de la ecuación para el¡minarlo.
Operación que se rep¡te hasta quedarse con una incógn¡ta, que es fác¡l de despejar en
una ecuación.

b) Solución a través de matrices y determ¡nantes, que concluyen en:

a
,r2x2 ->-wz-x b -2 2Y
= n»XY2
n»x2 ->*2x n»x - »xLY

c) solución a través de las medias, que concluye en:

a = Y-b X b=[(:xY- n x i)l(>x,- nx,)]

q2061
WALTER CÉSPEDES RAMf REZ

Ejercic¡os resueltos

1) Hallar la ecuac¡ón de la recta con las variables: x (número de vendedores) e Y


(valor de ventas realizadas al mes en miles).

La información que se t¡ene es la sigu¡ente:

Número de vendedores (X) 2 4 10 72 15 16


Ventas en m¡les (Y) 6,4 8,s 9,3 76,4 18,6 20,2 25,2

soluc¡ón:

Con el método por N4ín¡mos cuadrados, se primero se calculan las sumatorias


correspond¡entes a la ecuación de la recta:
x Y XY x2
2 6,4 72,8 4
4 8,5 34,O 1tt
9,3 46,5 25
10 16,4 !64,0 100
72 18,6 t44
15 20,2 303,0 225
16 25,2 403,2 256
: 64 1O4,6 LLA6,7 770

con estos datos para hallar los parámetros "a" y "b", el alumno puede escoqer
cualquiera de las soluciones planteadas por el método por Mínimos cuadrados:

a) soluc¡ón por el¡minac¡ón:

10 Se reemplazan las sumator¡as halladas en las ecuac¡ones simultáneas deñnidas


por el método Mín¡mos Cuadrados:

tY = a(n) + b:X 104,6 = 7a + 64b (1)

:XY=atX+ b EX2 17a6 = 64a + 77ob (2)

2o Se elimina "a" multipl¡cando la ecuac¡ón (1) por - 64 y la ecuación (2) por 7

( =
104,6 7a + 64b) - 64 - 6694,4 = \¿Su - 4096b (3)
\
(7786,7 = 64a + 770b) 7 8306,9 = 448x+ s390b (4)
t672,5 = 1294b

Entonces: b = 1612,5 / t294 = L,25

t207 E
ESTADÍSTICA II

30 Hallado "b" se reemplaza este valor en la ecuación (1):

tO4,6 = 7a + 64 (1,25) 104,6 = 7a + 80 704,6 - 80 = 7a


Entonces: a =24,6 /7 = 3,5
40 La ecuación de la recta será: I = 3,5 + 1,25x
b) Soluc¡ón por determinantes:

Aquí se reemplazan las sumatorias en las fórmulas s¡guientes halladas formando ma-
tr¡ces con las ecuaciones por mínimos cuadrados y resueltas por determ¡nantes:

Zy»y2 _>r72.X 104,6(770') - 1186 ,7 (64) 4593,2


a= '7(7'70)
- 64(64) 1294,0 - 3,5
¡x2y, -2a2y -

b= n>Xy - »X>Y 6 7(I 186,7) - 6a(1oa,6) 1612,5_


=
1(170)-(4(64) t294,o
= L,Zs
nZX2 -»rZX

La ecuac¡ón de la recta será: ? = 3,5 + 1,25X

c) Solución por promed¡os:

V = zx / n = 64 / 7 = 9,t4 y =zy/n=104,6/7=74,94
b=[(:XY- n i v)l(>x,- nX¿))
b=[(1186,7-(7x9,L4xt4,94)) / (770 - (7 x9,!42))]

b= [(1186,7 - 9ss,86) lOTo - s84,7e)] b = Í230,84 / 1a5,22) = a,25

a=i-bV = 7a,94 - 7,2s(9,t4) = 74,94 -77,43 = 3,5

La ecuac¡ón de la recta será: i = 3,5 + 1,25x


El alumno puede ver que por cualquiera de los métodos de solución expuestos/ la
respuesta es la misma; pues puede escoger el método que sea más fác¡l para usted o
el que más le agrade.

2) Hallar la ecuación de la recta con las var¡ables: X (número de gastos por inversión)
e Y (util¡dades anuales en m¡les).

La información que se t¡ene es la siqu¡ente:

Número de gastos por invers¡ón (X) 5 11 4 5 3 2


Utilidades anuales en miles (Y) 31 40 30 34 25 20
WALTER CÉSPEDES RAMf REZ

Solución:

Con el método por Mínimos cuadrados, se primero se calculan las sumatorias


correspondientes a la ecuación de la recta:

x Y XY x2
5 31 155 25

11 40 440 727

4 30 t20 16

5 34 770 25

3 25 75 9

2 20 40 4

30 180 1000 200


Para hallar los parámetros "a" y "b", se ha escogido la solución por determinantes.

a= »Y>X2 ->XY>.X ¿ =180(200)-1000(30) _ 6000 = 2O


nZ.X2 ->X>,-X 6(200) - 30(30) 300

_Z .
!= uZXY ->X>Y b= 6(1000) - 30(180) 600-
nZ-X'->x>-X 6(200) -30(30) 300

La ecuación de la recta será: ? = 2O + 2X

1209a
E STAD íSIICA II

Resolver los s¡9u¡entes ejerc¡c¡os propuestos sobre Regres¡ón L¡neal SimPle:

1) Hallar la ecuación de la recta con las variables: X (número de desaprobados) e Y


(número de matriculados). La informac¡ón que se tiene es la s¡gu¡ente:

Número de desaprobados (X) 4 6 6 5 7 10 I 7

Número de matriculados (Y) _Lb 20 25 26 30 32 33

Resp: i = 8,94 + 2,7f-:(

2) Hallar la ecuación de la recta con las variables: X (número de gastos por inversión)
e Y (utilidades anuales en miles). La información que se t¡ene es la sigu¡ente:

Número de gastos por invers¡ón (X) 2 5 5 B 10


Ut¡lidades anuales en m¡les (Y) 48,5 9s,2 88,3 770,4 1 15,6

Resp: I = 43,33 + a,O4X


5,2.4 Regresión de la parábola

Se conoce a la regresión de la parábola como Regresión Paraból¡ca, la que se define


de la siguiente manera:

Y=a+b(x)+c(X,)+e
A partir de esta defin¡ción; se puede estimar el valor de "Y", no considerando el
error:

?=a+b(x)+c(x':)
En la ecuación, los parámetros son:

a = Or¡gen (Es el valor de ?, cuando X = 0)

b = Pendiente (Es la var¡ación constante posit¡va (hacia arrlba) o negativa (hacia


abajo) de ?, por cada valor que cambie x)

c = Curvatura (es el arco que determina la curva; s¡ es negativo, la curva es convexa,


y s¡ es positivo, la curva es cóncava.

Tales parámetros, se calcularán util¡zando el método por Mín¡mos cuadrados, que se


define basado en la ecuación de la parábola, de la siguiente manera:

:Y = a(n) + bfx + c>x2


EXY = a:X + bEX2 + cEX3
:X2Y=a:X2+ b:X3 + c:X4

20
WALTER CÉSPEDES RAMÍREZ

Para hallar los parámetros respect¡vos (a, b y c)), basados en el método de cálculo
por Mín¡mos Cuadrados, el alumno puede encontrar la solución por el¡m¡nac¡ón de los
parámetros en las ecuac¡ones s¡multaneas.

Ejercicios resueltos

1) Hallar la ecuación de la parábola con las variables: x (número de vendedores) e Y


(valor de ventas realizadas al mes en miles).

La ¡nformac¡ón que se tiene es la sigu¡ente:

Número de vendedores (X) 2 4 5 10 72 15 16


Valor de ventas realizadas al mes en 6,4 o? 76,4 18,6 20,2 25,2
miles (Y)

soluc¡ón:

Con el método por Mín¡mos cuadrados, se primero se calculan las sumator¡as


correspondientes a la ecuac¡ón de la recta, de la sigu¡ente manera:

x XY x3 xrY
2 6,4 12,8 4 B 16 25,6

4 8,5 34,O t6 64 2s6 136,0

5 9,3 46,5 25 725 62s 232,5

10 t6,4 764,O 100 1000 10000 1640,0

72 18,6 223,2 t44 7728 207 36 2678,4

15 20,2 303,0 22s 3375 s062 5 4545,O

16 25,2 403,2 2s6 4096 65536 6457,2

64 LO4t6 rt86,7 770 10396 L47794 L5708,7

con estos datos para hallar los parámetros "a", "b" y "c", por el método por Mín¡mos
Cuadrados, se reemplazan las sumator¡as respectiva en las fórmulas:

:Y =a(n)+b>X+c:X'1 104,6= 7a+ 64b+ 77Oc (7)


:XY =aUX +bEX2+c:X3 L186,7 = 64a+ 77Ob+ 7O396c (2)
:x,Y = aEX2+ bEX3+ c:Xa L 5708,7 = 770a + 10396b+ 147794c (3)

¡2t
ESTADfSTICA II

1o Se elim¡na "a" de las ecuaciones (1) y (2)

104,6 =7a + 64b + 770c (- 64) - 6694,4 = -448a - 4096b -49280c


7786,7 = 64a + 77Ob + 10396c (7) 8306,9 = 448a + 5390b + 72772c
76L2,5 = 1294b + 23492c (4)

20 Se elimina "a" de Ias ecuaciones (1) y (3)

to4,6 =7a + 64b + 770c (- 64) - 6694,4 =:<ea -4096b -49280c


1186,7 = 64a + 770b + 10396c (7) 8306,9 = 448\+ 5390b + 72772c
6t2,5 = 7294b + 23492c (4)
30 Se elimina "b" de las ecuaciones (4) y (5)

7672,5 = L294b + 23492c (-3356) -5411550,0 = -)x<o¿o - 78B3e1s2c


4202,7 = 3356b + 63094c ( 7294) 543A293,8 = 4342664Q + 81643636c
267 43,8 = 28O4484c
c = 26743,8 / 2AO44A4 = O,O095

40 Se reemplaza "c" en la ecuac¡ón (4)

7672,5 = 7294b + 23492 (0,0095) 76t2,5 = 7294b + 223,774


L294b = t612,5 - 223,774 L294b = 1389,326

b = 13a9,326 / L294 = l,O7

50 Se reemplaza en la ecuación (1)

704,6 = 7a + 64(7,O7) + 770(0,0095) 104,6=7a+38,48+7,315


7a = 704,6 - 68,48 - 7,315 = 28,80s
a= 28,805 / 7 = 4,L15

La ecuación de la parábola será: i = 4,tt' + L,OZr + O,OOgSX2

Resolver los sigu¡entes ejercic¡os propuestos sobre Regresión de la parábo-


la:

1) Hallar la ecuación de la parábola con las variables: X (número de desaprobados) e


Y (número de matr¡culados).

La información que se tiene es la sigu¡ente:

Número de desa probados (X) 4 6 6 5 7 10 I 7

¡2t2§
WALTER CÉSPEDES RAMfREZ

Número de matriculados
= - L7 t29 + 1O,7L)( - O,57X2
2) Hallar la ecuación de la parábola con las variables: X (número de gastos por
inversión) e Y (utilidades anuales en miles).

La información que se tiene es la siguiente:

Número de gastos por inversión (X) 2 5 5 8 10


Utilidades anuales en miles (Y) 48,5 95,2 88,3 770,4 115,6

Resp: ? = 9,28 + 22,LSX- 1,16X2

t2r3§
Lecció n 3

5.3 Correlación
Es la relación existente entre las var¡ables que se investigan. Cuando se util¡zan so-
lamente dos var¡ables, la Correlac¡ón de Pearson es denominada SIN4PLE; en cambio,
cuando se util¡zan más de dos var¡ables, la Correlac¡ón es MULTIPLE.

El valor del índ¡ce de correlac¡ón varía en el ¡ntervalo [-1, +1]:

10 Si r = 0, no ex¡ste relac¡ón entre las variables. Pero esto no necesariamente lmpl¡ca


una independencia total entre las dos variables, es decir, que la variac¡ón de una de ellas
puede influir en el valor que Pueda tomar la otra.

2o Si r = 1, existe una correlac¡ón pos¡tiva perfecta. El índ¡ce indica una dependencia


total entre las dos variables denom¡nada relac¡ón directa; cuando una de ellas aumenta,
la otra también lo hace en idént¡ca proporc¡ón. s¡ o < r < 1, existe una correlación
positiva.

30 si r = -1, existe una correlación negativa perfecta. El índice indica una dependenc¡a
total entre las dos variables llamada relac¡ón inversa; cuando una de ellas aumenta, la
otra disminuye en ¡déntica proporción. Si -1 < r < O, existe una correlac¡ón negativa'

;2 r 5i¡
ESTADISTICA II

El signo de la correlación depende del signo de la pendiente "b"; es decir, si la pendiente


es positiva, la correlación es positiva; y si la pendiente es negativa, la correlación es
negativa.

Suponiendo que se esta investigando dos variables mediante la ecuación de la recta,


pero no se esta conforme con los resultados, entonces decide utilizar la función de la
parábola. Para determinar cual de las dos funciones matemática se ajusta mejor a los
datos que se investiga, se calcula el índice de correlación para ambas ecuaciones y el
valor más cercano a 1, determina cual de las dos ecuaciones se ajusta mejor a los datos,

5,3,1 Esquema de una correlación de Pearson

z(-f¡z = :1y-?;z +:(? -1¡z


Donde:

> (Y -l1z : Variación total


:(Y-Q¡z : Variación no explicada
: (? -r;z : Variación explicada

Al correlacionar dos o más variable, se generan dos tipos de coeficientes que son:

5.3.1.1 Coeficiente de determinoción (r2)

12 - Variación Explicada _»tt -V_l'


Variación Total »(Y -Y)')
O también:

¡2 = 1 Variación No Explicada , »q _ ff
Variación Total ,(Y -Y)'1

42t 6,
WALTER CESPEDES RA¡'íREZ

El coeficiente de determ¡nación es un ¡ndicador que nos señala en que proporc¡ón la


var¡ación de la var¡able dependiente (Y), puede expl¡carse por la variación de la variable
¡ndepend¡ente (X).

Por ejemplo: Y= Ventas X = Publicidad 12 = 82,L6o/oi

S¡gnifica que el 82,160/o de las ventas se deben a la publ¡c¡dad

5.3.1 .2 Coeficienh de correloción (r)

i'=-
c^ono,lo ,:{ ¡- f )'
Yorar*n
\ To¡al ! E(Y Y l'
Vqriat ión

Variación No ExDlicada »,lY ii


' -' \ t/ar¡a.ión TotLrl \:rr-rr'
como habrá observado, el coeficiente de correlación es la raíz cuadrada del coeficiente
de determ¡nac¡ón y es un ¡ndicador que nos señala:

10 En que proporc¡ón se asemejan los valores reales que se ¡nvest¡gan con los valores
calculados por la func¡ón matemát¡ca empleando la m¡sma variable ¡ndepend¡ente.

20 cuando se ut¡l¡zan las func¡ones de la recta y de Ia parábola a la vez, nos dice que
func¡ón tiene mejor ajuste a los datos.

Por ejemplo: Y= Ventas X= Publicidad r = 94,640/o''


S¡gnifica que existe una relac¡ón directa del 94,640/o entre las ventas y la publ¡cidad

5.j,2 Correlación srmple

se refiere a la correlac¡ón existente solamente entre dos variables. En esta un¡dad,


únicamente se verá la correlación lineal y la correlación de la parábola tal como se hi-
ciera con la regresión.

5.3.2.1 Correloción lineol simple

Los coefic¡entes de la correlación l¡neal simple con el método por Mínimos cuadrados,
se definen en forma abrev¡ada de Ia siguiente manera:

a) coeficientes de determinación de la recta

12 = aZY +bLYY -ttYz


--r' -;r'
\2171
ESTADíSTICA II

b) Coeficientes de correlación de la recta

r = laZY+bDXY-ni'z
2Y2 -nY2

Ejercicios resueltos

1) Hallar los coeficientes de determinación y de correlación de la recta, con las


variables: X (número de vendedores) e Y (valor de ventas realizadas al mes en miles).

La información que se tiene es Ia siguiente:

Número de vendedores (X) 2 4 5 10 t2 15 16


Valor de venta en miles (Y) 6,4 8,5 9,3 76,4 18,6 20,2 25,2

Solución:

Con el método por Mínimos cuadrados, se primero se calculan las sumatorias


correspondientes a la ecuación de la recta:

x Y XY x2 Y2
2 6,4 12,8 4 4l,o
4 8,5 34,0 16 72,3
5 9,3 46,5 25 86,5
10 76,4 164,0 100 269,0
t2 18,6 223,2 t44 346,0
15 20,2 303,0 225 408,0
16 25,2 403,2 256 635,0
z 64 LO4,6 L186,7 770 L857,8
con las sumatorias se hallan los parámetros "a" y "b" (solución por determinantes).

a = »y2x2 -».xyzx ¿ = lM,6(770)-1186,1(64) _ 4593,2= !,J


nzX2 -»xzx 7(770) - «(e) De4,o

b = ryZXY-ZXZY != 7(1186,7)
- 64(104,6) 1612,5
= !r25
N2X2 _»X»X 7(710)-«(@) 1294,0

§2r8t
WALTER CÉSPEDES RAMíREZ

a) Cálculo del coeficiente de determinación:

12 = aZy +bzXy -ni, - 3,st1o4,6)+1,25(r186,7)-7(104,6/7)2 -291,68 = Or9898


-- >yr-"y-, 1857,8-7(104,6/7)2 294,68

b) Cátculo del coeficiente de correlac¡ón:

r= Jo,r8r8 =0,9949
2) Hallar los coeficientes de determinación y de correlación de la recta, con las varia-
bles: X (número de gastos por inversión) e Y (utilidades anuales en miles)'

La información que se tiene es la siguiente:

Número de gastos por inversión (X) 5 11 4 5 3 2

Utilidades anuales en miles (Y) 31 40 30 34 25 20

Solución:

Con el método por Mínimos cuadrados, se primero se calculan las sumatorias


correspondientes a la ecuación de la recta:
x Y XY x2 Y2

5 31 155 25 961
11 40 440 L2L 1600
4 30 120 16 900
5 34 t70 25 1156
3 25 75 9 625
2 20 40 4 400

30 180 1000 200 5642

Con las sumatorias se hallan los parámetros "a" y "b" (se utilizará la solución por
determinantes).

d-
>Yzxz -L,'{Y>X a = 180(2oo)-looo(30) _ 6000 = 29
nzx2 ->xzx 6(200) - 30(30) 300
6(1000) - 30(180)
:600=
S= nZXY ->XZY b- 2
nzX2 ->x>x 6(200)-30(30) 300

t2l9l
ESTADíSTICA II

a) Cálculo del coeficiente de determinación

12
_aZY +bZXy -nVz _20(180)+2(1000)-6(ts0/6), _ 200 _ o,Ez64
zY2-ny2 @=%2
b) Cálculo del coeficiente de correlación

r= "16,1264 =or9o9l
Resolver los siguientes ejercicios propuestos sobre correlación lineal simple:

1) Hallar los coeficientes de determinación y de correlación de la recta, con las


variables: X (número de desaprobados) e y (número de matriculados).

La información que se tiene es la siguiente:

Número de desaprobados (X) 4 6 6 5 7 10 8 7


Número de matriculados (y) 16 20 25 26 30 32 33 33

Resp: r2 = 0,5849, r = 0,7648


2) Hallar los coeficientes de determinación y de correlación de la recta, con las varia-
bles: X (número de gastos por inversión) e y (utilidades anuales en miles).

La información que se tiene es la siguiente:

Número de gastos por inversión (X) 2 5 5 B 10


Utilidades anuales en miles (y) 48,5 95,2 88,3 710,4 115,6

Resp: 12=0,8695, r= 0,9325

5.3.2.2 Correloción de lo poróbolo

Los coeficientes de la correlación de la parábola con el método por Mínimos Cuadra-


dos, se definen en forma abreviada de la siguiente manera:

a) Coeficientes de determinación de la parábola

12 = a>Y + b»XY + c-X2Y - ny2


ZY2 - nV2
b) Coeficientes de correlación de la parábota

f= aZY+b»XY+cX2y-nV'

§220§
WALTER CÉSPEDES RAMfREZ

Ejercicio resuelto

Hallar la ecuación de la parábola con las variables: X (número de vendedores) e Y


(valor de ventas realizadas al mes en miles).

Número de vendedores (X) 2 4 5 10 72 15 16


Valor de ventas en miles (Y) 6,4 815 9,3 76,4 18,6 20,2 25,2

Solución:

Con el método por Mínimos cuadrados, se primero se calculan las sumatorias


correspondientes a la ecuación de la recta:

x Y XY x2 x3 x4 x2Y Y2

2 6,4 12,8 4 8 16 25,6 4l,o


4 8,5 34,0 16 64 256 136,0 72,3
5 9,3 46,5 25 1.25 625 232,5 86,5
10 16,4 t64,0 100 1000 10000 1640,0 269,0
L2 18,6 223,2 744 t728 20736 2678,4 346,0
15 20,2 303,0 225 3375 50625 4545,0 408,0
16 25,2 403,2 256 4096 65536 645L,2 635,0
64 LO4,6 LL86,7 770 10396 L47794 L5708,7 1857,8

Los parámetros "a", "b" y "c'1 fueron hallados en el ejercicio 1 del ítem 5.2.4
correspondiente a la regresión de la parábola y estos son: a = 4,175i b = 7,O7 y
c = 0,0095.

a) Coeficientes de determinación (r'?):

12=a»Y+|ZXY+cX2Y-nY2
ZY2 - nY'

+ t,o7(1186,7) + o,oo95(t57o8) - 7(1o4,6 / 7)2 =


,z =4,115(104,6) ??94.1= O,971¡9
1857,8 - 7(104,6 / 7)2 294,68

b) Cálculo del coeficiente de correlación:

r= Jo,ril, =or9858

t27ta
ESTADÍSTICA I]

Resolver los siguientes ejerc¡cios propuestos sobre correlac¡ón de la pará-


bola:

1) Hallar los coeficientes de determinación y de correlación de la parábola, con las


variables: X (número de desaprobados) e Y (número de matr¡culados).

Número de desa probados (X) 4 6 6 7 10 8 7


Número de matriculados (Y) 16 20 25 26 30 33 33

Resp: 12 =0,7462, r = 0,8638


2) Hallar los coeficientes de determ¡nación y de correlación de la parábola, con las
variables: X (número de gastos por invers¡ón) e Y (utilidades anuales en miles).

Número de gastos por ¡nversión (X) 2 5 5 B 10


Utilidades anuales en m¡les (Y) 48,5 88,3 770,4 1 15,6

Resp: r, =O,99O4, r = 0,9952

5.3.3 Correlación de Spearman (p)

Este modelo de correlación asoc¡a dos var¡ables, es un modelo No paramétr¡co que no


trabaja con la informac¡ón directa, sino que la trasforma en orden crec¡ente a partir del 1

En estadística, el coeficiente de correlac¡ón de Spearman, p (rho), es una medida


de la correlac¡ón (la asoc¡ac¡ón o interdependenc¡a) entre dos variables aleator¡as con-
tinuas. La ¡nterpretación de coeficiente de Spearman es igual que la del coefic¡ente de
correlac¡ón de Pearson. Osc¡la entre -1 y +1, ¡ndicándonos asociac¡ones negat¡vas o
positivas respectivamente. 0 (cero), s¡gn¡fica que no hay correlación pero no necesar¡a-
mente que no hay ¡ndependencia.

Para calcular p, los datos son ordenados y reemplazados por su respect¡vo orden. El
estadíst¡co p viene dado por la expresión:

6»d1
[__--.
n (n' -1)
Donde:

d: es la d¡ferenc¡a de comparar el ordenen que quedaron ambas variables


n: es el número de parejas entre las dos var¡ables.

En caso de ex¡stencia de datos ¡guales, se les da el orden que les corresponde ig-
norando que son iguales; es decir, como si fueran datos d¡ferentes. luego se saca el
promed¡o del orden asignado a todos los datos iguales y se les reasigna este promedio
a todos ellos.

,222a
WALTER CÉSPEDES RAM ÍREZ

Ejerc¡cio resuelto

Se tiene el Coeficiente de Inteligencia (C.I.) de 10 niños y el número de horas que


ven televisión a la semana (Tv.), mediante la correlación de Spearman, determine s¡ hay
influenc¡a de la telev¡sión en la intel¡genc¡a de los niños:

Coeficiente de 106 86 100 100 99 103 97 113 113 110


Inteligencia
Número de horas 7 0 28 50 28 28 20 72 7 17
de Tv.

Solución:

10 Se ordenan los datos de la primera columna generalmente en forma creciente.

20 Se crean dos columnas más donde se camb¡a el valor respectivo por el número
de orden que les tocó.

30 F¡nalmente se d¡ferencia el orden de ambas columnas dando lugar a "d", la misma


que es elevada al cuadrado. Nótese que al C.I. = 100 le toca el orden 4 y también el 5;
como este dato está repetido, se le reas¡gna el promedio de ambos (4 + 5) / 2 = 4,5.

c.r. Tv. orden C.I Orden Tv. d


B6 0 1 1 0 0

97 20 2 6 4 16
99 28 3 B 5 25
100 28 4,5 B 72,25
100 50 l\ 10 qq 30,25
103 6 B 2 4
1Ut) 7 7 2,5 4,5 20,25
110 t7 B 5 3 9
113 7 oq 2,5 1 49
113 72 4 5,5 30,2 5
t 196,OO

ut!' 6 (196)
"' = l- n \n' -1) - l- l0 (100 - l)
= L-r,t87e = -0,1879

,223&
TSTADíSTICA II

Interpretación de los resultados:

Existe una correlación no significativa inversa (-78,79o/o) entre el coeficiente de


inteligencia de los niños y las horas que le dedican a la televisión; es decir que más
horas de televisión puede afectar la Inteliqencia de los niños.

Resolver los siguientes ejercicios propuestos sobre Correlación de Spear-


man:

1) Hallar el coeficiente de de Spearman comparando las edades con evaluación:

Edades 25 16 30 33 45 1B
Evaluación 45 82 56 62 80 65

Resp: - 0,2

2) Hallar el coeficiente de de Spearman comparando el número de vendedores con el


volumen de ventas, que se da a continuación:

Número de vendedores 5 6 3 3 4 1B 10
Volumen de ventas (miles) 45 B2 16 26 20 650 240

Resp: 0,9375.
3) Hallar el coeficiente de de Spearman comparando las tallas con pesos:

Tallas (cm) 725 145 198 180 774 t52 166 L82 180 773 162 777
Peso (kg) 38 52 77 89 B8 45 58 74 70 B6 70 70

Resp: 0,7850

&224§

También podría gustarte