Documentos de Académico
Documentos de Profesional
Documentos de Cultura
E3 Regresión
E3 Regresión
¡ t99¡
ESTADíSTICA II
r10
f00 o
§
f!
s G§
oü
^ae
vañ o
80 ooB-
Hmo
- oBoo
m "olo ' Bo o
orü a_ §
oo o§ o^
o"
60 o rÉ --o
'ok og
¡sofl^É
a pu§.--H"
o E oEElg '"o
f0 o
ot" -f¡
§o
§
o
d,
r¡J
ü.. 30l
1¡10 ?m
E§T
Como se observa en el gráfico ambas variables presentan una relación lineal positiva;
es decir, a medida que aumenta el valor de la variable Est aumenta también el valor de
la variable Peso.
30
o
-o 25
tÉ. 20
t¡l
tt,
aa
a
u15 -a
o o
810 aa
-a
l=¡J 5
t
a
tr
0
§200r
wALTER cÉspEoes RR¡,1 íRrz
Se aprecia que la nube de puntos resultante tiene una forma alargada, con una
relación positiva en donde es posible ajustar o representar por una línea recta.
Cu¡¡dn xcrtrÉ,
ytrÉffi
120 ll
Lección 7
§.2 Regresiún
Las técnicas de regresión es un proceso que permite hacer predicciones sobre los
valores de cierta variable Y (dependiente), a partir de los de otra X (independiente),
entre las que se intuye que existe una relación.
Para ilustrar mejor al lector por ejemplo si se compara la estatura media en centímetros
en el eje X y la estatura media en metros en el eje Y al obseruar a un grupo de personas, no
es necesario hacer grandes esfuezos para saber que la relación que hay entre ambas es:
Y=X/100
En cambio esta relación sencilla puede ser más compleja, si por ejemplo se comparan
estas mismas personas colocando en el eje X a la estatura media en centímetros y en
el eje Y el peso en kilogramos. Esta relación requiere de un análisis y solo después del
mismo se puede concluir:
Y=X-110+error
La razón es que no es cierto que conocida la altura de un individuo, no puede deter-
minar su peso exacto, si dos personas que miden 170 cm pueden tener pesos de 60 y
65 kilos. Sin embargo, alguna relación entre ellas debe existir, pues parece mucho más
§203 §
E 5TA D íST ICA II
probable que un ¡nd¡v¡duo de 200 cm pese más que otro que m¡da 120 cm. Es más, de
acuerdo a lo mencionado, la conclusión Y = X - 110 + error, parece acertada.
A la relación entre dos o más variable a partir de una serie de datos, se le denom¡na
Regresión.
i=r1*.¡, Y-i=e¡ror
La Relación Funcional puede tamb¡én ser a la inversa, es dec¡r que X están en función
de Y; pero este tipo de relación no se verá en este I4anual Auto Instruct¡vo.
Sign¡fica buscar o definir la función que exprese con mayor precisión la relación entre
var¡ables. Gráficamente será aquella func¡ón que mejor se adecué a la nube de puntos. En
este sentido, es recomendable como primer paso construir el "diagrama o nube de puntos",
luego analizar su forma y dec¡dir el tipo de función matemática para la línea de regres¡ón.
Establece que la mejor recta o curva posible es aquella que m¡nimiza la suma de los
cuadrados de las desviaciones entre los puntos dados Y¡ y los correspond¡entes a d¡cha
curva i.
Y=a+b(x)+e
A partir de esta deñnic¡ón; se puede estimar el valor de "Y", no considerando ei
error:
Y=a+b(x)
2C5
ESTADíSTICA II
EY = a(n) + bEx
:XY=aEX+ b:x'z
Para hallar los parámetros respectivos (a y b), basados en el método de cálculo por
Mín¡mos Cuadrados, el alumno puede util¡zar cualquiera de las s¡gu¡entes soluc¡ones:
Para este caso util¡zan las ecuaciones simultaneas, en donde con un valor artificial
negat¡vo se ¡guala el coeficiente de una de las ¡ncógn¡tas de la ecuación para el¡minarlo.
Operación que se rep¡te hasta quedarse con una incógn¡ta, que es fác¡l de despejar en
una ecuación.
a
,r2x2 ->-wz-x b -2 2Y
= n»XY2
n»x2 ->*2x n»x - »xLY
q2061
WALTER CÉSPEDES RAMf REZ
Ejercic¡os resueltos
soluc¡ón:
con estos datos para hallar los parámetros "a" y "b", el alumno puede escoqer
cualquiera de las soluciones planteadas por el método por Mínimos cuadrados:
( =
104,6 7a + 64b) - 64 - 6694,4 = \¿Su - 4096b (3)
\
(7786,7 = 64a + 770b) 7 8306,9 = 448x+ s390b (4)
t672,5 = 1294b
t207 E
ESTADÍSTICA II
Aquí se reemplazan las sumatorias en las fórmulas s¡guientes halladas formando ma-
tr¡ces con las ecuaciones por mínimos cuadrados y resueltas por determ¡nantes:
V = zx / n = 64 / 7 = 9,t4 y =zy/n=104,6/7=74,94
b=[(:XY- n i v)l(>x,- nX¿))
b=[(1186,7-(7x9,L4xt4,94)) / (770 - (7 x9,!42))]
2) Hallar la ecuación de la recta con las var¡ables: X (número de gastos por inversión)
e Y (util¡dades anuales en m¡les).
Solución:
x Y XY x2
5 31 155 25
11 40 440 727
4 30 t20 16
5 34 770 25
3 25 75 9
2 20 40 4
_Z .
!= uZXY ->X>Y b= 6(1000) - 30(180) 600-
nZ-X'->x>-X 6(200) -30(30) 300
1209a
E STAD íSIICA II
2) Hallar la ecuación de la recta con las variables: X (número de gastos por inversión)
e Y (utilidades anuales en miles). La información que se t¡ene es la sigu¡ente:
Y=a+b(x)+c(X,)+e
A partir de esta defin¡ción; se puede estimar el valor de "Y", no considerando el
error:
?=a+b(x)+c(x':)
En la ecuación, los parámetros son:
20
WALTER CÉSPEDES RAMÍREZ
Para hallar los parámetros respect¡vos (a, b y c)), basados en el método de cálculo
por Mín¡mos Cuadrados, el alumno puede encontrar la solución por el¡m¡nac¡ón de los
parámetros en las ecuac¡ones s¡multaneas.
Ejercicios resueltos
soluc¡ón:
x XY x3 xrY
2 6,4 12,8 4 B 16 25,6
con estos datos para hallar los parámetros "a", "b" y "c", por el método por Mín¡mos
Cuadrados, se reemplazan las sumator¡as respectiva en las fórmulas:
¡2t
ESTADfSTICA II
¡2t2§
WALTER CÉSPEDES RAMfREZ
Número de matriculados
= - L7 t29 + 1O,7L)( - O,57X2
2) Hallar la ecuación de la parábola con las variables: X (número de gastos por
inversión) e Y (utilidades anuales en miles).
t2r3§
Lecció n 3
5.3 Correlación
Es la relación existente entre las var¡ables que se investigan. Cuando se util¡zan so-
lamente dos var¡ables, la Correlac¡ón de Pearson es denominada SIN4PLE; en cambio,
cuando se util¡zan más de dos var¡ables, la Correlac¡ón es MULTIPLE.
30 si r = -1, existe una correlación negativa perfecta. El índice indica una dependenc¡a
total entre las dos variables llamada relac¡ón inversa; cuando una de ellas aumenta, la
otra disminuye en ¡déntica proporción. Si -1 < r < O, existe una correlac¡ón negativa'
;2 r 5i¡
ESTADISTICA II
Al correlacionar dos o más variable, se generan dos tipos de coeficientes que son:
¡2 = 1 Variación No Explicada , »q _ ff
Variación Total ,(Y -Y)'1
42t 6,
WALTER CESPEDES RA¡'íREZ
i'=-
c^ono,lo ,:{ ¡- f )'
Yorar*n
\ To¡al ! E(Y Y l'
Vqriat ión
10 En que proporc¡ón se asemejan los valores reales que se ¡nvest¡gan con los valores
calculados por la func¡ón matemát¡ca empleando la m¡sma variable ¡ndepend¡ente.
20 cuando se ut¡l¡zan las func¡ones de la recta y de Ia parábola a la vez, nos dice que
func¡ón tiene mejor ajuste a los datos.
Los coefic¡entes de la correlación l¡neal simple con el método por Mínimos cuadrados,
se definen en forma abrev¡ada de Ia siguiente manera:
r = laZY+bDXY-ni'z
2Y2 -nY2
Ejercicios resueltos
Solución:
x Y XY x2 Y2
2 6,4 12,8 4 4l,o
4 8,5 34,0 16 72,3
5 9,3 46,5 25 86,5
10 76,4 164,0 100 269,0
t2 18,6 223,2 t44 346,0
15 20,2 303,0 225 408,0
16 25,2 403,2 256 635,0
z 64 LO4,6 L186,7 770 L857,8
con las sumatorias se hallan los parámetros "a" y "b" (solución por determinantes).
b = ryZXY-ZXZY != 7(1186,7)
- 64(104,6) 1612,5
= !r25
N2X2 _»X»X 7(710)-«(@) 1294,0
§2r8t
WALTER CÉSPEDES RAMíREZ
r= Jo,r8r8 =0,9949
2) Hallar los coeficientes de determinación y de correlación de la recta, con las varia-
bles: X (número de gastos por inversión) e Y (utilidades anuales en miles)'
Solución:
5 31 155 25 961
11 40 440 L2L 1600
4 30 120 16 900
5 34 t70 25 1156
3 25 75 9 625
2 20 40 4 400
Con las sumatorias se hallan los parámetros "a" y "b" (se utilizará la solución por
determinantes).
d-
>Yzxz -L,'{Y>X a = 180(2oo)-looo(30) _ 6000 = 29
nzx2 ->xzx 6(200) - 30(30) 300
6(1000) - 30(180)
:600=
S= nZXY ->XZY b- 2
nzX2 ->x>x 6(200)-30(30) 300
t2l9l
ESTADíSTICA II
12
_aZY +bZXy -nVz _20(180)+2(1000)-6(ts0/6), _ 200 _ o,Ez64
zY2-ny2 @=%2
b) Cálculo del coeficiente de correlación
r= "16,1264 =or9o9l
Resolver los siguientes ejercicios propuestos sobre correlación lineal simple:
f= aZY+b»XY+cX2y-nV'
§220§
WALTER CÉSPEDES RAMfREZ
Ejercicio resuelto
Solución:
x Y XY x2 x3 x4 x2Y Y2
Los parámetros "a", "b" y "c'1 fueron hallados en el ejercicio 1 del ítem 5.2.4
correspondiente a la regresión de la parábola y estos son: a = 4,175i b = 7,O7 y
c = 0,0095.
12=a»Y+|ZXY+cX2Y-nY2
ZY2 - nY'
r= Jo,ril, =or9858
t27ta
ESTADÍSTICA I]
Para calcular p, los datos son ordenados y reemplazados por su respect¡vo orden. El
estadíst¡co p viene dado por la expresión:
6»d1
[__--.
n (n' -1)
Donde:
En caso de ex¡stencia de datos ¡guales, se les da el orden que les corresponde ig-
norando que son iguales; es decir, como si fueran datos d¡ferentes. luego se saca el
promed¡o del orden asignado a todos los datos iguales y se les reasigna este promedio
a todos ellos.
,222a
WALTER CÉSPEDES RAM ÍREZ
Ejerc¡cio resuelto
Solución:
20 Se crean dos columnas más donde se camb¡a el valor respectivo por el número
de orden que les tocó.
97 20 2 6 4 16
99 28 3 B 5 25
100 28 4,5 B 72,25
100 50 l\ 10 qq 30,25
103 6 B 2 4
1Ut) 7 7 2,5 4,5 20,25
110 t7 B 5 3 9
113 7 oq 2,5 1 49
113 72 4 5,5 30,2 5
t 196,OO
ut!' 6 (196)
"' = l- n \n' -1) - l- l0 (100 - l)
= L-r,t87e = -0,1879
,223&
TSTADíSTICA II
Edades 25 16 30 33 45 1B
Evaluación 45 82 56 62 80 65
Resp: - 0,2
Número de vendedores 5 6 3 3 4 1B 10
Volumen de ventas (miles) 45 B2 16 26 20 650 240
Resp: 0,9375.
3) Hallar el coeficiente de de Spearman comparando las tallas con pesos:
Tallas (cm) 725 145 198 180 774 t52 166 L82 180 773 162 777
Peso (kg) 38 52 77 89 B8 45 58 74 70 B6 70 70
Resp: 0,7850
&224§