Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes Regresion Sin Ejerc-2
Apuntes Regresion Sin Ejerc-2
o lo que es lo mismo
Ejemplo
Se han clasificado 100 familias segn el nmero de hijos varones ( ) o hembras (
siguiente:
), en la tabla
0 1 2 3 4
0
4 6 9 4 1
5 10 7 4 2
7 8 5 3 1
5 5 3 2 1
2 3 2 1 0
1.
Hallar las medias, varianzas y desviaciones tpicas relativas a los hijos varones y hembra por
separado.
2.
Qu nmero medio de hijas hay en aquellas familias que tienen 2 hijos?
3.
Qu nmero medio de hijos varones hay en aquellas familias que no tienen hijas?
4
Hallar la covarianza
Solucin:En primer lugar, definimos las variables X= nmero de hijos varones, e Y=nmero de
hijas y construimos la tabla de doble entrada con sus totales y otras cantidades que nos son tiles en
el clculo de medias y varianzas:
y1 y2
y3
y4
y5
24
5 10
28
28
28
44
24
48
96
62
16
48
144
63
32
128
40
23 32 26
14
5 100
156
396
209
0 32 52
42 20 146
El nmero medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribucin
condicionada de
n3j n3j yj
7
10
24
31
Del mismo modo, el nmero medio de hijos varones de las familias sin hijas, se calcula con la
distribucin condicionada
ni1 ni1 xi
4
14
15
23
42
La covarianza es:
Queda as dividida la nube de puntos en cuatro cuadrantes como se observa en la figura 3.3. Los
puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de
, y los que se encuentran en el segundo y el cuarto lo hacen negativamente.
De este modo:
Si hay mayora de puntos en el tercer y primer cuadrante, ocurrir que
, lo que se
LA COVARIANZA
Si
Si
lineal).
De este modo podemos utilizar la covarianza para medir la variacin conjunta (covariacin) de las
variables X e Y. Esta medida no debe ser utilizada de modo exclusivo para medir la relacin entre
las dos variables, ya que es sensible al cambio de unidad de medida, como se observa en el
siguiente resultado:
As pues, es necesario definir una medida de la relacin entre dos variables, y que no est afectada
por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la
covarianza por el producto de las desviaciones tpicas de cada variable, ya que as se obtiene un
coeficiente adimensional, r, que se denomina coeficiente de correlacin lineal de Pearson
Bondad de un ajuste
Consideremos un conjunto de observaciones sobre n individuos de una poblacin, en los que se
miden ciertas variables X e Y:
Estamos interesamos en hacer regresin para determinar, de modo aproximado, los valores de Y
conocidos los de X, debemos definir cierta variable
, que debe tomar los valores
de modo que:
Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los autnticos
valores de Y y los tericos suministrados por la regresin,
y calculando
de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una
variable cuya media debe ser 0 , y cuya varianza
debe ser pequea (en comparacin con la de
, como
Regresin
Las tcnicas de regresin permiten hacer predicciones sobre los valores de cierta variable Y
(dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una
relacin. Para ilustrarlo usaremos el caso de un grupo de personas en el que observamos los valores
que toman las variables
no es necesario hacer grandes esfuerzos para intuir que la relacin que hay entre ambas es:
Obtener esta relacin es menos evidente cuando lo que medimos sobre el mismo grupo de personas
es
La razn es que no es cierto que conocida la altura xi de un individuo, podamos determinar de modo
exacto su peso yi (v.g. dos personas que miden 1,70 m pueden tener pesos de 60 y 65 kilos). Sin
embargo, alguna relacin entre ellas debe existir, pues parece mucho ms probable que un individuo
de 2 m pese ms que otro que mida 1,20 m. Es ms, nos puede parecer ms o menos aproximada
una relacin entre ambas variables como la siguiente
A la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que
denominamos regresin.
Figura: Mediante las tcnicas de regresin de una variable Y sobre una variable X, buscamos una funcin que sea una
buena aproximacin de una nube de puntos (xi,yi), mediante una curva del tipo
asegurarnos de que la diferencia entre los valores yi e
El trmino que hemos denominado error debe ser tan pequeo como sea posible . El objetivo ser
buscar la funcin (tambin denominada modelo de regresin)
que lo minimice.
Figura: Diferentes nubes de puntos y modelos de regresin para ellas.
Regresin lineal
La forma de la funcin f en principio podra ser arbitraria, y tal vez se tenga que la relacin ms
exacta entre las variables peso y altura definidas anteriormente sea algo de la forma
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos
vamos a limitar al caso de la regresin lineal. Con este tipo de regresiones nos conformamos con
encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se
pueda escribir
e Y.
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar
son de forma esquemtica, las que siguen:
1.
Dadas dos variables X, Y, sobre las que definimos
2.
Una aproximacin
3.
Posteriormente encontraremos frmulas para el clculo directo de a y b que sirvan para
cualquier problema.
Regresin de Y sobre X
Para calcular la recta de regresin de Y sobre X nos basamos en la figura
Figura: Los errores a minimizar son las cantidades
Una vez que tenemos definido el error de aproximacin mediante la relacin las cantidades que lo
minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los
mnimos cuadrados):
Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X e Y. Los
resultados se muestran resumidos en los siguientes estadsticos:
Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando este
modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solucin: Lo que se busca es la recta,
el criterio de los mnimos cuadrados) en la nube de puntos que resulta de representar en un plano
(X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:
3.12.4.6 Proposicin
En los ajustes lineales se conservan las medias, es decir
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las
variables X e Y y sus aproximaciones
y , pues slo se mantienen en un factor de r2, es decir,
Como consecuencia de este resultado, podemos decir que la proporcin de varianza explicada por
la regresin lineal es del
.Nos gustara tener que r=1, pues en ese caso ambas variables
tendran la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como
sabemos, es que
y por tanto
Por ello
Por ello:
Si
X y viceversa).
Si
las variables X e Y no estn relacionadas (linealmente al menos), por tanto no
tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no
posean ninguna relacin en el caso r=0, ya que si bien el ajuste lineal puede no ser
procedente, tal vez otro tipo de ajuste s lo sea.
Calcule:
1.
La recta de regresin de Y sobre X. Explique el significado de los parmetros.
2.
El coeficiente de determinacin. Comente el resultado e indique el tanto por ciento de la
variacin de Y que no est explicada por el modelo lineal de regresin.
3.
Si el modelo es adecuado, cul es la prediccin
para x=4.
Solucin:
1.
En primer lugar calculamos las medias y las covarianza entre ambas variables:
Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a
medida que X aumenta, la tendencia es a la disminucin de Y. En cuanto al valor de la
ordenada en el origen, a, tenemos:
2.El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinacin:
de la variabilidad de Y en funcin de la
de variabilidad no explicada.
3.
La prediccin que realiza el modelo lineal de regresin para x=4 es:
la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado
anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo.
Ejemplo
En un grupo de 8 pacientes se miden las cantidades antropomtricas peso y edad, obtenindose los
siguientes resultados:
Resultado de las mediciones
edad 12
8 10 11
7 10 14
peso 58 42 51 54 40 39 49 56
Existe una relacin lineal importante entre ambas variables? Calcular la recta de regresin del peso
en funcin de la edad . Calcular la bondad del ajuste En qu medida, por trmino medio, vara el
peso cada ao? En cunto aumenta la edad por cada kilo de peso?
Solucin:
Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de correlacin
lineal, que vale:
ya que
explicada mediante la recta de regresin correspondiente. . Del mismo modo puede decirse que hay
un
de varianza que no es explicada por las rectas de regresin. Por tanto
la varianza residual de la regresin del peso en funcin de la edad es
Por ltimo la cantidad en que vara el peso de un paciente cada ao es, segn la recta de regresin
del peso en funcin de la edad, la pendiente de esta recta, es decir, b1=2,8367 Kg/ao. Cuando dos
personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad
b2=0,3136 aos/Kg de diferencia.