Está en la página 1de 213

Master Intervencin

Psicosocial

Anlisis de la regresin

Modelos de anlisis
estadstico

I. Conceptos bsicos.
II. Regresin mltiple

Parte I. Conceptos bsicos

Anlisis estadstico
En un sentido amplio, se refiere a todos
los mtodos que describen las relaciones
que se dan entre diversas variables o
dimensiones de variacin.

Modelos de anlisis estadstico y


diseo de estudio

Conceptos bsicos
Datos: observaciones realizadas de los
individuos o grupos de individuos
Escalas de medida: no mtricas (nominales y
ordinales) y mtricas (intervalos y de razn)
Diseos: estrategias de recogida de datos
Estrategia del diseo: transversal o longitudinal
Modelos de anlisis: sistemas o ecuaciones que
permiten inferir el tipo de relacin entre los
datos
Clases de relaciones: asociativas y causales

A propsito de los datos (1)

Elaboracin de datos

Observacin
directa

Escala
de medida

Dato cientfico
o valor

numrico

La conversin de una observacin directa en


un dato cientfico se realiza mediante la
aplicacin de una adecuada escala de medida.

Reunin de datos
Sistemas de reunin de datos
a) Tablas

b) Grficos

Tablas

Las tablas se usan en los informes


cientficos para resumir los datos u otra
informacin que no puede ser presentada
de forma conveniente en la narrativa del
texto.

Acerca de las tablas


Las tablas deben tener un ttulo que informe
claramente sobre su contenido como por
ejemplo preferencias del partido poltico. Las
tablas estadsticas deberan informar tambin
sobre el nmero de observaciones que se
incluyen (frecuencia). La parte superior de la
columna del lado izquierdo de la tabla es
referida como ttulo de filas e informa sobre el
contenido de las fila. El cuerpo de la tabla
contiene los datos de inters. En el ejemplo
propuesto se muestra el nmero de individuos
que prefieren un partido poltico.
..//..

Las tablas que se refieren a una sola variable


son
conocidas
por
representaciones
univariadas y las que informan sobre dos
variables, representaciones bivariadas. En la
representaciones bivariadas una variables
est asociada a las filas y la otra a las
columnas y se conocen, tambin, por tablas
de contingencia. Ejemplo de tabla bivariada
que relaciona preferencia de un partido
poltico y afiliacin religiosa (en parntesis
estn los porcentajes).

Ejemplos (tablas)

Ejemplos (tablas)

Grficos

Con los grficos se consigue una


representacin visual de los datos, por lo
que es un procedimiento til a la
investigacin. Los grficos captan mejor la
atencin del lector, permite clarificar los
resultados y facilitar su interpretacin

Histograma de frecuencias o grfico de


barras
El histograma de frecuencias es un grfico que
muestra la distribucin de frecuencias de una
variable de intervalo. El eje horizontal del
histograma o grfico de barras presenta los
intervalos y el eje vertical la cantidad de
puntuaciones de cada intervalo (frecuencia). La
altura de la barra indica la frecuencia de casos de
cada categora. El grfico siguiente muestra la
cantidad de amigos reportados por estudiantes
de un College americano.
..//..

Cantidad de amigos reportados por


estudiantes de un College

En el segundo ejemplo, se muestra un grfico


de barras sobre el efecto de dos drogas
antiansiolticas. Se trata de una escala
nominal y la diferencia entre el primer y
segundo panel estriba en la forma de
representar las unidades en el eje vertical
(unidades pequeas en el primer panel y
punto cero y unidades grandes en el
segundo). Ntese que la gran diferencia entre
las dos drogas que se observa en el primer
panel y que desaparece en la segunda
representacin.

Efectos de dos psicofrmacos sobre la


ansiedad

Polgono de frecuencias
Es una forma alternativa de representa el
histograma de frecuencias. As, en lugar de
barras se utilizan lneas que conectan las
frecuencias de los intervalos de clase. En el
ejemplo siguiente se muestra la misma
informacin sobre la cantidad de amigos,
pero utilizando el sistema de lneas y no de
barras. De igual modo, se tiene el grfico de
la cantidad de divorcios al aprobarse
correspondiente ley en el Estado de
Nebraska.

Cantidad de amigos reportados por


estudiantes de un College

Cantidad de divorcios antes y despus de


su promulgacin en el Estado de Nebraska

Escalas de medida y datos (2)

Cuantificacin de las variables


Las variables se cuantifican al asignar
valores numricos a los atributos o
caractersticas de los individuos, objetos y
hechos de acuerdo a reglas.
El proceso de asignacin de los nmeros
de acuerdo a reglas se denomina medida.

Escalas de medida
Las reglas particulares de asignacin de nmeros a
las variables se definen como escalas de medida.
Clasificacin:
Nominal
Ordinal
dbiles
Escalas
De intervalo
De razn

fuertes

Escalas de medida
Nominal

1 = varn

2 = hembra

Ordinal
1

De intervalo
15

16 17

18

19

20 21 22

23

De razn
0

Ejemplos de escalas
Nominal
los valores slo representan categoras
o nombres (gnero, raza, religin, etc.)
Ordinal
los valores representan el orden en
funcin del grado como actitud, preferencia, etc.
De intervalo
la distancia entre los valores se
mantiene
constante
como
la
temperatura,
respuestas correctas, etc.
De razn
cuando adems de la constancia del
intervalo hay un valor cero que coincide con la
ausencia del atributo.

Escalas y naturaleza de los


datos
Escala
Nominal
Ordinal
De intervalo
De razn

Tipo

Dato

Cualitativa
No-paramtrico
Cuantitativa
No-paramtrico
Cuantitativa discreta Paramtrico
Cuantitativa continua Paramtrico

Naturaleza de los datos y prueba


estadstica
Datos de escala

Prueba estadstica

Nominal
Ordinal

Prueba
no paramtrica

De intervalo
De razn

Prueba no paramtrica y
paramtrica

Variable dependiente

Datos mtricos o gaussianos

Datos no mtricos o no gaussianos

En torno a los diseos (3)

Concepto de diseo
El diseo es una estrategia particular de
recogida de datos y es funcin de los
objetivos o hiptesis propuestos.
Los diseos son transversales y
longitudinales, segn la no presencia o
presencia de la dimensin temporal en el
estudio.

A modo de resumen
Cul es la relacin entre diseo (estudio)
matriz de datos y modelo de anlisis?
Cul es la estructura de cualquier
investigacin cientfica?

Estructura de la investigacin
en ciencias sociales
Diseo

Datos

Modelo anlisis

Problema

Estadstico

Hiptesis

Estimacin

Variables

Inferencia
Modelo de escala

A modo de resumen
Se ha visto la secuencia entre las tres
fases o momentos de una investigacin:
diseo, datos y anlisis.
Es importante conocer la estructura del
diseo,
as
como
los
distintos
procedimientos o tipos de investigacin

Estructura del diseo (4)

Tipologa del diseo de


investigacin
Diseos observacionales
Diseos correlaciones o predictivos
(estudios de encuesta)
Diseos cuasi-experimentales
Diseos experimentales

Naturaleza de los datos (variable


dependiente)
Datos mtricos o cuantitativos
distribucin gaussiana o normal)

(de

Datos no mtricos o categricos (de


distribucin no-gaussiana)

Estrategia del diseo y modelo


de anlisis
Diseos experimentales y cuasiexperimentales

Diseo
Datos cuantitativos

Estrategia

ANOVA

Transversal

AR

Grupos
paralelos

Medidas
repetidas

Factorial

Cross-over

Datos cualitativos

Longitudinal

MANOVA
Medidas
repetidas

Antes-despus
Cohortes

Factorial
mixto

Split-plot

TC

Modelo log-lineal

Regresin
logstica

Diseos no experimentales
En
el
contexto
no
experimental
(experimento
verdadero
y
cuasiexperimentales) los diseos suelen ser
observacionales
y
correlacionales.
Los diseos correlacionales se basan en
el anlisis de mltiples variables con el
propsito de estimar la magnitud de
cambio entre ellas.

Sigue
El objetivo es poder predecir la variable
dependiente a partir de la o las variables
predictoras o independientes. Tambin se
pretende explicar la proporcin de
variacin de la variable dependiente por la
o las variables independientes.

Modelos de anlisis
estadsticos (5)

Cuestin!
Una vez recogidos los datos, qu hacer
con ellos?
A esta cuestin cabe responder lo
siguiente: los datos se analizan de acuerdo
con modelos estadsticos adecuados a fin
de derivar consecuencias tericamente
interpretables; es decir, se obtienen
resultados que han de ser interpretados.

El modelo lineal general

Modelo estadstico general

Y = f(X) + g(E)

V.Dep.

Parte fija

Parte aleatoria

Concepto
El modelo estadstico, o ecuacin de
carcter lineal, asume que una observacin
Y es el resultado de la combinacin aditiva
de alguna funcin f de variables fijas y de
alguna funcin g de componentes
aleatorios, y que tanto f como g pueden
tomar
parmetros
conocidos
o
desconocidos.
..//..

continuacin
Considerada esta ecuacin como un
modelo estadstico general, se tiene que
cualquier observacin es la suma de dos
partes o componentes: una parte fija o
determinista, f(X), y una parte aleatoria
desconocida, g(E).

Clases de relaciones entre


variables o hiptesis (6)

Clases de hiptesis
Asociativa
Hiptesis
Causal

Hiptesis asociativa

Los valores de la variable X


covaran con los valores de la
variable Y

Ejemplos (hiptesis asociativas)


a) Hay una correlacin entre el estilo de
direccin y la moral de los empleados
b) La visualizacin de los dibujos
animados est asociado con el
comportamiento agresivo de los nios.
c) La percepcin de culpabilidad o
inocencia de los acusados est asociada
a los argumentos legales.
..//..

d) El consumo de herona es funcin


de la clase social.
e) El consumo de tabaco est
positivamente relacionado con el nivel
de alerta en sujetos humanos.
g) Los nios sensibles al ritmo
progresan ms en el aprendizaje de
lectura.

Hiptesis causal

Los valores de la variable X


determinan los valores de la
variable Y

Ejemplos (hiptesis causales)


a) Leer dos veces una lista de tems
favorece su recuerdo.
b) La intensidad de un estmulo determina
una respuesta de discriminacin ms
rpida.
c) A mayor incentivo ms rpido es el
aprendizaje de una actividad acadmica.
..//..

d) El castigo genera respuesta de


evitacin.
e) La frustracin es causa de conductas
agresivas.
f) El nivel de alerta aumenta la
efectividad del rendimiento escolar.
g) El ejercicio aumenta el rendimiento
en una actividad motora.

Contextos de las hiptesis


Hiptesis

Contexto
cientfico

asociativas

correlacional

causales

de manipulacin

Universo de las hiptesis

Hiptesis de investigacin
Hiptesis estadstica

Hiptesis de investigacin
Se plantean por intereses tericos o
sustantivos
Definen cmo se relacionan las variables
Suelen ser asociativas y causales

Hiptesis estadsticas
Las hiptesis estadsticas se establecen
mediante
caractersticas
de
las
poblaciones de origen. Las poblaciones
de origen estn definidas por parmetros,
que son valores de la distribucin fijos
pero desconocidos. Los parmetros
poblacionales se asemejan a los
estadsticos de muestra y se estiman a
partir de estos ltimos.

continuacin
Mediante los datos de muestra podemos
aceptar o rechazar, con cierto grado de
confianza determinado numricamente,
una hiptesis hecha sobre una poblacin
determinada. Tal proceso se conoce como
contraste de hiptesis estadsticas o
prueba de significacin estadstica.

Prueba de hiptesis estadstica


En investigacin social, interesa ms los
parmetros asociados a la parte fija del
modelo estadstico porque representan la
magnitud de un cambio (grado de
asociacin entre las variables) o el efecto
causal (el impacto de una variable sobre
otra). De ah, el propsito de cualquier
prueba de hiptesis es determinar el nivel
de significacin de estos parmetros.

Hiptesis estadstica sobre un


parmetro individual

H0: parmetro = 0
H0: = 0

O bien, sobre los parmetros del


modelo
En el modelo de la regresin mltiple, se
asume que los distintos coeficientes
(pendientes) son cero:

H0: 1 = 2 = = p = 0

en consecuencia,
Si se demuestra, como resultado de la
prueba, que
H0: i = 0, entonces no hay relacin lineal
entre la variable Xi e Y.
En caso contrario, se tiene
H1: i 0, se infiere que hay una relacin
lineal entre ambas v ariables.

Hiptesis nula: H0
En
teora
estadstica
se
asume,
inicialmente, la no significacin de los
parmetros, siendo este supuesto la
hiptesis que se somete a prueba y es
conocida por hiptesis nula (H0). Si se
demuestra que este supuesto no es
aceptable, se recurre a la hiptesis
alternativa (H1) como la explicacin ms
plausible de los datos.

Prueba de la hiptesis estadstica o


prueba de significacin
La prueba de significacin estadstica
contrasta la hiptesis de nulidad con los
datos del estudio. A partir del resultado de la
prueba de significacin, se procede a la
toma de decisiones estadsticas. El
resultado de la prueba consiste, de forma
sucinta, en la aceptacin o no de la hiptesis
de nulidad que asume la no-relacin entre la
variable independiente (predictora) y la
variable dependiente (criterio).
..//..

Cabe matizar, no obstante, que entre la


variable independiente y dependiente
pueden darse relaciones de asociacin o
de causalidad, de modo que la posible
implicacin de una variable sobre otra
depende
del
diseo
utilizado
(correlacional o experimental). La relacin
de asociacin es la magnitud de cambio
que se da entre dos variables, mientras
que la relacin de causalidad es el
tamao del impacto de una variable sobre
otra.

Inferencia de la hiptesis de
nulidad
La inferencia de la hiptesis nulidad nos
lleva a aceptar que la variable
independiente no est relacionada con la
dependiente (inferir su efecto). En caso
contrario, se toma la decisin en favor de
un modelo alternativo asumiendo, como
explicacin ms plausible (no exenta de
riesgo), el modelo de una relacin efectiva
entre ambas variables.
..//..

Al tomar esta decisin, se corre el


riesgo de que sea falsa. Este riesgo se
define, en teora estadstica, en
trminos de probabilidad y es conocido
por nivel de significacin. El nivel de
significacin describe el grado de
credibilidad que merece la hiptesis
considerada.

Errores en el rechazo o aceptacin de


H0
Situacin actual de la H0
Decisin

Verdadera

Falsa

Rechazo H0

Error Tipo I

No error

Aceptacin H0

No error

Error Tipo II

Error Tipo I y error Tipo II


A) Error Tipo I o decisin positiva falsa
se comete al rechazar la hiptesis de
nulidad cuando es verdadera; es decir,
cuando se toma una decisin positiva, en
favor de la existencia de un efecto cuando
en realidad no existe (falsa alarma).
La probabilidad de cometer este error es
el nivel de significacin o valor de la
prueba estadstica.
..//..

B) Error Tipo II o decisin negativa


falsa se comete cuando la prueba lleva
a la aceptacin de una hiptesis de
nulidad falsa. Se trata de no aceptar el
hecho de un efecto de la variable
independiente cuando en realidad
ocurre. El error de Tipo II se define por
la probabilidad y est asociado
inversamente con la probabilidad y
directamente con la potencia de la
prueba.

Decisin estadstica y error


Resultado
de la prueba
estadstica

Probabilidad
de azar
= 0.05

Decisin

Significativo

p <

NA(H0)

No significativo

p >

A(H0)

H0

Inferencia de H0
Probabilidad
de azar

Regin de
decisin

Si p > 0.05

A(H0)

Si p < 0.05

= 0.05
NA(H0)
0

Sobre la discusin de los


resultados

Concepto
Las actividades propias de la discusin de
los resultados son las siguientes:
a) Inferir a partir de la prueba estadstica
las consecuencias de carcter terico.
b) Interpretar estas consecuencias a la luz
de las hiptesis formuladas
c) Establecer el alcance de los resultados
mediante la generalizacin de los mismos

Inferencia terica de la hiptesis


Supongamos que la prueba de la
hiptesis estadstica nos lleva a no
aceptar la hiptesis de nulidad. En este
caso, se suele inferir, como la ms
adecuada, la hiptesis alternativa que
coincide con la hiptesis de trabajo o
investigacin. Est claro que esta
inferencia est sujeta a un riesgo de error
(definido en trminos de probabilidad).

Interpretacin de los resultados


Las
actividades
propias
de
la
interpretacin de los resultados son:
a) Examinar y explicar los datos por la
hiptesis de investigacin.
b) Extraer los contenidos cientficamente
significativos.
c) Interpretar los resultados en trminos
de hiptesis alternativas o rivales.

Generalizacin de los
resultados
En la generalizacin se evala el alcance
de los resultados, es decir, para qu
poblaciones son vigentes los supuestos
tericos probados. La generalizacin de
los resultados suele realizarse, por lo
comn, con la poblacin de sujetos.

Parte II. Modelos de la


regresin mltiple y otros

Regresin mltiple
Modelos de la
Regresin mltiple
No Lineal

Lineal

Lineal
Polinmica.

V. Dummy
Raz
Cuadrada

Interac.
Loglineal

Recproca

Exponencial

Modelo lineal de la regresin


mltiple
El modelo lineal de la regresin es un
caso especial Modelo Lineal General. De
este modo, el componente determinista
(parte fija del modelo) est formado por un
conjunto de variables objeto de estudio en
la investigacin (predictores) y el
componente aleatorio por un trmino de
error (falta de ajuste).
..//..

El anlisis de la regresin mltiple es


utilizado cuando se pretende predecir una
variable dependiente continua de un
conjunto de variables independientes
(predictores).
Cuando
la
variable
dependiente es dicotmica, se aplica, en
este caso, la regresin logstica .
Las variables independientes usadas en la
regresin pueden ser cuantitativas o
cualitativas (dummy).
..//..

Por lo general, el anlisis de la regresin


mltiple utiliza variables que son propias
de los contextos naturales, en oposicin a
variables
que
son
manipuladas
experimentalmente, aunque es posible
utilizar la regresin con esta clase de
variables.
..//..

Cabe tener en cuenta, por ltimo, que con


el anlisis de la regresin (en sentido
estricto) no pueden inferirse relaciones
causales entre las variables. Por lo
general, la terminologa es la siguiente: X
predice a Y, y no puede decirse que X
causa a Y.

Modelo de la regresin simple

Y = b0 + b1X1 + e
Observacin
Parte fija
(determinista)

Parte aleatoria
(error)

Descripcin
En el modelo de la regresin simple, Y
denota la variable dependiente (criterio), X
la variable explicativa, b0 es el intercepto,
b1 (la pendiente) denota el parmetro
estimado de la variable X y e es el
trmino
de
error
aleatoriamente
distribuido. Constituye, con el modelo de la
regresin mltiple, uno de los modelos
ms utilizados en ciencias sociales.

Representacin del modelo en


forma condensada
Y1 = b0 + b1X11 + e1
Y2 = b0 + b1X21 + e2
...............................
Yn = b0 + b1Xn1 + en
y =

(forma matricial
compacta)

Modelo de la regresin mltiple


Y = b0 + b1X1 + b2X2 + ... + bpXp + e
Forma simplificada:
Y = b0 + pbpXp + e

Modelo de la regresin mltiple


Expresa un modelo de la regresin de p
variables como una serie de ecuaciones.
Las p ecuaciones agrupadas en un sistema
nos dan el modelo lineal general familiar.
Los coeficientes son conocidos como
coeficientes de la regresin parciales.

Representacin del modelo en


forma condensada
Y1 = b0 + b1X11 + b2X21 + ... + bpXp1 + e1
Y2 = b0 + b1X12 + b2X22 + ... + bpXp2 + e2
................................................................
Yn = b0 + b1X1n + b2X2n + ... + bpXpn + en
y =

Modelos de la regresin de p
variables

Yi 1 2 X 2i 3 X 3i p X pi i
1
2p
i

- Intercepto
- Coeficientes de pendiente parciales
de la regresin
- Trmino residual asociado con Ia i
observacin

Supuestos del modelo de la


regresin
Normalidad
Linealidad
Homoscedasticidad
Multicolinealidad y singularidad

Normalidad
En principio, cabe pensar que los datos
tienen una distribucin normal. Es posible
verificar este supuesto, construyendo
histogramas y comprobando la distribucin
de los datos. A veces, en los histogramas
se incluye una lnea que representa la
forma de la distribucin con la que es
posible comprobar si la distribucin de los
datos de desva de esta lnea.

En otras palabras
Los valores de la variable dependiente
son normalmente distribuidos para cada
posible combinacin de los niveles de las
variables X.

Distribucin normal de la
variable edad

Linealidad
Se asume una relacin lineal recta entre las
variables independientes y la dependiente.
En la prctica, este supuesto no suele
verificarse, dado que los procedimientos de
regresin mltiple no suelen ser gravemente
afectados por leves desviaciones de este
supuesto. Si la curvatura de la relacin es
evidente, se pueden
transformar las
variables o recurrir de forma explcita a
componentes no lineales.

Definicin de modelo lineal


Los modelos en que todos los parmetros
(b0,b1,,bp) tienen exponentes de uno se
denominan modelos lineales.
Los modelos cuyos parmetros (b 0,b1,
,bp) tienen exponentes con valores
distintos de la unidad se denominan
modelos no-lineales.

Lnea de ajuste del peso a la


altura
libras/pulgadas
Height vs Weight
80

Weight (lbs)

75

70

65

60

55
115

125

135

145

Height (ins)

155

165

175

Lneas de Regresin (lnea de


mejor ajuste)
Regression line for r = - 1.00

12

12

10

10

Dependent variable

Dependent variable

Regression line for r =1.00

6
4
2

6
4
2
0

0
0

Independent variable

10

12

Independent variable

10

12

Cambio en la lnea de mejor


ajuste
Regression line for r = 0.85

12

12

10

10
Dependent variable

Dependent variable

Regression line for r = 0.95

8
6
4
2

8
6
4
2
0

0
0

Independent variable

10

12

Independent variable

10

12

Los supuestos de normalidad, linealidad y


homoscedasticidad
pueden
ser
examinados al inspeccionar el grfico de
dispersin con los valores predichos de Y
( ) en el eje X y los residuales (Y-) en el
eje Y.

Homoscedasticidad

Las variancias de los valores de la


variable dependiente (datos del estudio),
para cada posible combinacin de niveles
de la variable X, son iguales; es decir, la
variancia de los residuales es constante.

Multicolinealidad
La multicolinealidad significa que las
variables
independientes
estn
correlacionadas. Supngase que la altura
de una persona tiene dos predictores: peso
en libras y peso en kilos. Estos dos
predictores son redundantes, ya que el
peso es nico independiente de si se mide
con libras o kilos.
..//..

Cuando ocurre esto significa que al


menos una de las variables predictoras es
totalmente redundante con otras. Los
indicadores
estadsticos
de
este
fenmeno es conocido por tolerancia.

Relacin entre variables


independientes
De tolerancia: el grado en que un
predictor puede ser predicho por otros
predictores. La tolerancia es igual a 1
cuando las variables independientes no
estn relacionadas.

Singular: De igual modo, la relacin es


singular
cuando
un
predictor
es
perfectamente
predecible
de
otros
predictores (tolerancia igual a cero).

Resumen supuestos del


modelo
Normalidad
- Y valores son normalmente distribuidos por
cada X
- La distribucin de probabilidad del error
debe ser normal

Homoscedasticidad (variancia constante)


E(i2)

Sigue
Independencia de errores E(e iej)=0 (i j)
Linealidad
Las variables independientes son
medidas sin error
No debe darse una relacin lineal exacta
entre cualquier subconjunto de variables
explicativas (perfecta multicolinialidad)

Otros modelos

Modelos con variables dummy


(categricas) y de interaccin

Variables dummy
Las variables dummy (ficticias) se
refieren a las dimensiones en que se
tienen en cuenta dos valores o categoras.
Por lo general, se utilizan los valores 0 y 1
para representar una categora u otra de
la variable (por ejemplo gnero).

Diseo experimental
En el diseo experimental, las variables
independientes suelen ser categricas y, a
veces, dummy.
Suelen recibir el nombre de variables de
tratamiento.
El objetivo es comparar las medidas de
los grupos de tratamiento.
Se utiliza el modelo estadstico ANOVA.

Modelos con componentes no


aditivos o interactivos

Y = b0 + b1X1 + b2X2 + b12X1X2 + e

Y = b0 + j bjXj + jk bjkXjXk + e

Modelos no lineales
Modelos
cuyas
variables
tienen
exponentes, como por ejemplo, los
modelos polinmicos, exponenciales, etc.

Modelos polinmicos no lineales

Y = b0 + b1X1 + b2X1 + ... + bkX1k + e

Modelo de dos variables, k = 2


Y = b0 + b1X1 + b2X2 + b11X1 + b22X2 +
b12X1X2 + e
Forma simplificada:
Y = b0 + j bjXj + j bjjXj + jk bjkXjXk + e

Cuestin!
Hemos presentado un conjunto de
modelos estadsticos basados en la
regresin simple y mltiple (lineal y no
lineal). La cuestin que se nos plantea es
la siguiente:
Dados unos datos, cmo se procede
para ajustar un modelo estadstico?

Proceso de ajuste del modelo


estadstico
Seleccin del modelo

Estimacin de parmetros

Inferencia estadstica

Pasos para el ajuste

Seleccin (1)

Seleccin del modelo


El modelo de la regresin se selecciona
teniendo en cuenta:
a) la naturaleza de la variable
dependiente
b) cantidad de variables independientes o
explicativas (su estatus terico)
..//..

c)
Si la variable dependiente es
cuantitativa de distribucin normal, se
aplica la regresin lineal. Si la variable
dependiente es categrica, entonces la
alternativa es la regresin logstica.
d) Cuando se tiene una sola variable
independiente, el modelo de la regresin
es simple. Con dos o ms variables
explicativas el modelo de la regresin es
mltiple.

Estimacin de parmetros (2)

Parmetros del modelo


Sea el modelo:
Yi = bo + b1X1 + b2X2+ e
Los parmetros a estimar son:
b0 = intercepto o constante
b1 = efecto asociado a la primera variable X
b2 = efecto asociado a la segunda variable X
2e = variancia del error o residual
..//..

b1 se interpreta como un cambio en Y por


1 unidad de cambio de X1, siendo X2
constante. Este enunciado no es muy
claro cuando X1 y X2 no son
independientes.
Malentendido 1: bj siempre mide el efecto
de Xj sobre E(Y), independiente de otras
variables X.
Malentendido 2: un valor b significativo
estadsticamente establece una relacin
de causa y efecto entre X e Y.

Resumen: interpretacin de los


parmetros o coeficientes
Constante b0:
Intercepto o valor promedio de Y
cuando todas las Xj = 0.
Pendiente bj:
Cambios estimados de Y por cada 1
unidad de cambio en Xj. Siendo
todas las otras variables constantes.

Cuestin!
Dada la importancia que tienen, para el
ajuste el modelo y la interpretacin de los
resultados, los parmetros o coeficientes,
cabe distinguir entre los coeficientes b
(no estandarizados) y los coeficientes
(beta o estandarizados).
..//..

El coeficiente b es el cambio esperado en


Y por cada unidad de cambio en Xj,
cuando el resto de variables estn
controladas.
El coeficiente es el cambio esperado en
Y en unidades de desviacin estndar por
cada unidad estndar de cambio en Xj,
cuando el resto de variables estn
controladas.

A propsito de la interpretacin
de los coeficientes
Los parmetros b tienen la ventaja de
que se interpretan en unidades de medida
originales.
Los coeficientes son directamente
comparables en cuanto a su importancia
en la variable Y. No pueden ser
interpretados en la escala de medida
original.
..//..

Ejemplo de
El valor beta es una medida de la
intensidad con cada predictor influye en la
variable criterio. Es medida en unidades
de desviacin estndar. As, un valor beta
de 2.5 indica que un cambio en una
unidad estndar del predictor resulta un
cambio de 2.5 unidades estndar en la
variable criterio.

Inferencia y significacin
estadstica (3)

Pasos a seguir en la evaluacin


del modelo
Una vez se ha especificado el modelo de
la regresin, se necesita conocer en qu
medida se ajusta a los datos.
En primer lugar, probaremos el ajuste del
modelo global de la regresin.
Luego, probamos la significacin de cada
variable independiente.

Evaluacin del modelo de la


regresin mltiple

Medidas de variacin
Pruebas de significacin

Medidas de variacin

Coeficiente de determinacin
mltiple (R2)
Proporcin de variacin en Y explicada
por todas las variables X tomadas en su
conjunto.
Jams decrece cuando una nueva
variable X es introducida en el modelo.
La prueba de R2 = 0 expresa que todas las
variables X, de forma conjunta, no
explican la variacin de Y.

Prueba de significacin global


del modelo

Ejemplo prctico (datos


simulados)
Supongamos que se pretende estudiar el
impacto que sobre un Cuestionario de
Satisfaccin Vital tienen las siguientes
variables:
Edad
Ingresos
Cantidad hijos
Salud

Pruebas de significacin
En el contexto de la regresin pueden
seguirse, como se ha indicado, dos
estrategias de prueba:
a) Prueba del modelo completo, con todos
los coeficientes. Para ello se usa el
coeficiente de determinacin (R2) mediante
el estadstico F.
b) Prueba de los coeficientes individuales
de la regresin con el estadstico t.

c) Cabe tambin la posibilidad de probar


un
subconjunto
de
variables
independientes o modelos parciales.

Estadsticos para la prueba del


modelo total (a)
Para conocer el grado de ajuste del modelo
se utilizan dos estadsticos: R2 (coeficiente
de determinacin) y R2 ajustado.
R2: indica la proporcin de variacin en la
variable criterio (y) explicada por el modelo.
En suma, es un medida de la bondad de la
prediccin de la variable criterio por las
variables predictoras.

..//..

R2
ajustado:
el
coeficiente
de
determinacin tiende, en cierto modo, a
sobre-estimar la bondad del modelo
cuando se aplica al mundo real. Por ello,
se calcula el coeficiente de determinacin
ajustado que tiene en cuenta el nmero de
variables del modelo y el nmero de
observaciones (participantes) en que se
basa el modelo.
Inconvenientes de R2: no sirve para
comparar modelos.

R ajustado
2

Dicho de forma ms simple:


El coeficiente de determinacin R2 es
sensitivo a la magnitud de la muestra (n) y
a la cantidad de variables independientes
o regresores (p) con muestras pequeas.
Si p es grande en relacin a n, el modelo
tiende a ajustarse muy bien. Una medida
mejor de bondad de ajuste es calculada
como sigue:

clculo

n -1
R2 ajustado= 1 - (--------------)(1-R 2)
np1

Ventajas: refleja el tamao de muestra y la


cantidad de variables independientes;
sirve para comparar modelos

Coeficiente de determinacin
mltiple (R2)
Proporcin de variacin en Y explicada
por todas las variables X tomadas
conjuntamente.
El estadstico R2 mide la contribucin total
de las Xs.
Variacin explicada SC yy SCE
SCE
R

1
Variacin total
SC yy
SC yy
2

Prueba de R

Se ha sealado que cuando se prueban


todos los coeficientes de la regresin, se
utiliza el coeficiente de determinacin. En
este caso, se prueba si hay una relacin
lineal entre la variable criterio y las
variables independientes o predictores del
modelo.

Hiptesis a probar:
H0: 1= k= 0
H1: al menos un parmetro es no cero,
k 0
Puesto que no hay un forma de
distribucin de probabilidad para el
estadstico R2, se utiliza en su lugar el
estadstico F (ANOVA aplicado a la
regresin).

Qu tipo de prueba ha de
usarse?
La distribucin utilizada se denomina distribucin
de Fisher. El estadstico F es utilizado con esta

Curva de la distribucin de F

Area =

F,v ,v,v
1
1

reject H0

Prueba de significacin total


Ejemplo hipottico
H0: 1 = 2 = = p = 0
H1: Al menos una I 0
= .05
gl= 4 y 14
Valor crtico:

Prueba estadstica:

23.751

Decisin:
Rechazo con = 0.05
Conclusin:
= 0.05

3.11

Hay evidencia de que al


menos una variable
independiente afecta a Y

Prueba de los coeficientes de la


regresin individuales (b)
Siguiendo los pasos del programa SPSS:
1.Se calculan los coeficientes no estandarizados
2. Se calcula el error estndar de estos
coeficientes
3. Se calculan los coeficientes beta
4. Se calcula la t de los coeficientes no
estandarizados
5. Se obtiene la significacin estadstica de las t

Significacin individual de los


coeficientes o parmetros no
estandarizados

Pruebas de hiptesis de los


parmetros estimados
Prueba de una cola

Prueba de dos colas

H0: j = 0

H 0: j = 0

H1: j > 0, o j < 0

H 1: j 0

La prueba es de una cola o dos segn se


tenga
una
hiptesis
unidireccional
o
bidireccional (no importan que el valor del
estadstico sea mayor o menor que cero). ..//..


Prueba estadstica: t b / s
bj
Se utiliza la t de Student: el valor estimado del
parmetro partido por su error estndar.
Regin de rechazo de H0:
to > t (o to < t)

|to| > t/2

Sea, por ejemplo, el siguiente


modelo

Y = 0 + 1X1 + 2X2 + 3X3 + 4X4 + e

Prueba de H0: bi = 0
H0: 1 = 0 (X1 no contribuye)
H1: 1 0 (X1 contribuye)
H0: 2 = 0 (X2 no contribuye)
H1: 2 0 (X2 contribuye)
H0: 3 = 0 (X3 no contribuye)
H1: 3 0 (X3 contribuye)

Sigue

H0: 4 = 0 (X4 no contribuye)


H1: 4 0 (X4 contribuye)

Pruebas estadsticas
.
b1

t= s
b1

rechazar Ho if |t| > t ./2,n-k-1

(1- ) 100% Intervalo de confianza

bi - t/2,n-k-1sbi

to

bi + t/2,n-k-1sbi

Significacin coeficientes
individuales
El nico parmetro estadsticamente
significativo es el asociado a la Variable
Ingresos.

t Test : Ejemplo hipottico


Test con un = 0.05.
H0: 2 = 0

Prueba estadstica:

H1: 2 0
gl = 14
Valores crticos:

t Test Statistic = 3.491


Decisin:
Reject H0 at = 0.05

Rechazo H0

.025
-2.145

Rechazo H0

.025
0 2.145

Conclusin:
Hay evidencia de un efecto
significativo.

Intervalos de confianza
Algunos autores prefieren los
confianza a la prueba t.

intervalos de

El Intervalo de confianza se refiere al intervalo


que, a un cierto nivel de confianza, contiene al
parmetro estimando.
Nivel de confianza es la "probabilidad" de que el
intervalo calculado contenga al verdadero valor
del parmetro.

El clculo es como sigue:


b t(/2, g.l.)sb

Donde t es el valor de t tabulado para


/2, con los grados de libertad
asociados a la SCR (g.l. de la Suma de
Cuadrados Residual del ANOVA) y sb el
error estndar de b.

El IC se representa por (1-)100%. Calculemos


el intervalo de confianza del 95% para un valor
estimado de b = 1.18 y sb = .28. Entrando en las
tablas de t para un alfa de .05/2 =.025 y, por
ejemplo, con 18 g.l. (t =2.101). El intervalo de
confinaza del 95% es
1.18 (2.101)(.28) = .59 y 1.77

Con el intervalo de confianza, la prueba de la


hiptesis nula, = 0, viene a ser un caso
especial. Con el ejemplo presente, 0 no est
incluido en el rango y la hiptesis de = 0 es
por lo tanto rechazada con un = 0.05.

Prueba de significacin de
modelos parciales

Prueba de modelos parciales (c)


Se examina la contribucin de un
conjunto de variables en relacin a Y.
La forma como se analiza la especfica
contribucin de las variables define el
procedimiento o mtodo a seguir.
Hay varios procedimientos que permiten
evaluar la contribucin particular de cada
variable o predictor.

Sigue

Hiptesis nula:
La variables del conjunto no mejoran
significativamente el modelo, cuando
todas las otras son incluidas.
Los modelos deben estimarse por
separado

Prueba estadstica de partes


del modelo
Test H0: 1 = 0 en un modelo de 2 variables

SSR ( X 1 and X 2 ) - SSR ( X 2 )


F
MSE ( X 1 and X 2 )
De la tabla ANOVA de
la regresin para

Yi b0 b1X 1i b2 X 2i

De la tabla ANOVA de
la regresin para

Yi b0 b2 X 2i

Prueba estadstica de partes


del modelo
Test H0: 1= 2 = 0 en un modelo de 3 variables

( SSR ( X 1 , X 2 , X 3 ) - SSR ( X 3 ))/k


F
MSE ( X 1 , X 2 , X 3 )
De la tabla ANOVA de
la regresin para

Yi b0 b1 X 1i b2 X 2i b3 X 3i

De la tabla ANOVA de
la regresin para

Yi b0 b3 X 3i

Procedimientos de seleccin
de variables

Tipos de procedimientos

Procedimiento enter o global

Jerrquico (de acuerdo a un orden)

Mtodo simultneo (Enter)


En el mtodo simultneo, denominado en
el SPSS por ENTER, el investigador
define el conjunto de predictores que
forman el modelo. A continuacin se
evala la capacidad de este modelo de
predecir la variable criterio.
Se trata, en definitiva, de probar el modelo
global o completo.

Mtodos jerrquicos de
seleccin de variables
En los mtodos jerrquicos las variables
entran en el modelo de acuerdo con un
orden determinado. El orden depende de
las consideraciones tericas o de
resultados previos.
Desde la perspectiva estadstica, el orden
de entrada de las variables en el modelo
viene determinado por la fuerza de su
correlacin con la variable criterio.

En la actualidad hay diferentes versiones


de este mtodo: stepwise selection,
forward selection, backward selection y
remove.

Stepwise selection
Cada predictor o variable independiente
es entrando de forma secuencial y su
valor es evaluado. Si aadir el predictor
contribuye al modelo, entonces es
retenido y el resto de variables son
entonces reevaluadas para probar si
siguen contribuyendo al xito del modelo.
Si no contribuyen significativamente son
eliminadas.

Sigue
A cada paso del proceso, se observa si la
variable menos significativa del modelo
puede ser removida debido que a su valor
F, FMIN, es menor que el especificado o
valor F por defecto.

Sigue
Si ninguna variable puede ser removida,
se verifica si la ms significativa que no
est en el modelo puede ser aadida
dado que su valor F, FMAX, es el mayor
que el especificado o por defecto.
El procedimiento se para cuando no se
puede aadir o eliminar ninguna otra
variable.

Forward selection
Al igual que el procedimiento stepwise, las
variables son entradas secuencialmente
en el modelo.
La primera variable considerada para
entrar en el modelo es la que tiene una
mayor correlacin positiva o negativa con
la variable dependiente.

Sigue
La variable es entrada en el modelo, slo
cuando satisface el criterio de entrada
(tiene un valor F mayor que el criterio).
El procedimiento se para cuando no hay
ms variables que se ajusten el criterio de
entrada.

Backward selection
Se empieza con todas las variables del
modelo y se elimina la menos til a un
tiempo. Una variable, cuyo valor p
asociado a la F parcial es mayor que un
valor prescrito, PMIN, es la menos til y
ha de ser eliminada del modelo. El
proceso contina hasta que no puede
eliminarse ninguna otra variable de
acuerdo con el criterio propuesto.

Sigue
Una vez eliminada la variable del modelo,
no puede ser entrada de nuevo en un
paso posterior.

Remove
Es un procedimiento de seleccin de
variables en que se eliminan todas las
variables de un bloque en un solo paso.

A modo de resumen
Finalizada la prueba de significacin del
modelo o de los coeficientes, es posible
llevar a cabo un anlisis de residuales de
forma
grfica
(mediante
los
correspondientes plots) o bien utilizando
la prueba de Durbin-Watson.

Verificacin de los supuestos


del modelo

Multicolinealidad

Estadsticos de colinealidad
Tolerancia y VIF (variancia
inflation factors)
Tolerancia: Una primera medida para para
probar la colinealidad o no dependencia lineal
entre los regresores (Tp = 1 Rp2).
Cuando tiene un valor mximo de 1, la variable
no tiene ningn grado de colinealidad con las
restantes, Un valor 0 indica que la variable es
una combinacin lineal perfecta de otros
regresores. Es deseable que, en general, sea
mayor a .40

Sigue
VIF (variance inflation factor): a medida que es
mayor la multicolinealidad, en un de los
regresores, la variancia de su coeficiente
comienza a crecer. La multicolinealidad infla la
variancia del coeficiente (VIFp= 1/(1-Rxp2).
La VIF tomar un valor mnimo de 1 cuando no
hay colinealidad y no tendr lmite superior en el
caso de multicolinealidad.

Sigue..
En presencia de multicolinealidad, una
solucin lgica consiste en eliminar del
modelo aquellas variables con ms alto
VIF (o ms baja tolerancia).

Diagnsticos de colinealidad
Dimensiones: factores diferentes que se hallan
en el conjunto de variables independientes.
Autovalores: los valores prximos a 0 indican
colinealidad.
ndices
de
condicin:
raz
cuadrada
(autovalormayor/autovalor). Valores por encima
de 15 indican posibles problemas de
colinealidad
Proporciones de variancia: proporcin de la
variancia de cada coeficiente de la regresin
parcial bj que est explicada por cada factor.

Sigue
Proporciones de variancia: Hay problema
de colinealidad si una dimensin (de
ndice de condicin alto) explica gran
cantidad de la variable de dos o ms
variables.

Resto de supuestos

Pruebas del resto de supuestos


del modelo
Prueba de la linealidad
Pruebas de independencia
Prueba de homoscedasticidad
Prueba de normalidad

Scatter- plot (grfico de


dispersin)
El scatter plot nos permite obtener respuesta a
la siguientes cuestiones:
1. Las variables X e Y estn relacionadas?
2. Las variables X e Y estn linealmente
relacionales?
3. Las variables X e Y estn relacionadas nolinealmente?
4. La variacin en el cambio de Y depende de
X?
5. Hay outliers (valores extremos o atpicos)?

Variables listadas en el SPSS


DEPENDEN : variable dependiente.
ZPRED: valores pronsticos tipificados; valores
pronsticos divididos por su desviacin estndar
(media de 0 y desviacin 1).
ZRESID: residuos tipificados.

Sigue
DRESID: residuos eliminados; es decir, al
efectuar los pronsticos se elimina de la
ecuacin el caso sobre el que se efecta el
pronstico.
ADJPRED: pronsticos ajustados; es decir,
valores pronosticados sin incluir el caso
pronosticado.
SRESID: residuos estudentizados; divididos por
su desviacin estndar y se distribuyen segn la
t de Student.
SDRESID: residuos estudentizados

Interpretando los plots de


valores predichos y residuales
Los plots de los valores predichos, observados y
residuales son esenciales en determinar si el
modelo
ajustado
satisface
los
cuatro
presupuestos de la regresin lineal:
1. Linealidad de la relacin entre la variable
dependiente e independientes.
2. Independencias o no autocorrelacin de los
errores.
3. Homoscedasticidad o variancia constante de
los errores.
4. Normalidad de la distribucin del error.

1. Linealidad
Se obtiene del plot de los valores observados y
predichos versus la variable independiente. Si la
relacin no es lineal, la dispersin (scatter) de
los puntos mostrar una desviacin sistemtica
de la lnea de regresin.
Con el modelo de la regresin mltiple es mejor
generar un grfico simple (plot) de los valores
observados versus los valores predichos.
Tericamente, en un grfico de observados vs.
predichos los puntos deberan moverse entre
torno a la lnea recta diagonal.

Sigue
El grfico de valores residuales vs.
valores predichos es esencialmente el
mismo que el anterior, a excepcin de que
la lnea de referencia es horizontal ms
que de 45 grados.

2) Independencia
Uno de los supuestos bsicos del MRL
(modelos de la regresin lineal) es la
independencia entre los residuos. El
estadstico de Durbin-Watson aporta
informacin
sobre
el
grado
de
independencia existente entre ellos

El estadstico de Durbin-Watson
El estadstico de Durbin-Watson (DW)
proporciona informacin sobre el grado de
independencia entre los residuales. El
estadstico DW vara entre 0 y 4, y toma el
valor 2 cuando los residuales son
independientes. Valores menores que 2
indica autocorrelacin positiva. Podemos
asumir independencia entre los residuales
cuando DW toma valores entre 1.5 y 2.5

Residual Analysis: Autocorrelation

Durbin-Watson Test for Autocorrelation


Statistic
n

(et et 1 )2

d t 2

et2

t 1

The statistic ranges in value from zero to


four.
If successive values of the residuals are
close together (positive autocorrelation), the
statistic will be small.
If successive values are far apart (negative
auto correlation), the statistic will be large.

Sigue..
El valor del residual se calcula por

ei = Yi - i

3) Homoscedasticidad
En el cuadro de dilogo de Grficos de la
regresin lineal del SPSS, se obtienen
una serie de variables listadas para
obtener diferentes grficos de dispersin:

Prueba de homoscedasticidad
Los valores ZRESID se trasladan al eje Y y los
valores ZPRED al eje X.
La variacin de los residuos debe ser uniforme
en todo el rango de valores pronosticados; es
decir, el tamao de los residuos es
independiente del tamao de los pronsticos.
Por lo tanto, el grfico de dispersin no debe
mostrar ninguna pauta de asociacin entre los
pronsticos y los residuos.

4) Prueba de normalidad
A) Mediante el histograma de los residuos
tipificados. La curva se construye con
media 0 y un desviacin tpica de 1.
B) Grfico de probabilidad normal. En el
eje de las abscisas se representa la
probabilidad acumulada de cada residuo y
en de las ordenadas la probabilidad
acumulada terica o esperada.

Sigue
Tericamente este grfico debera ser una lnea
recta diagonal. Si los datos se inclinan hacia
arriba o hacia abajo, indica una distribucin
asimtrica (sesgada).
Si el grfico de probabilidad normal muestra una
lnea recta, es razonable asumir que los datos
observados proceden de una distribucin
normal. Si los puntos se desvan de la lnea
recta, hay evidencia en contra de la distribucin
normal e independiente.

Correlaciones

Correlaciones
Correlaciones de orden cero: Se
presentan en la matriz de correlaciones
simples entre todas las variables,
incluyendo la variable de control. Se trata
de la correlacin ordinaria entre dos
variables, no controlando ninguna (cero)
otra variable.

Sigue
Correlacin parcial: La correlacin que hay
entre dos variables despus de remover la
correlacin debida a su asociacin con
otras variables. Es decir, la correlacin
entre la variable dependiente y una
variable independiente cuando los efectos
lineales
de
las
otras
variables
independientes del modelo han sido
removidos. Neutralizando su efecto sobre
la dependiente e independiente.

Sigue
Part Correlation (semiparcial). Es la posible
relacin entre un variable dependiente e
independiente, controlando la relacin que esta
variable independiente pueda tener con otra u
otras variables independientes. Se neutraliza los
efectos lineales de una variable independiente
del resto de variables independientes.
Est relacionada al cambio en R al cuadrado
cuando una variable es aadida a la ecuacin.
Es
conocida,
tambin,
por
correlacin
semiparcial.

Sigue
El procedimiento de Correlaciones Parciales
calcula los coeficientes de correlacin parcial
que describen la relacin lineal entre dos
variables mientras se controlan los efectos de
una o ms variables adicionales. Las
correlaciones son medidas de asociacin lineal.
Dos variables pueden estar perfectamente
correlacionadas, pero si la relacin es no linear,
un coeficiente de correlacin no es una
estadstico apropiado para medir su asociacin.

Fin parte terica