Analisis de La Regresion (Teoria)

Master Intervención
Psicosocial
Análisis de la regresión
Modelos de análisis
estadístico
I. Conceptos básicos.
II. Regresión múltiple
Parte I. Conceptos básicos
Análisis estadístico
En un sentido amplio, se refiere a todos

los métodos que describen las relaciones
que se dan entre diversas variables o
dimensiones de variación.
Modelos de análisis estadístico y
diseño de estudio
Conceptos básicos
 Datos: observaciones realizadas de los

individuos o grupos de individuos
 Escalas de medida: no métricas (nominales y
ordinales) y métricas (intervalos y de razón)
 Diseños: estrategias de recogida de datos
 Estrategia del diseño: transversal o longitudinal
 Modelos de análisis: sistemas o ecuaciones que
permiten inferir el tipo de relación entre los
datos
 Clases de relaciones: asociativas y causales
A propósito de los datos (1)
Elaboración de datos
Observación Escala Dato científico

directa de medida o valor
numérico
La conversión de una observación directa en

un dato científico se realiza mediante la
aplicación de una adecuada escala de medida.
Reunión de datos
Sistemas de reunión de datos
a) Tablas
b) Gráficos
Tablas
 Las tablas se usan en los informes

científicos para resumir los datos u otra
información que no puede ser presentada
de forma conveniente en la narrativa del
texto.
Acerca de las tablas
Las tablas deben tener un título que informe
claramente sobre su contenido como por
ejemplo preferencias del partido político. Las
tablas estadísticas deberían informar también
sobre el número de observaciones que se
incluyen (frecuencia). La parte superior de la
columna del lado izquierdo de la tabla es
referida como título de filas e informa sobre el
contenido de las fila. El cuerpo de la tabla
contiene los datos de interés. En el ejemplo
propuesto se muestra el número de individuos
que prefieren un partido político. ..//..
Las tablas que se refieren a una sola variable
son conocidas por representaciones
univariadas y las que informan sobre dos
variables, representaciones bivariadas. En la
representaciones bivariadas una variables
está asociada a las filas y la otra a las
columnas y se conocen, también, por tablas
de contingencia. Ejemplo de tabla bivariada
que relaciona preferencia de un partido
político y afiliación religiosa (en paréntesis
están los porcentajes).
Ejemplos (tablas)
Ejemplos (tablas)
Gráficos
 Con los gráficos se consigue una

representación visual de los datos, por lo
que es un procedimiento útil a la
investigación. Los gráficos captan mejor la
atención del lector, permite clarificar los
resultados y facilitar su interpretación
Histograma de frecuencias o gráfico de
barras
El histograma de frecuencias es un gráfico que

muestra la distribución de frecuencias de una
variable de intervalo. El eje horizontal del
histograma o gráfico de barras presenta los
intervalos y el eje vertical la cantidad de
puntuaciones de cada intervalo (frecuencia). La
altura de la barra indica la frecuencia de casos de
cada categoría. El gráfico siguiente muestra la
cantidad de amigos reportados por estudiantes
de un College americano. ..//..
Cantidad de amigos reportados por
estudiantes de un College
En el segundo ejemplo, se muestra un gráfico
de barras sobre el efecto de dos drogas
antiansiolíticas. Se trata de una escala
nominal y la diferencia entre el primer y
segundo panel estriba en la forma de
representar las unidades en el eje vertical
(unidades pequeñas en el primer panel y
punto cero y unidades grandes en el
segundo). Nótese que la gran diferencia entre
las dos drogas que se observa en el primer
panel y que desaparece en la segunda
representación.
Efectos de dos psicofármacos sobre la
ansiedad
Polígono de frecuencias
Es una forma alternativa de representa el

histograma de frecuencias. Así, en lugar de
barras se utilizan líneas que conectan las
frecuencias de los intervalos de clase. En el
ejemplo siguiente se muestra la misma
información sobre la cantidad de amigos,
pero utilizando el sistema de líneas y no de
barras. De igual modo, se tiene el gráfico de
la cantidad de divorcios al aprobarse
correspondiente ley en el Estado de
Nebraska.
Cantidad de amigos reportados por
estudiantes de un College
Cantidad de divorcios antes y después de
su promulgación en el Estado de Nebraska
Escalas de medida y datos (2)
Cuantificación de las variables
Las variables se cuantifican al asignar

valores numéricos a los atributos o
características de los individuos, objetos y
hechos de acuerdo a reglas.
El proceso de asignación de los números

de acuerdo a reglas se denomina medida.
Escalas de medida
 Las reglas particulares de asignación de
números a las variables se definen como
escalas de medida.
Clasificación:
Nominal
Ordinal débiles
Escalas
De intervalo
De razón fuertes
Escalas de medida
Nominal 1 = varón 2 = hembra
Ordinal
1 2 3
De intervalo
15 16 17 18 19 20 21 22 23
De razón
0 1 2 3 4 5 6 7 8
Ejemplos de escalas
Nominal los valores sólo representan
categorías o nombres (género, raza, religión, etc.)
Ordinal los valores representan el orden en

función del grado como actitud, preferencia, etc.
De intervalo la distancia entre los valores se

mantiene constante como la temperatura,
respuestas correctas, etc.
De razón cuando además de la constancia del

intervalo hay un valor cero que coincide con la
ausencia del atributo.
Escalas y naturaleza de los
datos
Escala Tipo Dato
Nominal Cualitativa No-paramétrico

Ordinal Cuantitativa No-paramétrico
De intervalo Cuantitativa discreta Paramétrico
De razón Cuantitativa continua Paramétrico
Naturaleza de los datos y prueba
estadística
Datos de escala Prueba estadística
Nominal Prueba
Ordinal no paramétrica
De intervalo Prueba no paramétrica y

De razón paramétrica
Variable dependiente
Datos métricos o gaussianos
Datos no métricos o no gaussianos

En torno a los diseños (3)
Concepto de diseño
El diseño es una estrategia particular de
recogida de datos y es función de los
objetivos o hipótesis propuestos.
Los diseños son transversales y

longitudinales, según la no presencia o
presencia de la dimensión temporal en el
estudio.
A modo de resumen
¿Cuál es la relación entre diseño (estudio)

matriz de datos y modelo de análisis?
¿Cuál es la estructura de cualquier
investigación científica?
Estructura de la investigación
en ciencias sociales
Diseño Datos Modelo análisis
Problema Estadístico
Hipótesis Estimación
Variables Inferencia
Modelo de escala
A modo de resumen
Se ha visto la secuencia entre las tres

fases o momentos de una investigación:
diseño, datos y análisis.
Es importante conocer la estructura del
diseño, así como los distintos
procedimientos o tipos de investigación
Estructura del diseño (4)
Tipología del diseño de
investigación
Diseños observacionales
Diseños correlaciones o predictivos
(estudios de encuesta)
Diseños cuasi-experimentales
Diseños experimentales
Naturaleza de los datos (variable
dependiente)
Datos métricos o cuantitativos (de

distribución gaussiana o normal)
Datos no métricos o categóricos (de

distribución no-gaussiana)
Estrategia del diseño y modelo
de análisis
Diseños experimentales y cuasi-

experimentales
Diseño
Datos cuantitativos Estrategia Datos cualitativos
ANOVA Transversal Longitudinal TC
Grupos Medidas
AR paralelos repetidas Modelo log-lineal
Factorial Cross-over
MANOVA Regresión
Medidas Antes-después logística
repetidas
Cohortes
Factorial
mixto Split-plot
Diseños no experimentales
En el contexto no experimental

(experimento verdadero y cuasi-
experimentales) los diseños suelen ser
observacionales y correlacionales.
Los diseños correlacionales se basan en
el análisis de múltiples variables con el
propósito de estimar la magnitud de
cambio entre ellas.
Sigue…
El objetivo es poder predecir la variable

dependiente a partir de la o las variables
predictoras o independientes. También se
pretende explicar la proporción de
variación de la variable dependiente por la
o las variables independientes.
Modelos de análisis
estadísticos (5)
¡Cuestión!
Una vez recogidos los datos, ¿qué hacer

con ellos?
A esta cuestión cabe responder lo
siguiente: los datos se analizan de
acuerdo con modelos estadísticos
adecuados a fin de derivar consecuencias
teóricamente interpretables; es decir, se
obtienen resultados que han de ser
interpretados.
El modelo lineal general
Modelo estadístico general
Y = f(X) + g(E)
V.Dep. Parte fija Parte aleatoria

Concepto
El modelo estadístico, o ecuación de

carácter lineal, asume que una observación
Y es el resultado de la combinación aditiva
de alguna función f de variables fijas y de
alguna función g de componentes
aleatorios, y que tanto f como g pueden
tomar parámetros conocidos o
desconocidos. ..//..
continuación
Considerada esta ecuación como un

modelo estadístico general, se tiene que
cualquier observación es la suma de dos
partes o componentes: una parte fija o
determinista, f(X), y una parte aleatoria
desconocida, g(E).
Clases de relaciones entre
variables o hipótesis (6)
Clases de hipótesis
Asociativa
Hipótesis
Causal
Hipótesis asociativa
X Y
Los valores de la variable X

covarían con los valores de la
variable Y
Ejemplos (hipótesis asociativas)
a) Hay una correlación entre el estilo de

dirección y la moral de los empleados
b) La visualización de los dibujos
animados está asociado con el
comportamiento agresivo de los niños.
c) La percepción de culpabilidad o
inocencia de los acusados está
asociada a los argumentos legales.
..//..
d) El consumo de heroína es función
de la clase social.
e) El consumo de tabaco está
positivamente relacionado con el nivel
de alerta en sujetos humanos.
g) Los niños sensibles al ritmo
progresan más en el aprendizaje de
lectura.
Hipótesis causal
X Y
Los valores de la variable X

determinan los valores de la
variable Y
Ejemplos (hipótesis causales)
a) Leer dos veces una lista de ítems

favorece su recuerdo.
b) La intensidad de un estímulo determina
una respuesta de discriminación más
rápida.
c) A mayor incentivo más rápido es el
aprendizaje de una actividad académica.
..//..
d) El castigo genera respuesta de
evitación.
e) La frustración es causa de conductas
agresivas.
f) El nivel de alerta aumenta la
efectividad del rendimiento escolar.
g) El ejercicio aumenta el rendimiento
en una actividad motora.
Contextos de las hipótesis
Hipótesis Contexto
científico
asociativas correlacional
causales de manipulación
Universo de las hipótesis
 Hipótesis de investigación
 Hipótesis estadística
Hipótesis de investigación
Se plantean por intereses teóricos o

sustantivos
Definen cómo se relacionan las variables
Suelen ser asociativas y causales

Hipótesis estadísticas
Las hipótesis estadísticas se establecen

mediante características de las
poblaciones de origen. Las poblaciones de
origen están definidas por parámetros,
que son valores de la distribución fijos
pero desconocidos. Los parámetros
poblacionales se asemejan a los
estadísticos de muestra y se estiman a
partir de estos últimos.
continuación
Mediante los datos de muestra podemos

aceptar o rechazar, con cierto grado de
confianza determinado numéricamente,
una hipótesis hecha sobre una población
determinada. Tal proceso se conoce como
contraste de hipótesis estadísticas o
prueba de significación estadística.
Prueba de hipótesis estadística
En investigación social, interesa más los

parámetros asociados a la parte fija del
modelo estadístico porque representan la
magnitud de un cambio (grado de
asociación entre las variables) o el efecto
causal (el impacto de una variable sobre
otra). De ahí, el propósito de cualquier
prueba de hipótesis es determinar el nivel
de significación de estos parámetros.
Hipótesis estadística sobre un
parámetro individual
H0: parámetro = 0
H0: β = 0
O bien, sobre los parámetros del
modelo
En el modelo de la regresión múltiple, se
asume que los distintos coeficientes
(pendientes) son cero:
H0: b1 = b2 = … = bp = 0
en consecuencia,
Si se demuestra, como resultado de la
prueba, que
H0: bi = 0, entonces no hay relación lineal

entre la variable Xi e Y.
En caso contrario, se tiene
H1: bi ≠ 0, se infiere que hay una relación

lineal entre ambas v ariables.
Hipótesis nula: H0
En teoría estadística se asume,

inicialmente, la no significación de los
parámetros, siendo este supuesto la
hipótesis que se somete a prueba y es
conocida por hipótesis nula (H0). Si se
demuestra que este supuesto no es
aceptable, se recurre a la hipótesis
alternativa (H1) como la explicación más
plausible de los datos.
Prueba de la hipótesis estadística o
prueba de significación
La prueba de significación estadística
contrasta la hipótesis de nulidad con los
datos del estudio. A partir del resultado de la
prueba de significación, se procede a la
toma de decisiones estadísticas. El
resultado de la prueba consiste, de forma
sucinta, en la aceptación o no de la
hipótesis de nulidad que asume la no-
relación entre la variable independiente
(predictora) y la variable dependiente
(criterio). ..//..
Cabe matizar, no obstante, que entre la
variable independiente y dependiente
pueden darse relaciones de asociación o
de causalidad, de modo que la posible
implicación de una variable sobre otra
depende del diseño utilizado
(correlacional o experimental). La relación
de asociación es la magnitud de cambio
que se da entre dos variables, mientras
que la relación de causalidad es el
tamaño del impacto de una variable sobre
otra.
Inferencia de la hipótesis de
nulidad
La inferencia de la hipótesis nulidad nos
lleva a aceptar que la variable
independiente no está relacionada con la
dependiente (inferir su efecto). En caso
contrario, se toma la decisión en favor de
un modelo alternativo asumiendo, como
explicación más plausible (no exenta de
riesgo), el modelo de una relación efectiva
entre ambas variables. ..//..
Al tomar esta decisión, se corre el
riesgo de que sea falsa. Este riesgo se
define, en teoría estadística, en
términos de probabilidad y es conocido
por nivel de significación. El nivel de
significación describe el grado de
credibilidad que merece la hipótesis
considerada.
Errores en el rechazo o aceptación de
H0
Situación actual de la H0
Decisión Verdadera Falsa
Rechazo H0 Error Tipo I No error
Aceptación H0 No error Error Tipo II

Error Tipo I y error Tipo II
A) Error Tipo I o decisión positiva falsa se
comete al rechazar la hipótesis de nulidad
cuando es verdadera; es decir, cuando se
toma una decisión positiva, en favor de la
existencia de un efecto cuando en realidad
no existe (falsa alarma).
La probabilidad de cometer este error es el
nivel de significación o valor α de la
prueba estadística. ..//..
B) Error Tipo II o decisión negativa
falsa se comete cuando la prueba lleva
a la aceptación de una hipótesis de
nulidad falsa. Se trata de no aceptar el
hecho de un efecto de la variable
independiente cuando en realidad
ocurre. El error de Tipo II se define por
la probabilidad β y está asociado
inversamente con la probabilidad α y
directamente con la potencia de la
prueba.
Decisión estadística y error
Resultado Probabilidad Decisión
de la prueba de azar
estadística α = 0.05
Significativo p < α NA(H0)
H0
No significativo p > α A(H0)

Inferencia de H0
Probabilidad 1 Región de
de azar decisión
Si p > 0.05 A(H0)
α = 0.05
Si p < 0.05 NA(H0)
0
Sobre la discusión de los
resultados
Concepto
Las actividades propias de la discusión de
los resultados son las siguientes:
a) Inferir a partir de la prueba estadística
las consecuencias de carácter teórico.
b) Interpretar estas consecuencias a la luz
de las hipótesis formuladas
c) Establecer el alcance de los resultados
mediante la generalización de los mismos
Inferencia teórica de la hipótesis
Supongamos que la prueba de la hipótesis

estadística nos lleva a no aceptar la
hipótesis de nulidad. En este caso, se
suele inferir, como la más adecuada, la
hipótesis alternativa que coincide con la
hipótesis de trabajo o investigación. Está
claro que esta inferencia está sujeta a un
riesgo de error (definido en términos de
probabilidad).
Interpretación de los resultados
Las actividades propias de la

interpretación de los resultados son:
a) Examinar y explicar los datos por la
hipótesis de investigación.
b) Extraer los contenidos científicamente
significativos.
c) Interpretar los resultados en términos
de hipótesis alternativas o rivales.
Generalización de los
resultados
En la generalización se evalúa el alcance

de los resultados, es decir, para qué
poblaciones son vigentes los supuestos
teóricos probados. La generalización de los
resultados suele realizarse, por lo común,
con la población de sujetos.
Parte II. Modelos de la
regresión múltiple y otros
Regresión múltiple
Modelos de la
Regresión múltiple
Lineal No Lineal
Lineal V. Dummy Interac.
Polinó- Raíz Log- Recípro- Expo-

mica. Cuadrada lineal ca nencial
Modelo lineal de la regresión
múltiple
El modelo lineal de la regresión es un

caso especial Modelo Lineal General. De
este modo, el componente determinista
(parte fija del modelo) está formado por un
conjunto de variables objeto de estudio en
la investigación (predictores) y el
componente aleatorio por un término de
error (falta de ajuste). ..//..
El análisis de la regresión múltiple es
utilizado cuando se pretende predecir una
variable dependiente continua de un
conjunto de variables independientes
(predictores). Cuando la variable
dependiente es dicotómica, se aplica, en
este caso, la regresión logística .
Las variables independientes usadas en la
regresión pueden ser cuantitativas o
cualitativas (dummy). ..//..
Por lo general, el análisis de la regresión
múltiple utiliza variables que son propias
de los contextos naturales, en oposición a
variables que son manipuladas
experimentalmente, aunque es posible
utilizar la regresión con esta clase de
variables. ..//..
Cabe tener en cuenta, por último, que con
el análisis de la regresión (en sentido
estricto) no pueden inferirse relaciones
causales entre las variables. Por lo
general, la terminología es la siguiente: X
predice a Y, y no puede decirse que X
causa a Y.
Modelo de la regresión simple
Y = b0 + b1X1 + e
Observación
Parte fija Parte aleatoria

(determinista) (error)
Descripción
En el modelo de la regresión simple, Y
denota la variable dependiente (criterio), X
la variable explicativa, ‘b0’ es el intercepto,
‘b1’ (la pendiente) denota el parámetro
estimado de la variable X y ‘e’ es el
término de error aleatoriamente
distribuido. Constituye, con el modelo de
la regresión múltiple, uno de los modelos
más utilizados en ciencias sociales.
Representación del modelo en
forma condensada
Y1 = b0 + b1X11 + e1
Y2 = b0 + b1X21 + e2
...............................
Yn = b0 + b1Xn1 + en
y = Xβ +ε (forma matricial
compacta)
Modelo de la regresión múltiple
Y = b0 + b1X1 + b2X2 + ... + bpXp + e
Forma simplificada:
Y = b0 + ΣpbpXp + e
Modelo de la regresión múltiple
Expresa un modelo de la regresión de p

variables como una serie de ecuaciones.
Las p ecuaciones agrupadas en un

sistema nos dan el modelo lineal general
familiar.
Los coeficientes b son conocidos como

coeficientes de la regresión parciales.
Representación del modelo en
forma condensada
Y1 = b0 + b1X11 + b2X21 + ... + bpXp1 + e1
Y2 = b0 + b1X12 + b2X22 + ... + bpXp2 + e2
................................................................
Yn = b0 + b1X1n + b2X2n + ... + bpXpn + en
y = Xb +ε
Modelos de la regresión de p
variables
Yi  b1  b 2 X 2i  b 3 X 3i    b p X pi   i
b1 - Intercepto
b2bp - Coeficientes de pendiente parciales
de la regresión
i - Término residual asociado con Ia ‘i’

observación
Supuestos del modelo de la
regresión
Normalidad
Linealidad
Homoscedasticidad
Multicolinealidad y singularidad
Normalidad
En principio, cabe pensar que los datos
tienen una distribución normal. Es posible
verificar este supuesto, construyendo
histogramas y comprobando la
distribución de los datos. A veces, en los
histogramas se incluye una línea que
representa la forma de la distribución con
la que es posible comprobar si la
distribución de los datos de desvía de
esta línea.
En otras palabras…
Los valores de la variable dependiente

son normalmente distribuidos para cada
posible combinación de los niveles de las
variables X.
Distribución normal de la
variable edad
Linealidad
Se asume una relación lineal recta entre las
variables independientes y la dependiente.
En la práctica, este supuesto no suele
verificarse, dado que los procedimientos de
regresión múltiple no suelen ser gravemente
afectados por leves desviaciones de este
supuesto. Si la curvatura de la relación es
evidente, se pueden transformar las
variables o recurrir de forma explícita a
componentes no lineales.
Definición de modelo lineal
Los modelos en que todos los parámetros

(b0,b1,…,bp) tienen exponentes de uno se
denominan modelos lineales.
Los modelos cuyos parámetros
(b0,b1,…,bp) tienen exponentes con
valores distintos de la unidad se
denominan modelos no-lineales.
Línea de ajuste del peso a la altura
libras/pulgadas
Height vs Weight
80
75
Weight (lbs)
70
65
60
55
115 125 135 145 155 165 175
Height (ins)
Líneas de Regresión (línea de
mejor ajuste)
Regression line for r =1.00 Regression line for r = - 1.00
12 12
Dependent variable
Dependent variable
10 10
8 8
6 6
4 4
2 2
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
Independent variable Independent variable
Cambio en la línea de mejor
ajuste
Regression line for r = 0.95 Regression line for r = 0.85
12 12
Dependent variable
Dependent variable
10 10
8 8
6 6
4 4
2 2
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
Independent variable Independent variable
Los supuestos de normalidad, linealidad y
homoscedasticidad pueden ser
examinados al inspeccionar el gráfico de
dispersión con los valores predichos de Y
(Ŷ ) en el eje X y los residuales (Y-Ŷ) en el
eje Y.
Homoscedasticidad
Las variancias de los valores de la

variable dependiente (datos del estudio),
para cada posible combinación de niveles
de la variable X, son iguales; es decir, la
variancia de los residuales es constante.
Multicolinealidad
La multicolinealidad significa que las

variables independientes están
correlacionadas. Supóngase que la altura
de una persona tiene dos predictores:
peso en libras y peso en kilos. Estos dos
predictores son redundantes, ya que el
peso es único independiente de si se mide
con libras o kilos. ..//..
Cuando ocurre esto significa que al menos
una de las variables predictoras es
totalmente redundante con otras. Los
indicadores estadísticos de este fenómeno
es conocido por tolerancia.
Relación entre variables
independientes
De tolerancia: el grado en que un predictor
puede ser predicho por otros predictores.
La tolerancia es igual a 1 cuando las
variables independientes no están
relacionadas.
Singular: De igual modo, la relación es
singular cuando un predictor es
perfectamente predecible de otros
predictores (tolerancia igual a cero).
Resumen supuestos del
modelo
 Normalidad
- Y valores son normalmente distribuidos por
cada X
- La distribución de probabilidad del error
debe ser normal
 Homoscedasticidad (variancia constante)
E(σi2)
Sigue…
Independencia de errores E(eiej)=0 (i ≠ j)

Linealidad
Las variables independientes son medidas
sin error
No debe darse una relación lineal exacta
entre cualquier subconjunto de variables
explicativas (perfecta multicolinialidad)
Otros modelos
Modelos con variables dummy
(categóricas) y de interacción
Variables dummy
Las variables ‘dummy’ (ficticias) se

refieren a las dimensiones en que se
tienen en cuenta dos valores o categorías.
Por lo general, se utilizan los valores 0 y 1
para representar una categoría u otra de
la variable (por ejemplo género).
Diseño experimental
En el diseño experimental, las variables

independientes suelen ser categóricas y, a
veces, dummy.
Suelen recibir el nombre de variables de
tratamiento.
El objetivo es comparar las medidas de
los grupos de tratamiento.
Se utiliza el modelo estadístico ANOVA.
Modelos con componentes no
aditivos o interactivos
Y = b0 + b1X1 + b2X2 + b12X1X2 + e
Y = b0 + Σj bjXj + ΣjΣk bjkXjXk + e

Modelos no lineales
Modelos cuyas variables tienen

exponentes, como por ejemplo, los
modelos polinómicos, exponenciales, etc.
Modelos polinómicos no lineales
Y = b0 + b1X1 + b2X1² + ... + bkX1k + e

Modelo de dos variables, k = 2
Y = b0 + b1X1 + b2X2 + b11X1² + b22X2² +

b12X1X2 + e
Forma simplificada:
Y = b0 + Σj bjXj + Σj bjjXj² + ΣjΣk bjkXjXk + e

¡Cuestión!
Hemos presentado un conjunto de

modelos estadísticos basados en la
regresión simple y múltiple (lineal y no
lineal). La cuestión que se nos plantea es
la siguiente:
¿Dados unos datos, cómo se procede
para ajustar un modelo estadístico?
Proceso de ajuste del modelo
estadístico
Selección del modelo
Estimación de parámetros
Inferencia estadística
Pasos para el ajuste
Selección (1)
Selección del modelo
El modelo de la regresión se selecciona

teniendo en cuenta:
a) la naturaleza de la variable
dependiente
b) cantidad de variables independientes o
explicativas (su estatus teórico) ..//..
c) Si la variable dependiente es
cuantitativa de distribución normal, se
aplica la regresión lineal. Si la variable
dependiente es categórica, entonces la
alternativa es la regresión logística.
d) Cuando se tiene una sola variable
independiente, el modelo de la regresión
es simple. Con dos o más variables
explicativas el modelo de la regresión es
múltiple.
Estimación de parámetros (2)
Parámetros del modelo
Sea el modelo:
Yi = bo + b1X1 + b2X2+ e
Los parámetros a estimar son:

b0 = intercepto o constante
b1 = efecto asociado a la primera variable X
b2 = efecto asociado a la segunda variable X
2e = variancia del error o residual ..//..
b1 se interpreta como un cambio en Y por
1 unidad de cambio de X1, siendo X2
constante. Este enunciado no es muy
claro cuando X1 y X2 no son
independientes.
Malentendido 1: ‘bj’ siempre mide el efecto
de Xj sobre E(Y), independiente de otras
variables X.
Malentendido 2: un valor ‘b’ significativo
estadísticamente establece una relación
de causa y efecto entre X e Y.
Resumen: interpretación de los
parámetros o coeficientes
Constante ‘b0’:
Intercepto o valor promedio de Y
cuando todas las Xj = 0.
 Pendiente ‘bj’:
Cambios estimados de Y por cada 1
unidad de cambio en Xj. Siendo
todas las otras variables constantes.
¡Cuestión!
Dada la importancia que tienen, para el

ajuste el modelo y la interpretación de los
resultados, los parámetros o coeficientes,
cabe distinguir entre los coeficientes ‘b’
(no estandarizados) y los coeficientes ‘b’
(beta o estandarizados). ..//..
El coeficiente ‘b’ es el cambio esperado en
Y por cada unidad de cambio en Xj,
cuando el resto de variables están
controladas.
El coeficiente ‘b’ es el cambio esperado en

Y en unidades de desviación estándar por
cada unidad estándar de cambio en Xj,
cuando el resto de variables están
controladas.
A propósito de la interpretación
de los coeficientes
Los parámetros ‘b’ tienen la ventaja de
que se interpretan en unidades de medida
originales.
Los coeficientes ‘b’ son directamente

comparables en cuanto a su importancia
en la variable Y. No pueden ser
interpretados en la escala de medida
original. ..//..
Ejemplo de ‘b’
El valor beta es una medida de la

intensidad con cada predictor influye en la
variable criterio. Es medida en unidades
de desviación estándar. Así, un valor beta
de 2.5 indica que un cambio en una
unidad estándar del predictor resulta un
cambio de 2.5 unidades estándar en la
variable criterio.
Inferencia y significación
estadística (3)
Pasos a seguir en la evaluación
del modelo
Una vez se ha especificado el modelo de

la regresión, se necesita conocer en qué
medida se ajusta a los datos.
En primer lugar, probaremos el ajuste del
modelo global de la regresión.
Luego, probamos la significación de cada
variable independiente.
Evaluación del modelo de la
regresión múltiple
Medidas de variación
Pruebas de significación
Medidas de variación
Coeficiente de determinación
múltiple (R2)
Proporción de variación en Y ‘explicada’
por todas las variables X tomadas en su
conjunto.
Jamás decrece cuando una nueva
variable X es introducida en el modelo.
La prueba de R2 = 0 expresa que todas las
variables X, de forma conjunta, no
explican la variación de Y.
Prueba de significación global
del modelo
Ejemplo práctico (datos
simulados)
Supongamos que se pretende estudiar el
impacto que sobre un Cuestionario de
Satisfacción Vital tienen las siguientes
variables:
• Edad
• Ingresos
• Cantidad hijos
• Salud
Pruebas de significación
En el contexto de la regresión pueden

seguirse, como se ha indicado, dos
estrategias de prueba:
a) Prueba del modelo completo, con todos
los coeficientes. Para ello se usa el
coeficiente de determinación (R2)
mediante el estadístico F.
b) Prueba de los coeficientes individuales
de la regresión con el estadístico t.
c) Cabe también la posibilidad de probar
un subconjunto de variables
independientes o modelos parciales.
Estadísticos para la prueba del
modelo total (a)
Para conocer el grado de ajuste del
modelo se utilizan dos estadísticos: R2
(coeficiente de determinación) y R2
ajustado.
R2: indica la proporción de variación en la
variable criterio (y) explicada por el
modelo. En suma, es un medida de la
bondad de la predicción de la variable
criterio por las variables predictoras.
..//..
R2 ajustado: el coeficiente de
determinación tiende, en cierto modo, a
sobre-estimar la bondad del modelo
cuando se aplica al mundo real. Por ello,
se calcula el coeficiente de determinación
ajustado que tiene en cuenta el número de
variables del modelo y el número de
observaciones (participantes) en que se
basa el modelo.
Inconvenientes de R2: no sirve para
comparar modelos.
R2 ajustado
Dicho de forma más simple:
El coeficiente de determinación R2 es
sensitivo a la magnitud de la muestra (n) y
a la cantidad de variables independientes
o regresores (p) con muestras pequeñas.
Si p es grande en relación a n, el modelo
tiende a ajustarse muy bien. Una medida
mejor de bondad de ajuste es calculada
como sigue:
cálculo
• n -1
• R2 ajustado= 1 - (--------------)(1-R2)
• n–p–1
Ventajas: refleja el tamaño de muestra y la

cantidad de variables independientes;
sirve para comparar modelos
Coeficiente de determinación
múltiple (R2)
Proporción de variación en Y ‘explicada’
por todas las variables X tomadas
conjuntamente.
El estadístico R2 mide la contribución total
de las X’s.
Variación explicada SC yy  SCE SCE

R 
2
  1
Variación total SC yy SC yy
Prueba de R2
Se ha señalado que cuando se prueban

todos los coeficientes de la regresión, se
utiliza el coeficiente de determinación. En
este caso, se prueba si hay una relación
lineal entre la variable criterio y las
variables independientes o predictores del
modelo.
Hipótesis a probar:
H0: b1=… bk= 0

H1: al menos un parámetro es no cero,
bk ≠ 0
Puesto que no hay un forma de
distribución de probabilidad para el
estadístico R2, se utiliza en su lugar el
estadístico F (ANOVA aplicado a la
regresión).
¿Qué tipo de prueba ha de
usarse?
La distribución utilizada se denomina distribución

de Fisher. El estadístico F es utilizado con esta
Curva de la distribución de F
Area = 
F,v ,v
1 2
reject H0
Prueba de significación total
Ejemplo hipotético
•H0: b1 = b2 = … = bp = 0 Prueba estadística:
•H1: Al menos una bI  0
F  23.751
 = .05
•gl= 4 y 14 Decisión:
•Valor crítico: Rechazo con  = 0.05
Conclusión:
 = 0.05 Hay evidencia de que al
menos una variable
independiente afecta a Y
0 3.11 F
Prueba de los coeficientes de la
regresión individuales (b)
 Siguiendo los pasos del programa SPSS:
• 1.Se calculan los coeficientes no estandarizados

• 2. Se calcula el error estándar de estos
coeficientes
• 3. Se calculan los coeficientes beta
• 4. Se calcula la t de los coeficientes no
estandarizados
• 5. Se obtiene la significación estadística de las t
Significación individual de los
coeficientes o parámetros no
estandarizados
Pruebas de hipótesis de los
parámetros estimados ‘b’
 Prueba de una cola Prueba de dos colas
H0: bj = 0 H0: bj = 0
H1: bj > 0, o bj < 0 H1: bj ≠ 0
La prueba es de una cola o dos según se

tenga una hipótesis unidireccional o
bidireccional (no importan que el valor del
estadístico sea mayor o menor que cero). ..//..

 Prueba estadística: t  b / s 
bj
Se utiliza la t de Student: el valor estimado del

parámetro partido por su error estándar.
 Región de rechazo de H0:
to > t (o to < t) |to| > t/2

Sea, por ejemplo, el siguiente
modelo
Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + e

Prueba de H0: bi = 0
H0: b1 = 0 (X1 no contribuye)

H1: b1 ≠ 0 (X1 contribuye)


Sigue…

Pruebas estadísticas
.
b1
t= s rechazar Ho if |t| > t ./2,n-k-1
b1
(1- ) 100% Intervalo de confianza

bi - t/2,n-k-1sbi to bi + t/2,n-k-1sbi
Significación coeficientes
individuales
El único parámetro estadísticamente

significativo es el asociado a la Variable
Ingresos.
t Test : Ejemplo hipotético
Test con un  = 0.05.
•H0: b2 = 0 Prueba estadística:

•H1: b2  0 t Test Statistic = 3.491
Decisión:
•gl = 14
Valores críticos: Reject H0 at  = 0.05
Rechazo H0 Rechazo H0 Conclusión:
.025 .025 Hay evidencia de un efecto
significativo.
-2.145 0 2.145 Z
Intervalos de confianza
 Algunos autores prefieren los intervalos de

confianza a la prueba t.
 El Intervalo de confianza se refiere al intervalo

que, a un cierto nivel de confianza, contiene al
parámetro estimando.
 Nivel de confianza es la "probabilidad" de que el

intervalo calculado contenga al verdadero valor
del parámetro.
El cálculo es como sigue:
b ± t(/2, g.l.)sb
Donde t es el valor de t tabulado para

/2, con los grados de libertad
asociados a la SCR (g.l. de la Suma de
Cuadrados Residual del ANOVA) y sb el
error estándar de b.
 El IC se representa por (1-)100%. Calculemos
el intervalo de confianza del 95% para un valor
estimado de b = 1.18 y sb = .28. Entrando en las
tablas de t para un alfa de .05/2 =.025 y, por
ejemplo, con 18 g.l. (t =2.101). El intervalo de
confinaza del 95% es
1.18 ± (2.101)(.28) = .59 y 1.77
Con el intervalo de confianza, la prueba de la

hipótesis nula, b = 0, viene a ser un caso
especial. Con el ejemplo presente, 0 no está
incluido en el rango y la hipótesis de b = 0 es
por lo tanto rechazada con un  = 0.05.
Prueba de significación de
modelos parciales
Prueba de modelos parciales (c)
 Se examina la contribución de un
conjunto de variables en relación a Y.
 La forma como se analiza la específica
contribución de las variables define el
procedimiento o método a seguir.
 Hay varios procedimientos que permiten
evaluar la contribución particular de cada
variable o predictor.
Sigue…
Hipótesis nula:
La variables del conjunto no mejoran
significativamente el modelo, cuando
todas las otras son incluidas.
Los modelos deben estimarse por
separado
Prueba estadística de partes
del modelo
Test H0: b1 = 0 en un modelo de 2 variables
SSR ( X 1 and X 2 ) - SSR ( X 2 )

F
MSE ( X 1 and X 2 )
De la tabla ANOVA de De la tabla ANOVA de
la regresión para la regresión para
Yi  b0  b1X 1i  b2 X 2i Yi  b0  b2 X 2i
Prueba estadística de partes
del modelo
Test H0: b1= b 2 = 0 en un modelo de 3 variables
( SSR( X 1 , X 2 , X 3 ) - SSR( X 3 ))/k

F
MSE ( X 1 , X 2 , X 3 )
De la tabla ANOVA de De la tabla ANOVA de
la regresión para la regresión para
Yˆi  b0  b1 X1i  b2 X 2i  b3 X 3i Yˆi  b0  b3 X 3i

Procedimientos de selección
de variables
Tipos de procedimientos
Procedimiento enter o global
Jerárquico (de acuerdo a un orden)

Método simultáneo (Enter)
En el método simultáneo, denominado en

el SPSS por ENTER, el investigador define
el conjunto de predictores que forman el
modelo. A continuación se evalúa la
capacidad de este modelo de predecir la
variable criterio.
Se trata, en definitiva, de probar el modelo
global o completo.
Métodos jerárquicos de
selección de variables
En los métodos jerárquicos las variables
entran en el modelo de acuerdo con un
orden determinado. El orden depende de
las consideraciones teóricas o de
resultados previos.
Desde la perspectiva estadística, el orden
de entrada de las variables en el modelo
viene determinado por la fuerza de su
correlación con la variable criterio.
En la actualidad hay diferentes versiones
de este método: stepwise selection,
forward selection, backward selection y
remove.
Stepwise selection
Cada predictor o variable independiente

es entrando de forma secuencial y su
valor es evaluado. Si añadir el predictor
contribuye al modelo, entonces es
retenido y el resto de variables son
entonces reevaluadas para probar si
siguen contribuyendo al éxito del modelo.
Si no contribuyen significativamente son
eliminadas.
Sigue…
A cada paso del proceso, se observa si la

variable menos significativa del modelo
puede ser removida debido que a su valor
F, FMIN, es menor que el especificado o
valor F por defecto.
Sigue…
Si ninguna variable puede ser removida,

se verifica si la más significativa que no
está en el modelo puede ser añadida dado
que su valor F, FMAX, es el mayor que el
especificado o por defecto.
El procedimiento se para cuando no se
puede añadir o eliminar ninguna otra
variable.
Forward selection
Al igual que el procedimiento stepwise, las

variables son entradas secuencialmente
en el modelo.
La primera variable considerada para
entrar en el modelo es la que tiene una
mayor correlación positiva o negativa con
la variable dependiente.
Sigue…
La variable es entrada en el modelo, sólo

cuando satisface el criterio de entrada
(tiene un valor F mayor que el criterio).
El procedimiento se para cuando no hay
más variables que se ajusten el criterio de
entrada.
Backward selection
Se empieza con todas las variables del

modelo y se elimina la menos útil a un
tiempo. Una variable, cuyo valor p
asociado a la F parcial es mayor que un
valor prescrito, PMIN, es la menos útil y
ha de ser eliminada del modelo. El
proceso continúa hasta que no puede
eliminarse ninguna otra variable de
acuerdo con el criterio propuesto.
Sigue…
Una vez eliminada la variable del modelo,

no puede ser entrada de nuevo en un
paso posterior.
Remove
Es un procedimiento de selección de

variables en que se eliminan todas las
variables de un bloque en un solo paso.
A modo de resumen
Finalizada la prueba de significación del

modelo o de los coeficientes, es posible
llevar a cabo un análisis de residuales de
forma gráfica (mediante los
correspondientes plots) o bien utilizando la
prueba de Durbin-Watson.
Verificación de los supuestos
del modelo
Multicolinealidad
Estadísticos de colinealidad
Tolerancia y VIF (variancia
inflation factors)
 Tolerancia: Una primera medida para para
probar la colinealidad o no dependencia lineal
entre los regresores (Tp = 1 – Rp2).
 Cuando tiene un valor máximo de 1, la variable
no tiene ningún grado de colinealidad con las
restantes, Un valor 0 indica que la variable es
una combinación lineal perfecta de otros
regresores. Es deseable que, en general, sea
mayor a .40
Sigue…
 VIF (variance inflation factor): a medida que es
mayor la multicolinealidad, en un de los
regresores, la variancia de su coeficiente
comienza a crecer. La multicolinealidad infla la
variancia del coeficiente (VIFp= 1/(1-Rxp2).
 La VIF tomará un valor mínimo de 1 cuando no

hay colinealidad y no tendrá límite superior en el
caso de multicolinealidad.
Sigue..
En presencia de multicolinealidad, una

solución lógica consiste en eliminar del
modelo aquellas variables con más alto
VIF (o más baja tolerancia).
Diagnósticos de colinealidad
 Dimensiones: factores diferentes que se hallan
en el conjunto de variables independientes.
 Autovalores: los valores próximos a 0 indican
colinealidad.
 Índices de condición: raíz cuadrada
(autovalormayor/autovalor). Valores por encima
de 15 indican posibles problemas de
colinealidad
 Proporciones de variancia: proporción de la
variancia de cada coeficiente de la regresión
parcial bj que está explicada por cada factor.
Sigue…
Proporciones de variancia: Hay problema

de colinealidad si una dimensión (de
índice de condición alto) explica gran
cantidad de la variable de dos o más
variables.
Resto de supuestos
Pruebas del resto de supuestos
del modelo
Prueba de la linealidad
Pruebas de independencia
Prueba de homoscedasticidad
Prueba de normalidad
Scatter- plot (gráfico de
dispersión)
 El scatter plot nos permite obtener respuesta a
la siguientes cuestiones:
1. ¿Las variables X e Y están relacionadas?
2. ¿Las variables X e Y están linealmente
relacionales?
3. ¿Las variables X e Y están relacionadas no-
linealmente?
4. ¿La variación en el cambio de Y depende de
X?
5. ¿Hay outliers (valores extremos o atípicos)?
Variables listadas en el SPSS
 DEPENDEN : variable dependiente.

 ZPRED: valores pronósticos tipificados; valores
pronósticos divididos por su desviación estándar
(media de 0 y desviación 1).
 ZRESID: residuos tipificados.
Sigue…
 DRESID: residuos eliminados; es decir, al
efectuar los pronósticos se elimina de la
ecuación el caso sobre el que se efectúa el
pronóstico.
 ADJPRED: pronósticos ajustados; es decir,
valores pronosticados sin incluir el caso
pronosticado.
 SRESID: residuos estudentizados; divididos por
su desviación estándar y se distribuyen según la
t de Student.
 SDRESID: residuos estudentizados
Interpretando los plots de
valores predichos y residuales
 Los plots de los valores predichos, observados y
residuales son esenciales en determinar si el
modelo ajustado satisface los ‘cuatro
presupuestos de la regresión lineal:
1. Linealidad de la relación entre la variable
dependiente e independientes.
2. Independencias o no autocorrelación de los
errores.
3. Homoscedasticidad o variancia constante de
los errores.
4. Normalidad de la distribución del error.
1. Linealidad
 Se obtiene del plot de los valores observados y
predichos versus la variable independiente. Si la
relación no es lineal, la dispersión (scatter) de
los puntos mostrará una desviación sistemática
de la línea de regresión.
 Con el modelo de la regresión múltiple es mejor
generar un gráfico simple (plot) de los valores
observados versus los valores predichos.
Teóricamente, en un gráfico de observados vs.
predichos los puntos deberían moverse entre
torno a la línea recta diagonal.
Sigue…
El gráfico de valores residuales vs. valores

predichos es esencialmente el mismo que
el anterior, a excepción de que la línea de
referencia es horizontal más que de 45
grados.
2) Independencia
Uno de los supuestos básicos del MRL

(modelos de la regresión lineal) es la
independencia entre los residuos. El
estadístico de Durbin-Watson aporta
información sobre el grado de
independencia existente entre ellos
El estadístico de Durbin-Watson
El estadístico de Durbin-Watson (DW)

proporciona información sobre el grado de
independencia entre los residuales. El
estadístico DW varía entre 0 y 4, y toma el
valor 2 cuando los residuales son
independientes. Valores menores que 2
indica autocorrelación positiva. Podemos
asumir independencia entre los residuales
cuando DW toma valores entre 1.5 y 2.5
Residual Analysis: Autocorrelation
 Durbin-Watson Test for Autocorrelation

 Statistic
n
 (et  et 1)2
d  t 2
n
 et2
t 1
 The statistic ranges in value from zero to four.

 If successive values of the residuals are close
together (positive autocorrelation), the statistic
will be small.
 If successive values are far apart (negative auto-
 correlation), the statistic will be large.
 A value of two indicates no autocorrelation.
Sigue..
El valor del residual se calcula por
ei = Yi - Ŷi
3) Homoscedasticidad
En el cuadro de diálogo de Gráficos de la

regresión lineal del SPSS, se obtienen
una serie de variables listadas para
obtener diferentes gráficos de dispersión:
Prueba de homoscedasticidad
 Los valores ZRESID se trasladan al eje Y y los

valores ZPRED al eje X.
 La variación de los residuos debe ser uniforme

en todo el rango de valores pronosticados; es
decir, el tamaño de los residuos es
independiente del tamaño de los pronósticos.
Por lo tanto, el gráfico de dispersión no debe
mostrar ninguna pauta de asociación entre los
pronósticos y los residuos.
4) Prueba de normalidad
A) Mediante el histograma de los residuos

tipificados. La curva se construye con
media 0 y un desviación típica de 1.
B) Gráfico de probabilidad normal. En el
eje de las abscisas se representa la
probabilidad acumulada de cada residuo y
en de las ordenadas la probabilidad
acumulada teórica o esperada.
Sigue…
 Teóricamente este gráfico debería ser una línea
recta diagonal. Si los datos se inclinan hacia
arriba o hacia abajo, indica una distribución
asimétrica (sesgada).
 Si el gráfico de probabilidad normal muestra una
línea recta, es razonable asumir que los datos
observados proceden de una distribución
normal. Si los puntos se desvían de la línea
recta, hay evidencia en contra de la distribución
normal e independiente.
Correlaciones
Correlaciones
Correlaciones de orden cero: Se

presentan en la matriz de correlaciones
simples entre todas las variables,
incluyendo la variable de control. Se trata
de la correlación ordinaria entre dos
variables, no controlando ninguna (cero)
otra variable.
Sigue…
Correlación parcial: La correlación que

hay entre dos variables después de
remover la correlación debida a su
asociación con otras variables. Es decir, la
correlación entre la variable dependiente y
una variable independiente cuando los
efectos lineales de las otras variables
independientes del modelo han sido
removidos. Neutralizando su efecto sobre
la dependiente e independiente.
Sigue…
 Part Correlation (semiparcial). Es la posible

relación entre un variable dependiente e
independiente, controlando la relación que esta
variable independiente pueda tener con otra u
otras variables independientes. Se neutraliza los
efectos lineales de una variable independiente
del resto de variables independientes.
 Está relacionada al cambio en R al cuadrado
cuando una variable es añadida a la ecuación.
 Es conocida, también, por correlación
semiparcial.
Sigue…
 El procedimiento de Correlaciones Parciales
calcula los coeficientes de correlación parcial
que describen la relación lineal entre dos
variables mientras se controlan los efectos de
una o más variables adicionales. Las
correlaciones son medidas de asociación lineal.
Dos variables pueden estar perfectamente
correlacionadas, pero si la relación es no linear,
un coeficiente de correlación no es una
estadístico apropiado para medir su asociación.
Fin parte teórica

Analisis de La Regresion (Teoria)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de La Regresion (Teoria)

Cargado por

Copyright:

Formatos disponibles

Master Intervención

En un sentido amplio, se refiere a todos

 Datos: observaciones realizadas de los

Observación Escala Dato científico

La conversión de una observación directa en

Sistemas de reunión de datos

 Las tablas se usan en los informes

 Con los gráficos se consigue una

El histograma de frecuencias es un gráfico que

Es una forma alternativa de representa el

Las variables se cuantifican al asignar

El proceso de asignación de los números

Nominal 1 = varón 2 = hembra

Ordinal los valores representan el orden en

De intervalo la distancia entre los valores se

De razón cuando además de la constancia del

Nominal Cualitativa No-paramétrico

De intervalo Prueba no paramétrica y

Datos métricos o gaussianos

Datos no métricos o no gaussianos

Los diseños son transversales y

¿Cuál es la relación entre diseño (estudio)

Se ha visto la secuencia entre las tres

Datos métricos o cuantitativos (de

Datos no métricos o categóricos (de

Diseños experimentales y cuasi-

Datos cuantitativos Estrategia Datos cualitativos

ANOVA Transversal Longitudinal TC

En el contexto no experimental

El objetivo es poder predecir la variable

Una vez recogidos los datos, ¿qué hacer

V.Dep. Parte fija Parte aleatoria

El modelo estadístico, o ecuación de

Considerada esta ecuación como un

Los valores de la variable X

a) Hay una correlación entre el estilo de

Los valores de la variable X

a) Leer dos veces una lista de ítems

Se plantean por intereses teóricos o

Definen cómo se relacionan las variables

Suelen ser asociativas y causales

Las hipótesis estadísticas se establecen

Mediante los datos de muestra podemos

En investigación social, interesa más los

H0: bi = 0, entonces no hay relación lineal

H1: bi ≠ 0, se infiere que hay una relación

En teoría estadística se asume,

Decisión Verdadera Falsa

Rechazo H0 Error Tipo I No error

Aceptación H0 No error Error Tipo II

Significativo p < α NA(H0)

No significativo p > α A(H0)

Si p > 0.05 A(H0)

Supongamos que la prueba de la hipótesis

Las actividades propias de la

En la generalización se evalúa el alcance

Lineal V. Dummy Interac.

Polinó- Raíz Log- Recípro- Expo-

El modelo lineal de la regresión es un

Parte fija Parte aleatoria

Y = b0 + b1X1 + b2X2 + ... + bpXp + e

Expresa un modelo de la regresión de p

Las p ecuaciones agrupadas en un