Documentos de Académico
Documentos de Profesional
Documentos de Cultura
- Se puede aplicar a situaciones en las que manipulamos condiciones experimentales (dosis de una droga, tiempo de
exposición a un E) o en diseños ex post facto/después: estudia el fenómeno tal como se produce, sin control sobre las VV,
no se pueden asignar sujetos a diferentes condiciones o niveles VI (CI, edad, nivel ingresos).
- Fue introducido por Galton: ley universal, estudio rasgos físicos de los descendientes (Y) a partir padres (X) (descendientes
comparten los rasgos pero en media, un grado menor “hijos de padres altos serán altos, pero no tan altos”); apoyado por
Pearson (altura hijo 85 cm + 0,5 por altura padre).
- Los análisis de regresión utilizan el diagrama de dispersión.
REGRESIÓN SIMPLE
Simple: solo hay 1 VI. Cuando una VI/predictora (X) aporta info sobre VD/criterio (Y) ambas están relacionadas, la relación
puede ser lineal, potencial, exponencial, polinómica/logarítmica.
Función lineal que se da a partir de un conjunto de datos observados en VI nos permite predecir los valores de VD.
Puntuaciones Diferenciales: X-Ⴟ=x Y-Ῡ=y Y´=B (X-Ⴟ) Puntuaciones típicas: Z´y=RxyZx Puntuaciones directas: Y´= B1 + B0
La recta de regresión: Estimación insesgada de VD, pues: la media de valores pronosticados es igual a la media de los
valores observados ∑Yi/n = ∑Ῡi/n
Condiciones inferencias VD: los errores son independientes con distribución normal, media 0 y varianza constante. Es decir:
- Independencia de las observaciones; y de los valores estimados (Ῡ) y los errores de estimación (ε aleatorios: ry´ε).
- Homocedasticidad/igualdad de varianzas y Distribución normal.
Y= βo + Β ּ x+ε Y= βo + [(β1X1)+ (β2X2)+ (βPXQ)] »(Y´=α + (bX))
β= pendiente de la recta (coeficientes de regresión) cuantifica el βo/α= ordenada (constante en la regresión) señala
incremento que se produce en la estimación de VD (Y´) cuando VI (X) el punto que corta el eje, es decir el valor de Y
aumenta en una unidad. cuando X=0.
𝑆𝑦 𝑛∑𝑋𝑌−∑𝑋∑𝑌 Bo= Ῡ- B Ⴟ
ּ
B= 𝑟𝑥𝑦 *si no tengo Sxy: B=
𝑆𝑥 𝑛∑𝑥 2 −(∑𝑥)²
ε= error residual (ε= Y-*Si no me dan: La correlación X,Y oscila entre -1 y 1; Rxy=0 no hay correlación.
Y´) Y/medido e - Media: Ⴟ= ∑X/ n, con Ῡ igual Fuerza: si se acerca a 0 débil; si se acerca a -1 o 1 es fuerte.
Y´/pronosticado casi y también saber (Ῡ= Y´) 𝑆𝑥𝑦 𝑛∑𝑋𝑌−∑𝑋∑𝑌
nunca coincidirán. - SX2/Varianza: (Xi -Ⴟ)²/n rxy= 𝑆𝑥ּ 𝑆𝑦
o también: rxy=
√𝑛∑𝑥 2 −(∑𝑥)2 √𝑛∑𝑌 2 −(∑𝑌)²
√= S/desviación típica.
Estimación Mínimo
- S/desviación, sí me dan r²xy/ Sxy= covarianza=
∑𝑋𝑌
- ႿῩ (covarianza es un indicador débil)
Cuadrática: buscar B0 y 𝑛
coef de determinación:
B1 de tal manera que se
1- r²xy S²yּ (1 r²xy)= S2e *Si me piden cov. y no tengo X, Y pero tengo rxy: Sxy= rxy ּ Sx ּ Sy
minimice el error.
S2Y = S2e/ 1 r²xy Raíz = S *Si me piden ryx y no tengo X, Y, Sxy, calculo con b: rxy= b ּ
𝑆𝑥
∑ε²= ∑ (Y-Y´)² 𝑆𝑦
INTERVALO CONFIANZA-PENDIENTE:
Conocido B1 se le suma/resta el “error máximo de
estimación” (Si fuera ordenada se le hace a B0 lo
mismo).
ANOVA DE REGRESIÓN *
Tenemos 3 factores:
SC gl MC
REGRESIÓN
∑ (Y´-Ῡ)² 0,908²x 1660 =1368,64 r² ּ SCT 1 SCreg/1
(Buena) reg
n-2 MCerror= SCres/n-2
RESIDUO/ res ∑ (Y-Y´)² 1660-1368,64= 291,36 “lo mismo cuasivarianza del
ERROR (Mala) SCT – Screg o (1-r²) ּ SCT error Ŝ²ε”
n-1 MCT= ∑ (Y-Ῡ)²/n-1
TOTAL/Y ∑ (Y-Ῡ)² 1660 SCreg+ SCerror ∑Y²- nῩ² “lo mismo cuasivarianza de Ŝ²y´”
𝑀𝐶 𝑟𝑒𝑔 𝑟²
F= 𝑀𝐶 𝑟𝑒𝑠 Con gl 1; n-2 Con rxy puedo saber F: (1−𝑟2 )
y si a F le hago la raíz saco t (T²=F Si me dan F=36 hago su raíz=6t)
(𝑛−2)
REGRESIÓN MÚLTIPLE
Diferencia con la simple: relaciona una VD con 2VI (relación X1 con X2).
Múltiple: Y´= β1X1 + β2X2 + β0+ε (Donde B1 y B2 son los coeficientes de regresión parcial de X1, X2)
Ajuste del modelo, Medidas de asociación:
- R² no es un estimador insesgado de P² (a menor tamaño de la muestra, mayor variación de la VI a la VD)*.
𝑛−1
El estimador insesgado de P² es el coeficiente de determinación ajustado: Ř²y.12=1- (1-R²y.12)𝑛−𝑝−1 (p=nº VI)
*Otro método de ajuste es el Error típico, de modo que si la R² aumenta, el σε disminuye.
Coeficiente de correlación Parcial: técnica de control estadístico que cuantifica la relacion entre 2 VV eliminando el efecto
de otras variables extrañas (3º VV) tanto en la VI como en la VD, es decir, es una correlación entre
residuos. Es pura.
- Coeficentes de determinación parcial es proporción de VD no asociada a X2 que sí está asociada
a X1 (viceversa):
EJERCICIOS Y SITUACIONES
SITUACIÓN 1_ Un colegio estudia la relación entre la calificación de este curso (Y) y la del año anterior (X). AR
SC gl MC F PROBABILIDAD
REGRESIÓN 28,097 1 28,097 7,09 ≤5,987 0,95
RESIDUAL 23,778 6 3,963 Gl 1; 6
TOTAL/Y 51,875 7 7,411
1º completo el cuadro: 3) ¿Proporción de varianza Y explicada por X? =28,097/51,875=0,542.
- gl de total son n-1: 8-1=7
- SCT: SCreg+ SCres 28,097 + 23,778= 51,875
- MCres: SCres/gl res 23,778/6= 3,963
- MCT=SCT/gl 51,875/7= 7,411
- F: MCreg/ MCres 28,097/ 3,963 = 7, 089 4) Con n.c 0,95 ¿valor de F teórica?, por encima del cual se debería
rechazar la hipótesis de que no hay relación lineal signif. X-Y: 5,987
1) ¿Tamaño de la muestra? Los gl de la residual 5) Supuesto básico de ARS: a_ los pronósticos y errores están
son (n-2): 6+2=8. correlacionados; b_ las distribuciones condicionadas de los errores
2) ¿Varianza muestral insesgada de Y? Ŝ²Y= ∑ deben tener una distribución normal; c_ no deben estar relacionadas la
(Y-Ῡ)²/N-1= MCT= 7,411. VI-VD.