TEMA 8 Diseños y Análisis de Datos II

ANÁLISIS DE REGRESIÓN
- Se puede aplicar a situaciones en las que manipulamos condiciones experimentales (dosis de una droga, tiempo de
exposición a un E) o en diseños ex post facto/después: estudia el fenómeno tal como se produce, sin control sobre las VV,
no se pueden asignar sujetos a diferentes condiciones o niveles VI (CI, edad, nivel ingresos).
- Fue introducido por Galton: ley universal, estudio rasgos físicos de los descendientes (Y) a partir padres (X) (descendientes
comparten los rasgos pero en media, un grado menor “hijos de padres altos serán altos, pero no tan altos”); apoyado por
Pearson (altura hijo 85 cm + 0,5 por altura padre).
- Los análisis de regresión utilizan el diagrama de dispersión.
REGRESIÓN SIMPLE
Simple: solo hay 1 VI. Cuando una VI/predictora (X) aporta info sobre VD/criterio (Y) ambas están relacionadas, la relación
puede ser lineal, potencial, exponencial, polinómica/logarítmica.
Función lineal que se da a partir de un conjunto de datos observados en VI nos permite predecir los valores de VD.
Puntuaciones Diferenciales: X-Ⴟ=x Y-Ῡ=y Y´=B (X-Ⴟ) Puntuaciones típicas: Z´y=RxyZx Puntuaciones directas: Y´= B1 + B0
La recta de regresión: Estimación insesgada de VD, pues: la media de valores pronosticados es igual a la media de los
valores observados ∑Yi/n = ∑Ῡi/n
Condiciones inferencias VD: los errores son independientes con distribución normal, media 0 y varianza constante. Es decir:
- Independencia de las observaciones; y de los valores estimados (Ῡ) y los errores de estimación (ε aleatorios: ry´ε).
- Homocedasticidad/igualdad de varianzas y Distribución normal.
Y= βo + Β ּ x+ε  Y= βo + [(β1X1)+ (β2X2)+ (βPXQ)] »(Y´=α + (bX))
β= pendiente de la recta (coeficientes de regresión) cuantifica el βo/α= ordenada (constante en la regresión) señala
incremento que se produce en la estimación de VD (Y´) cuando VI (X) el punto que corta el eje, es decir el valor de Y
aumenta en una unidad. cuando X=0.
𝑆𝑦 𝑛∑𝑋𝑌−∑𝑋∑𝑌 Bo= Ῡ- B Ⴟ
ּ
B= 𝑟𝑥𝑦 *si no tengo Sxy: B=
𝑆𝑥 𝑛∑𝑥 2 −(∑𝑥)²
ε= error residual (ε= Y-*Si no me dan: La correlación X,Y oscila entre -1 y 1; Rxy=0 no hay correlación.
Y´) Y/medido e - Media: Ⴟ= ∑X/ n, con Ῡ igual Fuerza: si se acerca a 0 débil; si se acerca a -1 o 1 es fuerte.
Y´/pronosticado casi y también saber (Ῡ= Y´) 𝑆𝑥𝑦 𝑛∑𝑋𝑌−∑𝑋∑𝑌
nunca coincidirán. - SX2/Varianza: (Xi -Ⴟ)²/n rxy= 𝑆𝑥ּ 𝑆𝑦
o también: rxy=
√𝑛∑𝑥 2 −(∑𝑥)2 √𝑛∑𝑌 2 −(∑𝑌)²
√= S/desviación típica.
Estimación Mínimo
- S/desviación, sí me dan r²xy/ Sxy= covarianza=
∑𝑋𝑌
- ႿῩ (covarianza es un indicador débil)
Cuadrática: buscar B0 y 𝑛
coef de determinación:
B1 de tal manera que se
1- r²xy  S²yּ (1 r²xy)= S2e  *Si me piden cov. y no tengo X, Y pero tengo rxy: Sxy= rxy ּ Sx ּ Sy
minimice el error.
S2Y = S2e/ 1 r²xy  Raíz = S *Si me piden ryx y no tengo X, Y, Sxy, calculo con b: rxy= b ּ
𝑆𝑥
∑ε²= ∑ (Y-Y´)² 𝑆𝑦
Ŝy²=cuasivarianza de y (S² muestral insesgada): ∑(Y-Ῡ)²/n-1

Si nos dan en un ejercicio X5; Y6» primero hay que calcular los valores: XY (5X6=30); X²=25; Y²=36
BONDAD DE AJUSTE
- Cómo de explicativa es la recta respecto a los datos sobre los que se ha ajustado. Es decir, poner prueba su significación.
- Representar varianza Diagrama de Venn.
- Variabilidad Total de Y: ∑ (Y-Ῡ)²= ∑ (Y´-Ῡ)² + ∑ (Y-Y´)²
SC(Total/Y) =SC (Reg) + SC (Errores)  S2y= S2y´ + S2e
Regresión: está presente en la media Ῡ; Residual: está presente en la puntuación
predicha Y´.
Tras la estimación se acepta un error (Y=Ῡ) en la VD. Con relación lineal la varianza de VD (S²y) se descompone en dos
varianzas: pronóstico (S²y´) y la de error/residuos (S2e).
Varianza de los errores de Coeficiente de Determinación: Coeficiente de Alineación: 1- r²xy gl=2
pronóstico: S2e= S2Y ּ (1- r²xy) Parte explicada de la varianza. r²xy/R² gl=1 Es varianza no explicada, el residuo de la
Proporción de varibilidad VD imputada por la variabilidad de VD.
∑(𝑌−𝑌´)²
S2e= 𝑛−𝑝−1
S2e= S2 YּX variabilidad de la VI.(Proporción en que se
reduce el error de la VD cuando empleamos la
Error típico-σε: estimación
recta de regresión para estimarla)
de la población a partir de
*Si tengo
la muestra: ej: r²xy= 0,36; 1- 0,36= 0,64 es error
σ rxy hacer
∑(𝑌−𝑌´)²
ε=√ 𝑛−𝑝−1 p=1 (nº VI) la raíz.
CONTRASTE DE HIPÓTESIS SOBRE COEFICIENTE DE CORRELACIÓN
Contraste sobre coeficiente de Relación: Ej:
Ajuste de correlación entre VD-VI
Se necesita conocer la distribución ∑X=80
muestral de rxy (estimador sesgado del ∑Y=430
parámetro poblacional). Su distrib. n=10
muestral y diferente bajo las rxy=
hipótesis: H0 : ᴘxy =0 (p=rxy) 0,908
Según H0 no hay correlación VD-VI
H0 : ᴘxy =0; H1 : ᴘxy ≠0
- 2 VV X,Y con distribución normal conjunta y relacionadas linealmente.
- El coeficiente de correlación no tiene intervalo de confianza.
- t´Student: contraste bilateral.
- F: unilateral derecho.
*Hay relación T²=F
B1=3,46
Contraste para los coeficientes
t= B1-0/ σB1
de la regresión B, B0 (ANOVA*):
determinar si la pendiente (B) y
el intercepto (B0) son diferentes
de 0.
Es decir, si la pendiente es
significativamente diferente de
una línea horizontal.
H0: B= 0; H1: B≠ 0
-
INTERVALO CONFIANZA-PENDIENTE:
Conocido B1 se le suma/resta el “error máximo de
estimación” (Si fuera ordenada se le hace a B0 lo
mismo).
ANOVA DE REGRESIÓN *
Tenemos 3 factores:
SC gl MC
REGRESIÓN
∑ (Y´-Ῡ)² 0,908²x 1660 =1368,64  r² ּ SCT 1 SCreg/1
(Buena) reg
n-2 MCerror= SCres/n-2
RESIDUO/ res ∑ (Y-Y´)² 1660-1368,64= 291,36  “lo mismo cuasivarianza del
ERROR (Mala) SCT – Screg o (1-r²) ּ SCT error Ŝ²ε”
n-1 MCT= ∑ (Y-Ῡ)²/n-1
TOTAL/Y ∑ (Y-Ῡ)² 1660  SCreg+ SCerror  ∑Y²- nῩ² “lo mismo cuasivarianza de Ŝ²y´”
𝑀𝐶 𝑟𝑒𝑔 𝑟²
F= 𝑀𝐶 𝑟𝑒𝑠 Con gl 1; n-2 Con rxy puedo saber F: (1−𝑟2 )
y si a F le hago la raíz saco t (T²=F Si me dan F=36 hago su raíz=6t)
(𝑛−2)
REGRESIÓN MÚLTIPLE
Diferencia con la simple: relaciona una VD con 2VI (relación X1 con X2).
Múltiple: Y´= β1X1 + β2X2 + β0+ε (Donde B1 y B2 son los coeficientes de regresión parcial de X1, X2)
Ajuste del modelo, Medidas de asociación:
- R² no es un estimador insesgado de P² (a menor tamaño de la muestra, mayor variación de la VI a la VD)*.
𝑛−1
El estimador insesgado de P² es el coeficiente de determinación ajustado: Ř²y.12=1- (1-R²y.12)𝑛−𝑝−1 (p=nº VI)
*Otro método de ajuste es el Error típico, de modo que si la R² aumenta, el σε disminuye.
Correlación Bivariada/Semiparcial: 2 a 2 o de orden 0.

- Se sitúa en el contexto exclusivo del ARM, explicando la contribución independiente de
cada VI a la VD.
- 3 relaciones: Rx1y; Rx2y; Rx1 x2 (son simples), fórmula (ARS)» (En X, pongo X1 o X2; en Rx1x2 X pongo 1, en Y pongo 2).
- Sin embargo, esta correlación no es pura (no refleja la verdadera influencia de cada VI “porque se hace por separado”) y
dará una suma de correlación mayor (no se sabe qué parte de varianza de la VD es capaz de explicar independientemente
de cada una de las VI).
- Coeficiente de correlación semiparcial: mide las relaciones entre una VI-VD al margen del influjo
que las demás VI del modelo puedan tener sobre dicha VI. Analiza por tanto la contribución
aislada de cada VI (a=Sr1 elimina la influencia de X2 en X1 y c=Sr2 de X1 en X2). b=proporción de
varianza conjunta. r2y1=a+b ; r2y2= c+b
- Los cuadrados de los coeficentes de determinación semiparcial: explican la proporción de
varianza de la VI atribuible a cada VD.
- 1-Sr² coeficiente de alineación semiparcial.
Coeficiente de correlación Parcial: técnica de control estadístico que cuantifica la relacion entre 2 VV eliminando el efecto
de otras variables extrañas (3º VV) tanto en la VI como en la VD, es decir, es una correlación entre
residuos. Es pura.
- Coeficentes de determinación parcial es proporción de VD no asociada a X2 que sí está asociada
a X1 (viceversa):
- C. de Alineación parcial: 1- Pr².
EJERCICIOS Y SITUACIONES
SITUACIÓN 1_ Un colegio estudia la relación entre la calificación de este curso (Y) y la del año anterior (X). AR
SC gl MC F PROBABILIDAD
REGRESIÓN 28,097 1 28,097 7,09 ≤5,987  0,95
RESIDUAL 23,778 6 3,963 Gl 1; 6
TOTAL/Y 51,875 7 7,411
1º completo el cuadro: 3) ¿Proporción de varianza Y explicada por X? =28,097/51,875=0,542.
- gl de total son n-1: 8-1=7
- SCT: SCreg+ SCres 28,097 + 23,778= 51,875
- MCres: SCres/gl res  23,778/6= 3,963
- MCT=SCT/gl 51,875/7= 7,411
- F: MCreg/ MCres 28,097/ 3,963 = 7, 089 4) Con n.c 0,95 ¿valor de F teórica?, por encima del cual se debería
rechazar la hipótesis de que no hay relación lineal signif. X-Y: 5,987
1) ¿Tamaño de la muestra? Los gl de la residual 5) Supuesto básico de ARS: a_ los pronósticos y errores están
son (n-2): 6+2=8. correlacionados; b_ las distribuciones condicionadas de los errores
2) ¿Varianza muestral insesgada de Y? Ŝ²Y= ∑ deben tener una distribución normal; c_ no deben estar relacionadas la
(Y-Ῡ)²/N-1= MCT= 7,411. VI-VD.

TEMA 8 Diseños y Análisis de Datos II

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TEMA 8 Diseños y Análisis de Datos II

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DE REGRESIÓN

Ŝy²=cuasivarianza de y (S² muestral insesgada): ∑(Y-Ῡ)²/n-1

Correlación Bivariada/Semiparcial: 2 a 2 o de orden 0.

- C. de Alineación parcial: 1- Pr².

También podría gustarte