Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
Regresión lineal y correlación
Contenidos del Capitulo 13
•Análisis de correlación
•Coeficiente de correlación
•Características del coeficiente de correlación
•Coeficiente de determinación
•Prueba de importancia
•Análisis de Regresión
•Error estándar de estimación
•Supuestos
Análisis de Correlación
X
DIAGRAMAS DE DISPERSIÓN ESTADÍSTICA
Disposición:
Eje de abscisas: variable independiente (X)
Eje de ordenadas: variable dependiente (Y)
X
EL COEFICIENTE DE CORRELACIÓN LINEAL DE
PEARSON
Su cálculo se basa en
la expresión:
Coeficiente de Correlación
Coeficiente _ de _ correlación : r
( X X )(Y y)
(n 1) s x s y
Interpretación
Coeficiente _ de _ correlación : r
( X X )(Y y)
(n 1) s x s y
10
El Coeficiente de determinación
11
Prueba de importancia del coeficiente de
correlación.
r n2
t con n - 2 grados de libertad
1 r 2
12
Análisis de regresión
Ecuación para expresar la relación lineal (recta) entre dos variables. Y estimar
Valor de la variable dependiente con una base de valores seleccionados de la variable
Independiente.
13
Análisis de regresión
Yˆ a bx
donde
Yˆ , es el valor del estimado de la variable Ypara un valor de X seleccionado.
a es la interaccion Y. Es el valor estimado de Y cuando x 0.
b es la pendiente de la recta, o el cambio promedio en Ŷ `por cada cambio de
una unidad (aumento o reducción) en la variable independiente X.
X es cualquier valor de la variable independiente que se seleccione.
y = a + bx
Análisis de regresión
S y* x
(Y Y ) 2
n2
16
Supuestos
17
Intervalos de confianza e intervalos de
predicción
ˆ 1 ( X X )2 ˆ 1 ( X X )2
Intervalo de Confianza : Y t ( s yx ) Intervalo de Predicción : Y t ( s yx ) 1
n ( X X )2 n ( X X )2
18
Coeficiente de determinación
(Y Y ) 2 (Y Yˆ ) 2
(Y Y )2
19
Tabla Anova
Medida para mostrar la relación entre las 3 medidas (coeficiente de correlación,
determinación y error estándar de estimación).
Fuente GL SS MS
Regresión 1 SSR SSR/1
Error n-2 SSE SSE/(n-2)
Total n-1 SS Total
20
Contenidos del Capitulo 14
(Y Yˆ ) 2
Tabla ANOVA
La variación en la variable dependiente explicada por el modelo regresión (las variables
Independientes)
El residuo o variación del error. Es el error residual debido al muestreo. Y esta compuesta
Variación total, Error residual y variación de regresión.
Fuente df SS MS F
Regresión k SSR MSR=SSR/k MSR/MSE
Residuo o error n-(k+1) SSE MSE=SSE/(n-(k-1)
Total n-1 SS
Total 23
La ecuación ajusta bien los datos
2
R Ajustado
24
Prueba Global del modelo de regresión
múltiple.
Es posible estimar la variable dependiente si basarse en las variables independientes.
Las hipótesis las probamos por medio de distribución F con (k, (n-(k+1)) grados de
libertad. nivel de significación del 0.05
25
Evaluación para cada coeficiente de
regresión
Probar las variables independientes de manera individual para determinar que
coeficiente
De regresión puede ser 0 y cuales no.
Para esto se plantean las hipótesis:
bi 0 bi coeficiente de regresión
t Sbi desviación estandar de esa distribución del coeficiente de regresión
sbi 0 debido que la hipotesis nula es i 0 26
Evaluación de los supuestos de regresión
múltiple.
27
Relación Lineal
Uso de los diagramas de puntos; trazo de la variable dependientes contra cada
variable independientes
28
La variación en los residuos es igual para
valores grandes y pequeños de Ŷ
Homoscedasticidad: La variación respecto de la ecuación de regresión es igual para
todos los valores de la variables independientes
Para verificar, los residuos se trazan contra los valores ajustados de Y (no hay patrones)
Meter gráficos
29
Distribución de los residuos
Los residuos deberán seguir una distribución normal, para evaluar este punto los
residuos se acomodan en una distribución de frecuencia( histograma) o grafica
de probabilidad normal es valido si los puntos están cerca de la línea recta de la
Izquierda inferior hasta la derecha superior de la grafica
Meter graficos…….
30
Multicolinealidad
Existe cuando las variables independientes están correlacionadas.
Los residuos sucesivos deberán ser independientes. No hay un patrón para los
residuos
Que los residuos no están muy correlacionados (Autocorrelacion)..no tiene que
tener patrón
32
Variables independientes cualitativas
Variable Ficticia. Variable en la solo existen dos resultados posibles. Para el análisis,
uno de los resultados se codifica en 1 y 0
Regresión por pasos: Método paso a paso para determinar la ecuación de regresión que inicia
Con una sola variable independientes y agrega o elimina variables independientes una por una.
Solo se incluye las variables independientes con coeficientes de regresión distintos de cero
en la ecuación de regresión
33
DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (I)
Problema de investigación
Seleccionar objetivo (s)
Primer paso - Predicción
- Explicación
Seleccionar variables dep. e indep.
Diseño de la investigación
Segundo paso Selección del tamaño muestral
Creación de variables adicionales
No
Supuestos en la regresión múltiple
Tercer paso ¿Cumplen las variables individuales los
supuestos de:
normalidad
linealidad
homoscedasticidad?
Si
DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (II)
Método de combinación
Examinar todas las combinaciones
posibles para identificar la que
mejor se ajusta
•Métodos no parametricos.
•Prueba de bondad de ajuste.
•Limitaciones.
•Tablas de contingencia.
•La prueba de los signos.
•Uso de la aproximación normal a la binomial
•Prueba Wilcoxon muestras dependientes
•Prueba Wilcoxon muestras independientes.
•Prueba de Kruskal-Wallis
•Correlación por orden de rango
Prueba estadística y naturaleza de los
datos
Datos de escala Prueba estadística
Nominal Prueba
Ordinal no-paramétrica
Contrastaremos la hipótesis:
H0: fo = fe y H1: fo fe
2 fo fe
2 K-1 grados de libertad
K numero de categorías
fo frecuencia observada de una categoría
fe fe frecuencias esperada de una categoría
41
42
Nuestro estimador chi-cuadrado vale: 2
2
5, 0.05 11.07
43
Limitaciones de Ji cuadrado
Si en una celda existe una frecuencia esperada pequeña inusual, puede generar
una conclusión errónea.
1. So solo hay dos celdas, la frecuencia esperada en cada una debera ser al
menos 5.
2. Para mas de dos celdas, no se deberá utilizar ji cuadrado si mas de 20% de
las celdas fe tienen frecuencias menores de 5.
44
Análisis de tablas de contingencia.
El estadístico ji cuadrado sirve para probar de manera formal si hay una relacion
entre dos variables con escala nominal. Es independiente una variable a otra
Procedimiento:
Cuantas filas y columnas hay
Gl=(r-1)(c-1) r: numero de filas, c: numero de columnas.
2 f o f e 2
fe 45
Métodos no parametritos.
Análisis de datos ordenados
Estas pruebas no necesitan hacer suposiciones acerca de la forma de la
población. Y los datos utilizados son respuestas que esta a nivel de variables
ordinales.
Pruebas de signos, de la mediana, rangos con signos de Wilconxon, suma de
rangos de Wilconxon y análisis de varianza por rangos de Kruskal-Wallis.
Formule hipótesis:
En relación a π:
Ho y H1, según sea el planteamiento
El estadístico de pruebas sigue una distribución binomial.
Meter graficos….
46
Uso de la aproximación a la binomial
( X 0.5)
Prueba de los signos, n 10 Z
( X 0.5) 0.5n
Prueba de los signos, n 10, signos mayores que n/2 Z
0.5 n
( X 0.5) 0.5n
Prueba de los signos, n 10, signos menores que n/2 Z
0.5 n
X cantidad ()
47
Prueba de hipótesis acerca de
una mediana.
Para la hipótesis , a un valor por arriba de la mediana se le da un signo mas, y
a un valor debajo de la mediana, un signo menos. Si un valor es el mismo que
la mediana, se elimina en el análisis.
T = 8.5
Cálculo de la T de Wilcoxon
58
59
Prueba de Kruskal-Wallis:
Análisis de varianza por rangos
12 R1 R2
2 2 2
R
H .... k
3(n 1)
n(n 1) n1 n2 nk
k 1 grados de libertad (k número de poblaciones)
R1 , R2 ,...., Rk sumas de los rangos de las muestras
2 2 2