Estadistica Inferencial Regresión

UNED
Sistema de Estudios de Posgrado

Maestría en Valuación
Profesor: Mauricio Amador G
1
Regresión lineal y correlación
Contenidos del Capitulo 13
•Análisis de correlación
•Coeficiente de correlación
•Características del coeficiente de correlación
•Coeficiente de determinación
•Prueba de importancia
•Análisis de Regresión
•Error estándar de estimación
•Supuestos
Análisis de Correlación
 Es el estudio de la relación entre variables (llamadas y ventas)
Análisis de Correlación: Grupo de técnicas para medir la asociación

entre dos variables.
 La idea básica es reportar la asociación entre dos variables. Primer paso es
trazar en diagrama de dispersión.
Variable Dependiente: Variable que se predice o estima. Se muestra en el eje Y
Variable Independiente: Variable que proporciona la base para la estimación,

es la variable de pronostico, se muestra en el eje X
GRÁFICOS DE DISPERSIÓN
Dadas dos variables X y Y tomadas sobre el mismo elemento de la población,
el diagrama de dispersión es simplemente un gráfico de dos dimensiones,
donde en un eje (la abscisa) se grafica una variable (independiente), y en el
otro eje (la ordenada) se grafica la otra variable (dependiente). Si las variables
están correlacionadas, el gráfico mostraría algún nivel de correlación
(tendencia) entre las dos variables. Si no hay ninguna correlación, el gráfico
presentaría una figura sin forma, una nube de puntos dispersos en el gráfico.
X
DIAGRAMAS DE DISPERSIÓN ESTADÍSTICA
Gráfico de puntos para variables cuantitativas
Disposición:
Eje de abscisas: variable independiente (X)
Eje de ordenadas: variable dependiente (Y)
Frecuentemente X es una variable controlada (no aleatoria)
Un punto por cada observación (par de valores X-Y)
Aproximación al tipo de relación existente entre las variables

FORMAS TÍPICAS DE LOS DIAGRAMAS DE
DISPERSIÓN ESTADÍSTICA
X
EL COEFICIENTE DE CORRELACIÓN LINEAL DE
PEARSON
El Coeficiente de Correlación Lineal de Pearson es un

índice estadístico que permite medir la fuerza de la relación
lineal entre dos variables. Su resultado es un valor que
fluctúa entre –1 (correlación perfecta de sentido negativo) y
+1 (correlación perfecta de sentido positivo). Cuanto más
cercanos al 0 sean los valores, indican una mayor debilidad
de la relación o incluso ausencia de correlación entre las
dos variables.
Su cálculo se basa en
la expresión:
Coeficiente de Correlación
Coeficiente de correlación: mide la fuerza de la relación lineal entre

dos variables.
Características del coeficiente de correlación
1. El coeficiente de correlación de la muestra se identifica por al letra minuscula r.
2. Muestra la direccion y fuera de la relacion lineal (recta) entre dos variables en
Escala de intervalo o en escala de razon.
3. Varia de -1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asocioeniones entre las variables.
5. Un valor cercano a 1 indica una asociacion directa o positiva entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa entre las variables.
Coeficiente _ de _ correlación : r 
 ( X  X )(Y  y)
(n  1) s x s y
Interpretación
Coeficiente _ de _ correlación : r 
 ( X  X )(Y  y)
(n  1) s x s y
Como interpretar el resultado, primero se ve el signo, después el valor,

entre mas cercano a 1 mas fuerte la relación (+ o -)
10
El Coeficiente de determinación
Interpretación con mas facilidad es el coeficiente de determinación, y se obtiene

Elevando al cuadrado el coeficiente de correlación.
Se obtiene en medida de proporción o porcentaje (57.6% de la variación en el

numero de copiadoras vendidas se explica por la variación de las llamadas.
Coeficiente de determinación: Proporción de la variación total

en la variable dependiente Y que se explica, o contabiliza, por
la variación den la variable independiente X.
Correlaciones espurias: correlación y causa, cuando se tienen dos variables con

fuerte correlación hay una relación a asociación entre ambas,
no que el cambio de una ocasiona un cambio en otra.
11
Prueba de importancia del coeficiente de
correlación.
Para determinar que el coeficiente de correlación de la población no sea 0,

Probando las siguientes hipótesis:
H 0 :   0( La correlación en la población es cero)

H1 :   0(La correlación en la población es diferente a cero)
r n2
t con n - 2 grados de libertad
1 r 2
12
Análisis de regresión
Ecuación para expresar la relación lineal (recta) entre dos variables. Y estimar
Valor de la variable dependiente con una base de valores seleccionados de la variable
Independiente.
Ecuación de regresión: Ecuación que expresa la relación

lineal entre dos variables
Para calcular la recta de regresión se utilizar el principio de los mínimos cuadrados.
Determina una ecuación de regresión al minimizar la suma de los cuadrados de las

Distancias verticales entre los valores reales de Y y los valores pronosticados de Y
13
Forma general de la ecuación de regresión lineal
Yˆ  a  bx
donde
Yˆ , es el valor del estimado de la variable Ypara un valor de X seleccionado.
a es la interaccion Y. Es el valor estimado de Y cuando x  0.
b es la pendiente de la recta, o el cambio promedio en Ŷ `por cada cambio de
una unidad (aumento o reducción) en la variable independiente X.
X es cualquier valor de la variable independiente que se seleccione.
s Intersección con el eje Y

br y
sx a  Y  bX
donde
r coeficiente de correlación
donde
S y Desviación estándar de Y (variable dependiente) Y es la media de Y
Sx Desviación estándar de X (variable independiente) X es la medio de X 14
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
Para el cálculo de la recta de regresión se aplica el método de
mínimos cuadrados entre dos variables. Esta línea es la que
hace mínima la suma de los cuadrados de los residuos, es
decir, es aquella recta en la que las diferencias elevadas al
cuadrado entre los valores calculados por la ecuación de la
recta y los valores reales de la serie, son las menores posibles.
y = a + bx
Residuos: Diferencia entre los valores reales y los valores pronosticados.
Error estándar de estimación: Medida de la dispersión de los valores observados

respecto a la recta de regresión
S y* x 
 (Y  Y ) 2
n2
Si es pequeña, significa que los datos estan relativamente cercanos a la recta de

Regresión, y la ecuación de regresión sirve para predecir Y con poco error, Si es
grande, los datos estan muy dispersor respecto de la recta de regresion, y la
ecuacion de regresion no proporcionara una Estimacion precisa de Y.
16
Supuestos
1. Supuestos del modelo de regresión lineal

2. Para poder crear un modelo de regresión lineal, es necesario que se cumpla
con los siguientes supuestos:3
3. La relación entre las variables es lineal.
4. Los errores en la medición de las variables explicativas son independientes
entre sí.
5. Los errores tienen varianza constante. (Homocedasticidad)
6. Los errores tienen una esperanza matemática igual a cero (los errores de una
misma magnitud y distinto signo son equiprobables).
7. El error total es la suma de todos los errores.
17
Intervalos de confianza e intervalos de
predicción
El error estándar de estimación se emplea para establecer intervalos de confianza cuando

el tamaño de la muestra es grande y la dispersión respecto a la recta de regresión se
Aproxima a la distribución normal.
Intervalo de confianza: reporta el valor medio de Y para una X dado

Intervalo de predicción: reporta el rango de valores de Y para un valor particular de X.
ˆ 1 ( X  X )2 ˆ 1 ( X  X )2
Intervalo de Confianza : Y  t ( s yx )  Intervalo de Predicción : Y  t ( s yx ) 1  
n  ( X  X )2 n  ( X  X )2
18
Coeficiente de determinación
Se puede describir la variación total en Y en variación inexplicable y explicable,

y para obtener el porcentaje de variación que explica el modelo, se obtiene por medio
del coeficiente de determinación (R2)
VariaciónTotal  VariaciónIn exp licativa

r2 
VariaciónTotal
  (Y  Y ) 2   (Y  Yˆ ) 2
 (Y  Y )2
19
Tabla Anova
Medida para mostrar la relación entre las 3 medidas (coeficiente de correlación,
determinación y error estándar de estimación).
Re gresión  SSR   (Yˆ  Y ) 2

VariacióndelError  SSE   (Y  Yˆ ) 2
VariaciónTotal  SSTotal   (Y  Y ) 2
Fuente GL SS MS
Regresión 1 SSR SSR/1
Error n-2 SSE SSE/(n-2)
Total n-1 SS Total
20
Contenidos del Capitulo 14
•Análisis de regresión múltiple.

•Error estándar de estimación múltiple.
•Tabla Anova.
•Coeficiente de determinación múltiple.
•Coeficiente ajustado de determinación.
•Evaluación de supuestos.
EL ANÁLISIS DE REGRESIÓN MÚLTIPLE: CONCEPTO
Método multivariante que analiza la relación entre una única variable

dependiente (criterio) y varias variables independientes (predictores). El
objetivo es predecir cambios en la variable dependiente en respuesta a
cambios en varias de las variables independientes
 Cada variable predictor es ponderada, indicando la ponderación su

contribución relativa a la predicción conjunta
 El conjunto de variables independientes ponderadas se denomina

valor teórico de la regresión o ecuación de regresión
Y= a+ b1X1 + b2X2 +.....+ bk Xk
 Técnica de dependencia en la que los datos deben ser métricos o

apropiadamente transformados
La ecuación ajusta bien los datos
 
(Y  Yˆ ) 2
Error estándar de estimación múltiple SY .123..k

n  (k  1)
Tabla ANOVA
La variación en la variable dependiente explicada por el modelo regresión (las variables
Independientes)
El residuo o variación del error. Es el error residual debido al muestreo. Y esta compuesta
Variación total, Error residual y variación de regresión.
Fuente df SS MS F
Regresión k SSR MSR=SSR/k MSR/MSE
Residuo o error n-(k+1) SSE MSE=SSE/(n-(k-1)
Total n-1 SS
Total 23
La ecuación ajusta bien los datos
Coeficiente de determinación múltiple: Porcentaje de variación en la variable dependiente

Y, explicada por el conjunto de variables independientes, X1, X2, X3…..Xk.
Se denota por R cuadrado 2

Varia de 0 a 1 R
Puede adoptar valores negativos
Es fácil de interpretar
Coeficiente ajustado de determinación: el numero de variables independientes en una

ecuación de regresión múltiple aumenta el coeficiente de determinación. Cada nueva
variable hace que la predicción sea mas precisa.
Para equilibrar el efecto del numero de variables independientes en el coeficiente de
determinacion Multiple, se emplea el coeficiente ajustado de determinación multiple.
2
R Ajustado
24
Prueba Global del modelo de regresión
múltiple.
Es posible estimar la variable dependiente si basarse en las variables independientes.
Para esto se plantean las hipotesis:

Hipótesis _ nula
H 0 : 1   3   3  0
Hipótesis _ alternativa
H1 : No todos los  i son 0
Las hipótesis las probamos por medio de distribución F con (k, (n-(k+1)) grados de
libertad. nivel de significación del 0.05
25
Evaluación para cada coeficiente de
regresión
Probar las variables independientes de manera individual para determinar que
coeficiente
De regresión puede ser 0 y cuales no.
Para esto se plantean las hipótesis:
Hipótesis _ nula Hipótesis _ nula Hipótesis _ nula

H 0 : 1  0 H0 : 2  0 H 0 : 3  0
Hipótesis _ alternativa Hipótesis _ alternativa Hipótesis _ alternativa
H1 : 1  0 H1 :  2  0 H1 :  3  0
Las hipótesis las probamos por medio de distribución t con (n-(k+1) grados de
libertad. nivel de significación del 0.05
bi  0 bi  coeficiente de regresión
t Sbi  desviación estandar de esa distribución del coeficiente de regresión
sbi 0  debido que la hipotesis nula es  i  0 26
Evaluación de los supuestos de regresión
múltiple.
Supuestos para la regresión múltiple

1. Existe una relación lineal: existe una línea recta entre las variables dependientes
y el conjunto de variables independientes.
2.La variación en los residuos es la misma tanto para valores grandes como pequeños
3. Los residuos siguen la distribución de probabilidad normal
4. Las variables independientes no deberían estar correlacionadas
5 Los residuos son independientes
27
Relación Lineal
Uso de los diagramas de puntos; trazo de la variable dependientes contra cada
variable independientes
Uso de gráficos de residuos: diferencias de (Y-Ŷ) de la ecuación de regresión múltiple.

Los residuos se trazan en el eje vertical y están centrados respecto a cero, hay residuos
Positivos y negativos.
Los trazos de los residuos muestran una distribución aleatoria de valores positivos y negativos
Los puntos están dispersos y no hay un patrón obvio, por lo que no hay razón para dudar de la
linealidad
28
La variación en los residuos es igual para
valores grandes y pequeños de Ŷ
Homoscedasticidad: La variación respecto de la ecuación de regresión es igual para
todos los valores de la variables independientes
Para verificar, los residuos se trazan contra los valores ajustados de Y (no hay patrones)
Meter gráficos
29
Distribución de los residuos
Los residuos deberán seguir una distribución normal, para evaluar este punto los
residuos se acomodan en una distribución de frecuencia( histograma) o grafica
de probabilidad normal es valido si los puntos están cerca de la línea recta de la
Izquierda inferior hasta la derecha superior de la grafica
Meter graficos…….
30
Multicolinealidad
Existe cuando las variables independientes están correlacionadas.
Primero la multicolinealidad no afecta la capacidad de una ecuación de regresión para

Predecir las variables dependientes. Como detectarlo
1. Una variable independiente conocida importante resulta con un coeficiente
De regresión que no es significativo
2. Un coeficiente de regresión que debería tener signo positivo resulta negativo o lo
contrario
3. Cuando se agrega o elimina una variable independiente, hay un cambio drástico en
los valores de los coeficientes de regresión restantes.
Valores de la correlación estén entre -0.70 y 0.70.

Prueba de factor de inflación de varianza
1
VIF 
1  R 2j
Donde R2 es el coeficiente de determinación donde variable independiente juega como
dependiente y valores mayores de 10 es insatisfactoria e indica que la variable debe ser
elimina.
31
Observaciones independientes
Los residuos sucesivos deberán ser independientes. No hay un patrón para los
residuos
Que los residuos no están muy correlacionados (Autocorrelacion)..no tiene que
tener patrón
32
Variables independientes cualitativas
Variable Ficticia. Variable en la solo existen dos resultados posibles. Para el análisis,
uno de los resultados se codifica en 1 y 0
Regresión por pasos: Método paso a paso para determinar la ecuación de regresión que inicia
Con una sola variable independientes y agrega o elimina variables independientes una por una.
Solo se incluye las variables independientes con coeficientes de regresión distintos de cero
en la ecuación de regresión
33
DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (I)
Problema de investigación
Seleccionar objetivo (s)
Primer paso - Predicción
- Explicación
Seleccionar variables dep. e indep.
Diseño de la investigación
Segundo paso Selección del tamaño muestral
Creación de variables adicionales
No
Supuestos en la regresión múltiple
Tercer paso ¿Cumplen las variables individuales los
supuestos de:
normalidad
linealidad
homoscedasticidad?
Si
DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (II)
Estimación del modelo de regresión

Cuarto paso ¿especifica el investigador el modelo o
se utiliza algún procedimiento de
selección de las var. indep.?
Especificación del investigador Procedimiento de selección
Método de estimación secuencial

Estimación progresiva/regresiva
Estimación por etapas
Método de combinación
Examinar todas las combinaciones
posibles para identificar la que
mejor se ajusta
¿Cumple el valor teórico de regresión los supuestos

del análisis de regresión? No A segundo
paso: Creación
Si de variables
adicionales
Examinar significación estadística del modelo
Coeficiente de determinación (R2)
Coeficiente de determinación ajustado
Significación de los coeficientes de regresión
DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (III)
Interpretación del valor teórico de la regresión

Quinto paso Evaluar importancia relativa de las variables
independientes con los coeficientes beta
Valoración de la multicolinealidad
Validación de los resultados

Contraste del modelo de regresión en
Sexto paso una nueva muestra de la población
Dividir la muestra en dos partes y utilizar
una submuestra para crear el modelo y
otra para contrastarlo
OBJETIVOS DE LA REGRESIÓN MÚLTIPLE
Predicción de la variable criterio con un conjunto de variables

independientes, de forma que se maximice el valor teórico de
la regresión.
La predicción del modelo elegido debe demostrar tanto
significación práctica como estadística
Explicación objetiva del grado y carácter de la relación entre

las variables independientes y la variable dependiente.
Concretamente:
 Determinación de la importancia relativa de cada variable

independiente sobre la variable dependiente (magnitud y dirección
de la relación)
 Evaluación de la naturaleza de las relaciones entre las variables

independientes y la dependiente (lineal y/o curvilineal)
 Evaluación de las interrelaciones entre las variables independientes

Contenidos del Capitulo 17-18
•Métodos no parametricos.
•Prueba de bondad de ajuste.
•Limitaciones.
•Tablas de contingencia.
•La prueba de los signos.
•Uso de la aproximación normal a la binomial
•Prueba Wilcoxon muestras dependientes
•Prueba Wilcoxon muestras independientes.
•Prueba de Kruskal-Wallis
•Correlación por orden de rango
Prueba estadística y naturaleza de los
datos
Datos de escala Prueba estadística
Nominal Prueba
Ordinal no-paramétrica
De intervalo Prueba no-paramétrica

y
De razón paramétrica
Pruebas no-paramétricas
 Pruebas estadísticas que no requieren muchas
asunciones acerca de la naturaleza de la población de
donde proceden las muestras. Son referidos como
pruebas de distribución libre.
 Pueden usarse con datos de escala nominal y ordinal.
 Muestreo independiente o aleatorio.

Prueba de bondad de ajuste 2
Estadístico de Ji-cuadrado es útil para datos medidos con una escala nominal.
Y sirve para comparar una distribución observada con una distribución
esperada.
Supongamos una muestra aleatoria simple de tamaño n.

Desconocemos que la distribución de probabilidad f de la
población. Seguimos el mismo procedimiento de las pruebas de hipotesis
Contrastaremos la hipótesis:
H0: fo = fe y H1: fo  fe
Usaremos la distribución chi-cuadrado para determinar la bondad de ajuste

entre las frecuencias observadas de los datos de la muestra, frecuencias
muestrales, y las frecuencias esperadas (teóricas) según la distribución que
sospechamos es la de la población.

  
2  fo  fe  
2 K-1 grados de libertad
K numero de categorías
 fo frecuencia observada de una categoría
 fe  fe frecuencias esperada de una categoría
41
42
Nuestro estimador chi-cuadrado vale: 2 
El estimador se distribuye como:  2

k 1  2
6 1  2
5
Supongamos que queremos:   0.05

En las tablas encontramos:
0.05
 52,0.05  11.07
 2
5, 0.05  11.07
43
Limitaciones de Ji cuadrado
Si en una celda existe una frecuencia esperada pequeña inusual, puede generar
una conclusión errónea.
1. So solo hay dos celdas, la frecuencia esperada en cada una debera ser al
menos 5.
2. Para mas de dos celdas, no se deberá utilizar ji cuadrado si mas de 20% de
las celdas fe tienen frecuencias menores de 5.
44
Análisis de tablas de contingencia.
El estadístico ji cuadrado sirve para probar de manera formal si hay una relacion
entre dos variables con escala nominal. Es independiente una variable a otra
Ho: no hay relación entre la variables

H1: hay una relación entre las variables.
Procedimiento:
Cuantas filas y columnas hay
Gl=(r-1)(c-1) r: numero de filas, c: numero de columnas.
(Total de filas)(Total de columnas)

fe 
Gran Total

  
2  f o  f e 2


 fe  45
Métodos no parametritos.
Análisis de datos ordenados
Estas pruebas no necesitan hacer suposiciones acerca de la forma de la
población. Y los datos utilizados son respuestas que esta a nivel de variables
ordinales.
Pruebas de signos, de la mediana, rangos con signos de Wilconxon, suma de
rangos de Wilconxon y análisis de varianza por rangos de Kruskal-Wallis.
Prueba de los signos

Se basa en el signo de una diferencias entre dos observaciones relacionados.
Se asignan un signo (+) en diferencias positivas, y signo (-) en diferencias
negativas.
Formule hipótesis:
En relación a π:
Ho y H1, según sea el planteamiento
El estadístico de pruebas sigue una distribución binomial.
Meter graficos….
46
Uso de la aproximación a la binomial
Si el numero de observaciones en la muestra es mayor que 10, puede utilizar la

distribución normal
( X  0.5)  
Prueba de los signos, n  10 Z 

( X  0.5)  0.5n
Prueba de los signos, n  10, signos  mayores que n/2 Z 
0.5 n
( X  0.5)  0.5n
Prueba de los signos, n  10, signos  menores que n/2 Z 
0.5 n
X  cantidad ()
47
Prueba de hipótesis acerca de
una mediana.
Para la hipótesis , a un valor por arriba de la mediana se le da un signo mas, y
a un valor debajo de la mediana, un signo menos. Si un valor es el mismo que
la mediana, se elimina en el análisis.
Se plantean las hipotesis en relaciona la mediana:

Ho y H1 según lo que se desea medir.
Se prueba que la medio y desviación estándar sean mayores de 5 para usar la

aproximación y el procedimiento es el mismo de la Z.
( X  0.5)  
Prueba de los signos, n  10 Z 

( X  0.5)  0.5n
Prueba de los signos, n  10, signos  mayores que n/2 Z 
0.5 n
( X  0.5)  0.5n
Prueba de los signos, n  10, signos  menores que n/2 Z 
0.5 n
48
X  cantidad ()
Diseño de dos grupos
dependientes
Caso no paramétrico. Ejemplo
Se desea conocer el posible efecto de la motivación

sobre las puntuaciones de un grupo de escolares en
una prueba de rendimiento. A partir de una muestra de
sujetos, se forma un total de 15 pares. Los dos
miembros de cada par poseen la misma edad, sexo y
nivel de escolaridad y son asignados al azar a una u
otra condición experimental. La primera condición
consiste en la lectura, antes de la ejecución de una
tarea escolar, de instrucciones de carácter motivador.
..//..
Los sujetos pertenecientes a la
segunda condición o grupo realizan la
tarea tras la lectura de unas
instrucciones neutras o no motivadoras.
Mediante esta disposición experimental
se pretende conocer si las instrucciones
motivadoras causan un aumento del
rendimiento escolar del primer grupo.
Modelo de prueba estadística
Paso 1. Especificación de la hipótesis de nulidad:

No hay diferencia alguna entre las puntuaciones de
ambos grupos en la tarea escolar.
Paso 2. Especificación de la hipótesis alternativa:

El grupo con instrucciones motivadoras (condición A1)
presentará puntuaciones de mayor tamaño que las del
grupo con instrucciones neutras (condición A2).
Paso 3. Especificación del nivel de
significación, tamaño de los grupos y valor
teórico del estadístico de la prueba:
T de Wilcoxon
α = 0.01
N = 15
Para N = 15 y un α = 0.01, T = 20
Paso 4. Cálculo del valor empírico del

estadístico de la prueba con la matriz de
datos del experimento.
Matriz de datos del experimento y ordenación por rangos
Rango de Rango de signo

Nº Par A1 A2 D (diferencia) D menos frecuente
1 91 86 5 6.5
2 90 92 -2 -3.5 3.5
3 80 73 7 10.5
4 79 61 18 14.0
5 47 48 -1 -1.5 1.5
6 58 53 5 6.5
7 92 91 1 1.5
8 90 79 11 13.0
9 89 82 7 10.5
10 40 31 9 12.0
11 63 65 -2 -3.5 3.5
12 89 83 6 8.5
13 72 66 6 8.5
14 81 61 20 15.0
15 73 70 3 5.0
T = 8.5
Cálculo de la T de Wilcoxon
a) Se calculan los valores de diferencia entre los

pares de puntuaciones, en el sentido establecido
por la hipótesis.
b) En un segundo paso, se ordenan las
puntuaciones de diferencia, D, por rangos de
menor a mayor sin tener en cuenta los signos.
c) En la columna de rangos se recuperan los
signos que tenían los valores de diferencia.
d) En la última columna se colocan los rangos de
signo menos frecuente, y se procede a su suma.
Siendo T el valor de esta suma.
Modelo de prueba estadística
Paso 5. Para tomar una decisión estadística se

comprueba si el valor empírico u observado del
estadístico es igual o inferior al valor crítico del
paso tres. Dado que 8.5 < 20, se concluye la no
aceptación de la hipótesis de nulidad con un
riesgo de error del 1 por ciento.
57
Pruebas de Wilconxon de suma de rangos
para muestras independientes.
n1 ( n1  n2  1)
W
Pr ueba wilconxon Z  2
n1 n2 ( n1  n2  1)
12
n1 Número de observaciones de la primera muestra
n 2 Número de observaciones de la segunda muestra
w suma de rango de la primera población.
Se plantean las hipótesis

Se ordena las valores de menos a mayor.
Se les asigna el valor de la posición de cada respectivo numero,
Se suman las posiciones de cada grupo
Se utiliza el valor de la prime grupo para concluir con la hipotesis
58
59
Prueba de Kruskal-Wallis:
Análisis de varianza por rangos
Se utiliza cuando la variable son de tipo ordinal y la distribución no es normal.

Las muestras debe de ser independientes, no se debe influir en las respuestas
de los demás grupos.
1. Se combinan las muestras
2. Se ordena los valores combinados del bajo al alto
3. Los valores ordenados se reemplazan por rangos a partir de 1 para el valor
menor.
Primero se plantean las hipótesis
Ho: Las distribución son iguales
H1: No todas la distribuciones son iguales.
12   R1  R2  
2 2 2
R
H    ....  k
  3(n  1)
n(n  1)  n1 n2 nk 
k  1 grados de libertad (k número de poblaciones)
 R1 ,  R2 ,....,  Rk sumas de los rangos de las muestras
2 2 2
n1 , n2 ,.....nk tamaños de muestras y n el valor combinado de las muestras

60
61

Estadistica Inferencial Regresión

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Inferencial Regresión

Cargado por

Copyright:

Formatos disponibles

UNED

Sistema de Estudios de Posgrado

Profesor: Mauricio Amador G

 Es el estudio de la relación entre variables (llamadas y ventas)

Análisis de Correlación: Grupo de técnicas para medir la asociación

 La idea básica es reportar la asociación entre dos variables. Primer paso es

trazar en diagrama de dispersión.

Variable Dependiente: Variable que se predice o estima. Se muestra en el eje Y

Variable Independiente: Variable que proporciona la base para la estimación,

Gráfico de puntos para variables cuantitativas

Frecuentemente X es una variable controlada (no aleatoria)

Un punto por cada observación (par de valores X-Y)

Aproximación al tipo de relación existente entre las variables

El Coeficiente de Correlación Lineal de Pearson es un

Coeficiente de correlación: mide la fuerza de la relación lineal entre

Como interpretar el resultado, primero se ve el signo, después el valor,

Interpretación con mas facilidad es el coeficiente de determinación, y se obtiene

Se obtiene en medida de proporción o porcentaje (57.6% de la variación en el

Coeficiente de determinación: Proporción de la variación total

Correlaciones espurias: correlación y causa, cuando se tienen dos variables con

Para determinar que el coeficiente de correlación de la población no sea 0,

H 0 :   0( La correlación en la población es cero)

Ecuación de regresión: Ecuación que expresa la relación

Para calcular la recta de regresión se utilizar el principio de los mínimos cuadrados.

Determina una ecuación de regresión al minimizar la suma de los cuadrados de las

Forma general de la ecuación de regresión lineal

s Intersección con el eje Y

Residuos: Diferencia entre los valores reales y los valores pronosticados.

Error estándar de estimación: Medida de la dispersión de los valores observados

Si es pequeña, significa que los datos estan relativamente cercanos a la recta de

1. Supuestos del modelo de regresión lineal

El error estándar de estimación se emplea para establecer intervalos de confianza cuando

Intervalo de confianza: reporta el valor medio de Y para una X dado

Se puede describir la variación total en Y en variación inexplicable y explicable,

VariaciónTotal  VariaciónIn exp licativa

Re gresión  SSR   (Yˆ  Y ) 2

•Análisis de regresión múltiple.

Método multivariante que analiza la relación entre una única variable

 Cada variable predictor es ponderada, indicando la ponderación su

 El conjunto de variables independientes ponderadas se denomina

 Técnica de dependencia en la que los datos deben ser métricos o

Error estándar de estimación múltiple SY .123..k

Coeficiente de determinación múltiple: Porcentaje de variación en la variable dependiente

Se denota por R cuadrado 2

Coeficiente ajustado de determinación: el numero de variables independientes en una

Para esto se plantean las hipotesis:

Hipótesis _ nula Hipótesis _ nula Hipótesis _ nula

Supuestos para la regresión múltiple

Uso de gráficos de residuos: diferencias de (Y-Ŷ) de la ecuación de regresión múltiple.

Primero la multicolinealidad no afecta la capacidad de una ecuación de regresión para

Valores de la correlación estén entre -0.70 y 0.70.

Estimación del modelo de regresión

Método de estimación secuencial

¿Cumple el valor teórico de regresión los supuestos

Interpretación del valor teórico de la regresión

Validación de los resultados

Predicción de la variable criterio con un conjunto de variables

Explicación objetiva del grado y carácter de la relación entre

 Determinación de la importancia relativa de cada variable

 Evaluación de la naturaleza de las relaciones entre las variables

 Evaluación de las interrelaciones entre las variables independientes

De intervalo Prueba no-paramétrica