Curso Estadistica Tema3

Curso de Estadística aplicada a Minería
TEMA 1. INTRODUCCIÓN A LA ESTADÍSTICA

TEMA 2. INTRODUCCIÓN A LOS EXPERIMENTOS
TEMA 3. CORRELACIÓN Y REGRESIÓN
TEMA 4. EXPERIMENTOS FACTORIALES
TEMA 5. CONTROL ESTADÍSTICO DE CALIDAD
TEMA 6. SERIES TEMPORALES
TEMA 3. Correlación y Regresión tomado de Referencia 1) 1

• Correlación y Regresión Lineal Simple

• Incertidumbres en los coeficientes de mínimos cuadrados
• Comprobación de supuestos y transformación de datos
• Regresión Múltiple
• Confusión y colinealidad
• Selección de modelos
TEMA 3. Correlación y Regresión tomado de Referencia 1)

Correlación y regresión lineal simple
• Relación entre pares de valores (x,y) de dos
variables aleatorias
• Ajustamos una recta de regresión para

visualizar esa relación

Correlación y Regresión lineal simple
coeficiente de correlación , como ya se ha visto en el tema 1, es una
medida numérica de la fuerza de la relación que independiza el ajuste al
factor de escala de las variables.
Para realizarlo:
Si (x1, y1), . . . , (xn, yn) son los n puntos del diagrama de dispersión.
 Se deducen las medias y las desviaciones estándar de las x sí
como de las y
 Se convierte cada x y cada y , a las unidades estándar de
puntajes z
(xi – x*)/sx , (yi – y*)/sy

Definición de Correlación
El coeficiente de correlación representa el promedio de los productos

de los puntajes z, excepto que se divide entre n – 1 en lugar de n:
𝟏 𝒏 𝒙𝒊 −𝒙∗ 𝒚𝒊 −𝒚∗
r=
𝒏−𝟏 𝒊=𝟏 𝒔𝒙 𝒔𝒚
o sustituyendo la desviación por su valor
𝒏
𝒊=𝟏 𝒙𝒊 −𝒙∗ 𝒚𝒊 −𝒚∗
r=
𝒏 𝒙𝒊 −𝒙∗ 𝟐 𝒏 𝒚𝒊 −𝒚∗ 𝟐
𝒊=𝟏 𝒊=𝟏

¿Cómo funciona r?

¿Cómo funciona r?

¿Cómo funciona r?

Propiedades del coeficiente de correlación r
 Los valores de r están entre -1 y 1. A mayor valor absoluto, mayor

correlación
 Si r es > 0 recta con pendiente positiva < 0, negativa
 Si r = 0 no hay correlación. Si r ≠ 0, la hay
 Cuando la recta es horizontal o vertical, r está indeterminado.
 r es un número puro, adimensional, lo que permite comparar datos de
muy distinta naturaleza
 r permanece constante en cada una de las siguientes operaciones:
 Multiplicar cada valor de una variable por una constante positiva.
 Sumar una constante a cada valor de una variable.
 Intercambiar los valores de x e y.

 r sólo mide una relación lineal. No es válido si su naturaleza es de otro

tipo (ejm. cuadrática)
 El tratamiento de los datos atípicos que distorsionan r

siempre es complicada.
con dato atípico r= 0,26

sin dato atípico r=1

Que dos variables tengan una r alta implica que están

correlacionadas, pero no dice nada de su dependencia a priori.
Puede haber una tercera variable de la que ambas dependan y
explique el comportamiento de ambas.
La solución está en el uso de análisis factorial o regresión

multivariable

Inferencia sobre la correlación poblacional
Muy importantes relaciones cuando hablemos de intervalos de confianza.
• Sean X e Y variables aleatorias con distribución normal bivariada

• Sea ρ la correlación entre la población X e Y
• Sean (x1, y1), . . . , (xn, yn) una muestra aleatoria de la distribución conjunta X e Y
• Sea r la correlación muestral de los n puntos
𝟏 𝟏+𝒓
W= ln
𝟐 𝟏−𝒓
está casi normalmente distribuida, con la media dada por media
𝟏 1+ρ
µw = ln
𝟐 1−ρ
Y varianza
𝟏
𝝈𝟐 𝒘 =
𝒏−𝟑

Distribución normal bivariada
despejando ρ
𝒆𝟐µ𝒘 −1
ρ=
𝒆𝟐µ𝒘 +1
La prueba de hipótesis nula de la forma ρ = 0, p ≤ 0, p > 0
se sigue el procedimiento ya descrito
Cuando ρ =0
𝐫 𝐧−𝟐
U=
𝟏−𝐫𝟐
Tiene la distribución t de Student con n-2 grados de libertad

Recta de Mínimos Cuadrados
∗ ∗
𝒚= 𝜷 0+ 𝜷 𝟏 x
La recta de mínimos cuadrados se define como aquella para la que la suma de

𝒏 𝟐
cuadrados de los residuos 𝒊=𝟏 𝒆 𝒊 se minimiza.
En este sentido, la recta de mínimos cuadrados ajusta mejor los datos que
cualquier otra recta
Cálculo de la Recta de MC
Comenzamos expresando el error cuadrados de los residuos ei en

∗ ∗
función de β 0 y β 1
∗ ∗
ei = yi – y^i = yi - 𝛽 0 -𝛽 1 xi
∗ ∗
Por tanto β 0 y β 1 son las cantidades que minimizan la suma
𝒏 𝟐 𝒏 ∗ ∗
𝒆 𝒊=𝟏 (yi −𝛽 −𝛽 )
S= = xi 𝟐
𝒊=𝟏 𝒊 0 1
Y utilizando multiplicadores de Lagrange para minimizar y resolver las

ecuaciones obtenemos:
𝐧
∗ 𝐢=𝟏 𝐱𝐢 −𝐱∗ 𝐲𝐢 −𝐲∗
𝛃 𝟏 = 𝐧 𝟐
𝐢=𝟏 𝐢𝐱 −𝐱∗
∗ ∗
𝛃 0= y* - 𝛃 𝟏 x*
∗ ∗
Los valores 𝜷 0 y 𝜷 𝟏 son en realidad estimadores de los valores
estimados 𝜷0 y 𝜷𝟏 que corresponden con una ordenada en el
origen y una pendiente verdadera de la población
Es importante entender la diferencia entre los estimadores de mínimos

cuadrados los valores verdaderos . Los valores verdaderos son
constantes cuyos valores no se conocen. Los estimadores son
cantidades que se calculan a partir de los datos. Se pueden utilizar los
estimadores como aproximaciones de los valores verdaderos
Los residuos constituyen las distancias verticales de los valores

observados y la recta de mínimos cuadrados y los errores son las
distancias del a la recta verdadera


Bondad del Ajuste. Coeficiente de determinación
La suma errores de la estimación en la muestra respecto a la media estimada se
denomina suma total de los cuadrados 𝐧
∗ 𝟐
(𝐲𝐢 − 𝐲 )
𝐢=𝟏
La suma de los residuos de ajuste de la estimación se denomina suma de
los cuadrados de los errores 𝐧
(𝐲𝐢 − 𝒚𝒊^)𝟐
𝐢=𝟏
Buscamos una medida de la reducción de la incertidumbre usando Recta MC
𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗ − 𝒏
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^
𝟐
𝒔𝒖𝒎𝒂 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐𝒔 𝒓𝒆𝒈𝒓𝒆𝒔𝒊𝒐𝒏
r2 = 𝒏 𝟐 =
𝒚
𝒊=𝟏 𝒊 −𝒚∗ 𝒔𝒖𝒎𝒂 𝒕𝒐𝒕𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐𝒔
Suma total cuadrados = Suma de cuadrados de la regresión + Suma de cuadrados de los errores
Coeficiente de Correlación que indica la proporción de la varianza en y

TEMA 3. Correlación yexplicada por la regresión
Regresión tomado de Referencia 1)
Regresión en función de correlación
La recta de mínimos cuadrados es la que pasa a través del centro de masa
∗
del diagrama de dispersión (x*,y*) con pendiente 𝜷 𝟏
𝒏 𝒚𝒊 −𝒚∗ 𝟐
𝒊=𝟏 𝒔𝒙
=𝒔
𝒏 𝒙𝒊 −𝒙∗ 𝟐 𝒚
𝒊=𝟏
∗ 𝒔𝒙
𝜷 𝟏 =𝒓𝒔
𝒚
∗
y^ - y* = 𝜷 𝟏 (x – x*)

Incertidumbres en los coeficientes de mínimos cuadrados
Los errores de la observación del datos son el resultado de múltiples causas. En
particular, necesitaríamos conocer cual es el error de estimación de los coeficientes
∗ ∗
𝜷0 ,𝜷𝟏 de la población a partir de los calculados desde la muestra 𝜷 0 ,𝜷 𝟏
𝒚𝒊 = 𝜷0 + 𝜷𝟏 xi + εi
Si los errores en la estimación de las magnitudes de la población son independientes
ente sí y tienen media 0 (no hay sesgo), tienen la misma varianza y se distribuyen según
normal, se puede estimar esa varianza de los errores.
𝒏 𝒏
𝒆
𝒊=𝟏 𝒊
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^ 𝟐
(𝟏−𝒓𝟐) 𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗
𝟐
s2 = = =
𝒏−𝟐 𝒏−𝟐 𝒏−𝟐

Incertidumbres en los coeficientes de mínimos cuadrados
∗
Bajo los supuesto enunciados las variables aleatorias 𝜷 0 y
∗
𝜷 𝟏 correspondientes a las RMC de las muestras se distribuyen normalmente
∗ ∗
con medias 𝜷 0 y 𝜷 𝟏 y las desviaciones se calculan :
𝟏 𝒙∗𝟐
s 𝛃0 = s + 𝒏 𝟐
𝒏 𝒊=𝟏 𝒙𝒊 −𝒙∗
s
s 𝛃𝟏 =
𝒏 𝒙𝒊 −𝒙∗ 𝟐
𝒊=𝟏

Incertidumbres en los coeficientes de mínimos cuadrados (MinTab)
∗ ∗
Bajo los supuesto enunciados cantidades
β0 − β0 y
β1 − β1 tienen una
s 𝛽0 s 𝛽1
distribución t de Student con n-2 grados de libertad
Los intervalos con un nivel de

confianza de 100( 1 – α)% para β0 y
β1 están dados por
𝜷
∗
0 ± t n-2, α/2 s 𝛽0
𝜷
∗
1 ± t n-2, α/2 s 𝛽1

Optimización del diseño de la regresión
Una vez que se han establecido las incertidumbres en una RMC

podemos extraer algunas conclusiones prácticas:
 La incertidumbre de 𝜷𝟏 es inversamente proporcional a

𝒏
𝒊=𝟏 𝒙𝒊 − 𝒙 ∗
𝟐 o lo que es lo mismo, a la desviación estándar de 𝒙 .
𝒊
Lo cual implica que la elección de valores de 𝒙𝒊 lo mas dispersos
posibles, beneficia la regresión. Lo mismo se aplica a 𝜷𝟎. No aumenta
los costos
 También se puede mejorar la regresión aumentando el número de

términos de la suma mencionada (más pruebas)
 Se puede actuar también disminuyendo el tamaño de S mejorando

la calidad de nuestras observaciones, ya que depende de
𝒏
𝒊=𝟏 𝒚𝒊 − 𝒚 ∗
𝟐

Optimización del diseño de la regresión
 Hay que tener siempre presente que estimar utilizando la Recta

Mínimos Cuadrados funciona en interpolaciones entre datos.
Cualquier extrapolación fuera de la validez del modelo no será válida
 La hipótesis nula más común es H0 : 𝛽1 = 0 es decir, no existe

dependencia alguna entre las dos variables.
Por tanto si no se rechaza, no se debe utilizar el modelo lineal para
estimar y a partir de x
 Las Predicciones basadas en la recta de mínimos cuadrados

son más precisas cerca del centro del diagrama de dispersión y
lo son menos cerca de los extremos.

Intervalos de predicción para futuras observaciones
Nos interesa analizar los intervalos de confianza de un pronóstico para

una variable y a partir de un valor individual x en lugar del valor medio
X* . En función de los datos de la muestra se obtendrá:
∗ ∗
𝒚 = 𝜷0 + 𝜷𝟏 x = y ∗ + εi = 𝜷 0+ 𝜷 𝟏 x + εi
El error de pronóstico se aproximará por la suma de las incertidumbres s2 y

sy2 .
𝟏 𝒙∗𝟐
s 𝐩𝐫𝐞𝐝 = s 𝟏 + + 𝒏 𝟐
𝒏 𝒊=𝟏 𝒙𝒊 −𝒙∗
con intervalos definidos con
∗ ∗
𝜷 0+ 𝜷 𝟏 xj ± t n-2, α/2 s 𝐩𝐫𝐞𝐝
Bandas de predicción
1) Las dos curvas verdes punteadas son las bandas de confianza de 95%.
Dado cualquier contenido de oxígeno, se tiene una confianza de 95% de que la media de la
fuerza para soldaduras con ese contenido de oxígeno se encuentre entre los límites de
confianza superior e inferior
2) Las dos curvas punteadas magenta son las bandas de predicción de 95%.
Dada cualquier soldadura específica, se tiene una confianza de 95% de que la fuerza para esa
soldadura específica se encuentre entre los límites de predicción superior e inferior
correspondiendo al contenido de oxígeno de esa soldadura.
Interpretación completa de la regresión con MINTAB
1) Ecuación de la recta de MC
8 ∗ ∗
2) 𝜷 0= 49,78 𝜷 𝟏 = 16,92
3) Desviaciones Estándar s 𝛽0 y s 𝛽1
4) Estadístico t-Student para probar las hipótesis

∗ ∗
𝜷 0= 0 y 𝜷 𝟏 = 0
5) P-valores correspondientes para probar las
∗ ∗
hipótesis 𝜷 0 = 0 y 𝜷 𝟏 = 0. SI no son lo suficientemente
pequeños, el ajuste no es fiable.
6 7
6) Estimación s estandar del error
2 3 4 5 7) r2 cuadrado del coeficiente de correlación o
coeficiente de determinación
8) Análisis de la varianza. La columa SS incluye la
suma de los cuadrados de la regresión (Regression),
1 suma de los cuadrados del error (Error) y la suma
total de los cuadrados (Total).
9) Observaciones inusuales. Llamada de atención

para los puntos que están fuera de los intervalos.
9
10) Los intervalos de confianza y los de predicción para

valores de x especificados por el usuario. Se hace una
previsión de la fuerza para un valor de oxígeno de 1,7. El
“Fit” es el valor ajustado yˆ= βˆ0 + βˆ1x y “SE Fit” es la
10 desviación estándar syˆ. Después se presentan los
intervalos de confianza y de predicción del
95%, respectivamente.
.
9
Si la gráfica de residuos contra valores ajustados no muestra una tendencia importante de la

curva, y es homoscedástica (la dispersión vertical no varía demasiado a lo largo de la longitud
horizontal de la gráfica, excepto quizás cerca de los bordes), entonces es probable, pero no se
tiene la seguridad, de que los supuestos del modelo lineal sean válidos.
Sin embargo, si la gráfica de residuos sí muestra tendencia importante o se curva,
o es heteroscedástica, se tiene la seguridad de que los supuestos del modelo lineal no
son válidos.

Transformación de variables
y = 8,65 + 1,910 x y2 = -101,23 + 100,421 x
 Determinación de que transformación se debe aplicar

 Las transformaciones no siempre funcionan
 Las gráficas de residuos con pocos puntos son difíciles de
interpretar
 Hay que tener en cuenta al calcular los intervalos de confianza de las

variables transformadas que funciona solamente para el intervalo de
predicción de forma directa.

Datos Atípicos y otros ajustes
 Transformar variables no es el único método para analizar los datos cuando la
gráfica de residuos indica un problema.
 Cuando ésta es heteroscedástica, algunas veces se utiliza una técnica llamada
mínimos cuadrados ponderados. En este método, las coordenadas x e y de cada
punto se multiplican por una cantidad conocida como peso
 También se pueden hacer regresiones no lineales
 Las leyes físicas son aplicables a todas las futuras observaciones.
 Un modelo empírico es válido solamente para los datos a los que se ajusta.
Esto último puede o no ser útil para predecir los resultados para las siguientes
observaciones.
 Determinar si se aplica un modelo empírico a una futura observación requiere

juicio científico más que análisis estadístico.

Regresión Múltiple
Se tiene una muestra de n elementos, y para cada uno se ha medido una

variable dependiente y y p variables independientes x1, . . . , xp.
El i-ésimo elemento de la muestra se puede representar por una variable

dependiente y p independientes de la forma (yi, x1i, . . . , xpi).
En consecuencia, se puede ajustar al modelo de regresión múltiple
𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐩xpi + ε
Hay algunos casos especiales del modelo de regresión múltiple que con
frecuencia se utilizan en la práctica.
Uno es el modelo de regresión polinomial, en el cual las variables
independientes son potencias de una sola variable. El modelo de
regresión polinomial de grado p es
𝒚 = 𝜷0 + 𝜷𝟏 x + 𝜷𝟐x2 + … + 𝜷𝐩xp + ε

∗ ∗ ∗
𝒚^ = 𝜷 𝜷 𝟏 x1i + … + 𝜷 𝐩xpi
0+
∗ ∗ ∗
ei = 𝒚𝒊 − 𝜷 0 - 𝜷 𝟏 x1i - … - 𝜷 𝐩xpi
𝐧
∗ 𝟐
Suma de los cuadrados de la regresión SSR (𝐲^𝐢 − 𝐲 )
𝐢=𝟏
𝐧
Suma de los cuadrados del error SSE (𝐲𝐢 − 𝒚𝒊^)𝟐
𝐢=𝟏
𝐧
∗ 𝟐
Suma total de los cuadrados SST (𝐲𝐢 − 𝐲 )
𝐢=𝟏
SST = SSR + SSE

Si los errores en la estimación de las magnitudes de la población ε1, …, εn son

independientes ente sí y tienen media 0 (no hay sesgo), tienen la misma varianza y
se distribuyen según normal, se puede estimar esa varianza de los errores.
En un modelo de regresión múltiple 𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝒑xpi + εi es estas
condiciones las observaciones y1, …, yn son variables aleatorias independientes
que siguen una distribución normal cuya media y varianza son:
µyi= 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐩xpi

σ2yi = σ2

Los estadísticos s2, R y F
𝒏 𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^ 𝐒𝑺𝑬
s2 = =
𝒏−𝒑 −𝟏 𝒏 −𝒑 −𝟏
𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗ − 𝒏
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^
𝟐
𝐒𝐒𝐓−𝐒𝐒𝐄 𝐒𝑺𝑹
r2 = 𝒏 𝟐 = =
𝒚
𝒊=𝟏 𝒊 −𝒚∗ 𝐒𝐒𝐓 𝐒𝐒𝐓
( 𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗
𝟐
− 𝒏 𝒚
𝒊=𝟏 𝒊 −𝒚 𝒊
^ 𝟐)/𝒑
(𝐒𝐒𝐓−𝐒𝐒𝐄)/𝐩 𝐒𝑺𝑹/𝒑
F= 𝒏 = =
𝒊=𝟏 𝒚𝒊 −𝒚^ 𝟐/(𝒏 − 𝒑 −𝟏 ) 𝐒𝐒𝐄/(𝐧−𝐩−𝟏) 𝐒𝐒𝐓/(𝐧−𝐩−𝟏)

Regresión Múltiple en Mintab
Regression Analysis: MPG versus odometro; peso

media de los cuadrados, que son las
Analysis of Variance sumas de cuadrados divididas entre
Source DF Adj SS Adj MS F-Value P-Value
sus respectivos grados de libertad
Regression 2 8.7197 4.3599 43.05 0.000
odometro 1 0.7895 0.7895 7.80 0.016 Este estadístico es igual al cociente
peso 1 8.3204 8.3204 82.16 0.000 del estimador del coeficiente y su
Error 12 1.2153 0.1013 desviación estándar.
Total 14 9.9350
los grados de libertad para la
la suma de los cuadrados de la
Model Summary
regresión igual al número de
regresión SSR, la suma de los
variables independientes
cuadrados del error SSE, y la suma
S R-sq R-sq(adj) R-sq(pred)
0.318237 87.77% 85.73% 82.56%
total de los cuadrados SST
Coefficients
Term Coef SE Coef T-Value P-Value VIF estadístico t de Student para probar la
Constant 8.241 0.287 28.70 0.000 hipótesis nula de que el valor verdadero del
odometro -0.00392 0.00141 -2.79 0.016 1.01
coeficiente es igual a 0 (independencia).
peso -0.1083 0.0119 -9.06 0.000 1.01
el estimador de los coeficientes y las

Regression Equation
estimaciones de sus desviaciones
MPG = 8,241 - 0,00392 odometro - 0,1083 peso estándar (errores)
Regresión Múltiple en Mintab
Prediction for MPG
Regression Equation
MPG = 8,241 - 0,00392 odometro - 0,1083 peso
Variable Setting Los valores de las variables

independientes que se han
odometro 15 especificado
peso 10.5
el estimador de la desviación
estándar de y, que se utiliza para
calcular el intervalo de confianza
Fit SE Fit 95% CI 95% PI de 95%
7.04511 0.175131 (6.66353; 7.42669) (6.25367; 7.83655)
intervalo de predicción de 95% para una

futura observación de la variable dependiente
el valor calculado de la variable cuando se establecen las variables
dependiente, obtenido al independientes para algunos valores dados
sustituir estos valores en la (más ancho)
ecuación
TEMA de regresión ajustada. y Regresión
3. Correlación tomado de Referencia 1)
Comprobación de supuestos en la regresión múltiple

Comprobación de supuestos en la regresión múltiple

Confusión y colinealidad
Ajustar modelos por separado para cada variable no es lo mismo que

ajustar el modelo multivariado. Confusión

Colinealidad
Cuando dos variables independientes están muy fuertemente correlacionadas la

regresión múltiple no puede ser capaz de determinar cuál es la importante. En este
caso, se dice que las variables son colineales.
Se puede corregir con más datos o replanteando el modelo.

Selección de modelos
La navaja de Occam
El mejor modelo científico es el modelo más simple que explica los hechos
observados
El principio de parsimonia
Un modelo debe contener el menor número de variables necesario para ajustar los
datos
Este principio habría que matizarlo con las siguientes consideraciones
 Un modelo lineal siempre debe contener una ordenada en el origen, a
menos que una teoría física indique otra cosa.
 Si una potencia xn de una variable se incluye en un modelo, también estarán

incluidas todas las potencias inferiores x2, . . . , xn-1, a menos que una teoría
física indique lo contrario.
 Si un producto xixj de dos variables está incluido en un modelo, entonces

las variables xi y xj también deben estar incluidas por separado, a menos
que una teoría física indique algo distinto.
Selección de modelos

Determinando si se pueden eliminar variables de un modelo
𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐤xki + 𝜷𝒌 + 𝟏 x1k+1i + … + 𝜷𝐩xpi + ε

Se desea probar la hipótesis nula
H0 : 𝜷𝒌 + 𝟏 = …. = 𝜷𝐩 = 0
De forma que si es cierta, se puede modelar con las variables, sin perdida de significación
𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐤xki + ε
En ese caso, e realiza mediante el uso del estadístico f definido sobre la diferencia
(SSE reducido – SSE Completo) que se aproxima a (p – k) σ.
(𝑺𝑺𝑬𝒓𝒆𝒅𝒖𝒄𝒊𝒅𝒐 −𝑺𝑺𝑬𝒄𝒐𝒎𝒑𝒍𝒆𝒕𝒐)/(𝒑−𝒌)
f=
𝑺𝑺𝑬𝒄𝒐𝒎𝒑𝒍𝒆𝒕𝒐/(𝒏 −𝒑−𝟏)

Determinando si se pueden eliminar variables de un modelo
TEMA 3. Correlación y Regresión tomado de Referencia 1) 0.05 < P < 0.10

Regresión paso a paso (stepwise)
El modelo ajusta bien, y solamente en relación con el ajuste es razonable. Se indica que este modelo tiene una
característica indeseable que contiene el término de interacción Velocidad ⋅ Pausa sin contener la variable
Velocidad sola. Esto último indica una debilidad de todos los procedimientos automáticos de selección de
variables, incluyendo la regresión stepwise y la regresión con los mejores subconjuntos. Operan sólo con base en
la bondad del ajuste, y pueden no considerar las relaciones entre variables independientes que son importantes

0.05 < P < 0.10 P > 0.10

Regresión con los mejores subconjuntos
R2 de cada modelo, estándar, ajustado (corregido

con el número de variables que entran en el
modelo ) y Cp de Mallows
Raiz cuadrada
de la
Numero de estimación. S2
variables del de cada modelo
modelo
Ordinal de
las
mejores
combinaci
ones

Es importante en este caso utilizar la opción ‘siempre

presente’ para asegurarse que las variables de orden 1
están presentes (principio de parsimonia).
Mallows'Cp compara la precisión y el sesgo del modelo completo con modelos
con el mejor conjunto de estimadores equilibrando el sesgo y la precisión.
Excesivos predictores empeoran la precisión y demasiado pocos el sesgo.
Un número de Mallows'Cp próximo al número de predictores es signo de buen
ajuste.

Limitaciones de la modelización estadística
Los procedimientos de selección de modelos algunas veces encuentran modelos cuando no

deben hacerlo
Un coeficiente de correlación se puede calcular entre cualesquiera dos variables. A

veces, dos variables sin ninguna relación real estarán correlacionadas fuertemente por
probabilidad.

Limitaciones de la modelización estadística
Cuando se seleccione un modelo de regresión, hay que tener siempre presente que:
 Si no existe un modelo teórico consistente para apoyarse, muchos modelos

diferentes ajustarán los datos casi igualmente bien.
 Los métodos para elegir un modelo implican estadísticos (R2, el

estadístico F, Cp) cuyos valores dependen de los datos. Por tanto, si el
experimento se repite, estos estadísticos tendrán valores diferentes, y los
modelos diferentes pueden erróneamente interpretarse como mejores
 Algunas o todas las variables independientes en un modelo seleccionado pueden
no estar realmente relacionadas con la variable dependiente. Siempre que sea
posible, los experimentos se deben repetir para evaluar estas relaciones
aparentes
 La selección de modelos es un arte, no una ciencia.
 La interpretación experta en la materia que se esté tratando siempre

imprescindible para poder obtener resultados plausibles

Curso Estadistica Tema3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso Estadistica Tema3

Cargado por

Copyright:

Formatos disponibles

Curso de Estadística aplicada a Minería

TEMA 1. INTRODUCCIÓN A LA ESTADÍSTICA

TEMA 3. Correlación y Regresión tomado de Referencia 1) 1

• Correlación y Regresión Lineal Simple

TEMA 3. Correlación y Regresión tomado de Referencia 1)

• Ajustamos una recta de regresión para

TEMA 3. Correlación y Regresión tomado de Referencia 1)

TEMA 3. Correlación y Regresión tomado de Referencia 1)

El coeficiente de correlación representa el promedio de los productos

o sustituyendo la desviación por su valor

TEMA 3. Correlación y Regresión tomado de Referencia 1)

TEMA 3. Correlación y Regresión tomado de Referencia 1)

TEMA 3. Correlación y Regresión tomado de Referencia 1)

TEMA 3. Correlación y Regresión tomado de Referencia 1)

 Los valores de r están entre -1 y 1. A mayor valor absoluto, mayor

TEMA 3. Correlación y Regresión tomado de Referencia 1)

 r sólo mide una relación lineal. No es válido si su naturaleza es de otro

 El tratamiento de los datos atípicos que distorsionan r

con dato atípico r= 0,26

TEMA 3. Correlación y Regresión tomado de Referencia 1)

Que dos variables tengan una r alta implica que están

La solución está en el uso de análisis factorial o regresión

TEMA 3. Correlación y Regresión tomado de Referencia 1)

• Sean X e Y variables aleatorias con distribución normal bivariada

TEMA 3. Correlación y Regresión tomado de Referencia 1)

Tiene la distribución t de Student con n-2 grados de libertad

TEMA 3. Correlación y Regresión tomado de Referencia 1)

La recta de mínimos cuadrados se define como aquella para la que la suma de

Comenzamos expresando el error cuadrados de los residuos ei en

Y utilizando multiplicadores de Lagrange para minimizar y resolver las

Es importante entender la diferencia entre los estimadores de mínimos

Los residuos constituyen las distancias verticales de los valores

TEMA 3. Correlación y Regresión tomado de Referencia 1)

TEMA 3. Correlación y Regresión tomado de Referencia 1)

Coeficiente de Correlación que indica la proporción de la varianza en y

TEMA 3. Correlación y Regresión tomado de Referencia 1)

TEMA 3. Correlación y Regresión tomado de Referencia 1)

TEMA 3. Correlación y Regresión tomado de Referencia 1)

Los intervalos con un nivel de

TEMA 3. Correlación y Regresión tomado de Referencia 1)

Una vez que se han establecido las incertidumbres en una RMC

 La incertidumbre de 𝜷𝟏 es inversamente proporcional a

 También se puede mejorar la regresión aumentando el número de

 Se puede actuar también disminuyendo el tamaño de S mejorando

TEMA 3. Correlación y Regresión tomado de Referencia 1)

 Hay que tener siempre presente que estimar utilizando la Recta

 La hipótesis nula más común es H0 : 𝛽1 = 0 es decir, no existe

 Las Predicciones basadas en la recta de mínimos cuadrados

TEMA 3. Correlación y Regresión tomado de Referencia 1)

Nos interesa analizar los intervalos de confianza de un pronóstico para

El error de pronóstico se aproximará por la suma de las incertidumbres s2 y

4) Estadístico t-Student para probar las hipótesis

9) Observaciones inusuales. Llamada de atención

10) Los intervalos de confianza y los de predicción para

Si la gráfica de residuos contra valores ajustados no muestra una tendencia importante de la

TEMA 3. Correlación y Regresión tomado de Referencia 1)

y = 8,65 + 1,910 x y2 = -101,23 + 100,421 x

 Determinación de que transformación se debe aplicar

 Hay que tener en cuenta al calcular los intervalos de confianza de las

TEMA 3. Correlación y Regresión tomado de Referencia 1)

 También se pueden hacer regresiones no lineales

 Las leyes físicas son aplicables a todas las futuras observaciones.

 Determinar si se aplica un modelo empírico a una futura observación requiere