Está en la página 1de 51

Curso de Estadística aplicada a Minería

TEMA 1. INTRODUCCIÓN A LA ESTADÍSTICA


TEMA 2. INTRODUCCIÓN A LOS EXPERIMENTOS
TEMA 3. CORRELACIÓN Y REGRESIÓN
TEMA 4. EXPERIMENTOS FACTORIALES
TEMA 5. CONTROL ESTADÍSTICO DE CALIDAD
TEMA 6. SERIES TEMPORALES

TEMA 3. Correlación y Regresión tomado de Referencia 1) 1


Curso de Estadística aplicada a Minería

• Correlación y Regresión Lineal Simple


• Incertidumbres en los coeficientes de mínimos cuadrados
• Comprobación de supuestos y transformación de datos
• Regresión Múltiple
• Confusión y colinealidad
• Selección de modelos

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Correlación y regresión lineal simple
• Relación entre pares de valores (x,y) de dos
variables aleatorias

• Ajustamos una recta de regresión para


visualizar esa relación

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Correlación y Regresión lineal simple
coeficiente de correlación , como ya se ha visto en el tema 1, es una
medida numérica de la fuerza de la relación que independiza el ajuste al
factor de escala de las variables.
Para realizarlo:
Si (x1, y1), . . . , (xn, yn) son los n puntos del diagrama de dispersión.
 Se deducen las medias y las desviaciones estándar de las x sí
como de las y
 Se convierte cada x y cada y , a las unidades estándar de
puntajes z
(xi – x*)/sx , (yi – y*)/sy

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Definición de Correlación

El coeficiente de correlación representa el promedio de los productos


de los puntajes z, excepto que se divide entre n – 1 en lugar de n:

𝟏 𝒏 𝒙𝒊 −𝒙∗ 𝒚𝒊 −𝒚∗
r=
𝒏−𝟏 𝒊=𝟏 𝒔𝒙 𝒔𝒚

o sustituyendo la desviación por su valor

𝒏
𝒊=𝟏 𝒙𝒊 −𝒙∗ 𝒚𝒊 −𝒚∗
r=
𝒏 𝒙𝒊 −𝒙∗ 𝟐 𝒏 𝒚𝒊 −𝒚∗ 𝟐
𝒊=𝟏 𝒊=𝟏

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería

¿Cómo funciona r?

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería

¿Cómo funciona r?

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
¿Cómo funciona r?

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Propiedades del coeficiente de correlación r

 Los valores de r están entre -1 y 1. A mayor valor absoluto, mayor


correlación
 Si r es > 0 recta con pendiente positiva < 0, negativa
 Si r = 0 no hay correlación. Si r ≠ 0, la hay
 Cuando la recta es horizontal o vertical, r está indeterminado.
 r es un número puro, adimensional, lo que permite comparar datos de
muy distinta naturaleza
 r permanece constante en cada una de las siguientes operaciones:
 Multiplicar cada valor de una variable por una constante positiva.
 Sumar una constante a cada valor de una variable.
 Intercambiar los valores de x e y.

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Propiedades del coeficiente de correlación r

 r sólo mide una relación lineal. No es válido si su naturaleza es de otro


tipo (ejm. cuadrática)

 El tratamiento de los datos atípicos que distorsionan r


siempre es complicada.

con dato atípico r= 0,26


sin dato atípico r=1

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Propiedades del coeficiente de correlación r

Que dos variables tengan una r alta implica que están


correlacionadas, pero no dice nada de su dependencia a priori.
Puede haber una tercera variable de la que ambas dependan y
explique el comportamiento de ambas.

La solución está en el uso de análisis factorial o regresión


multivariable

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Inferencia sobre la correlación poblacional
Muy importantes relaciones cuando hablemos de intervalos de confianza.

• Sean X e Y variables aleatorias con distribución normal bivariada


• Sea ρ la correlación entre la población X e Y
• Sean (x1, y1), . . . , (xn, yn) una muestra aleatoria de la distribución conjunta X e Y
• Sea r la correlación muestral de los n puntos

𝟏 𝟏+𝒓
W= ln
𝟐 𝟏−𝒓
está casi normalmente distribuida, con la media dada por media

𝟏 1+ρ
µw = ln
𝟐 1−ρ
Y varianza

𝟏
𝝈𝟐 𝒘 =
𝒏−𝟑

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Distribución normal bivariada

despejando ρ

𝒆𝟐µ𝒘 −1
ρ=
𝒆𝟐µ𝒘 +1
La prueba de hipótesis nula de la forma ρ = 0, p ≤ 0, p > 0
se sigue el procedimiento ya descrito

Cuando ρ =0

𝐫 𝐧−𝟐
U=
𝟏−𝐫𝟐

Tiene la distribución t de Student con n-2 grados de libertad

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Recta de Mínimos Cuadrados

∗ ∗
𝒚= 𝜷 0+ 𝜷 𝟏 x

La recta de mínimos cuadrados se define como aquella para la que la suma de


𝒏 𝟐
cuadrados de los residuos 𝒊=𝟏 𝒆 𝒊 se minimiza.
En este sentido, la recta de mínimos cuadrados ajusta mejor los datos que
cualquier otra recta
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Cálculo de la Recta de MC

Comenzamos expresando el error cuadrados de los residuos ei en


∗ ∗
función de β 0 y β 1
∗ ∗
ei = yi – y^i = yi - 𝛽 0 -𝛽 1 xi
∗ ∗
Por tanto β 0 y β 1 son las cantidades que minimizan la suma

𝒏 𝟐 𝒏 ∗ ∗
𝒆 𝒊=𝟏 (yi −𝛽 −𝛽 )
S= = xi 𝟐
𝒊=𝟏 𝒊 0 1

Y utilizando multiplicadores de Lagrange para minimizar y resolver las


ecuaciones obtenemos:

𝐧
∗ 𝐢=𝟏 𝐱𝐢 −𝐱∗ 𝐲𝐢 −𝐲∗
𝛃 𝟏 = 𝐧 𝟐
𝐢=𝟏 𝐢𝐱 −𝐱∗
∗ ∗
𝛃 0= y* - 𝛃 𝟏 x*
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Cálculo de la Recta de MC

∗ ∗
Los valores 𝜷 0 y 𝜷 𝟏 son en realidad estimadores de los valores
estimados 𝜷0 y 𝜷𝟏 que corresponden con una ordenada en el
origen y una pendiente verdadera de la población

Es importante entender la diferencia entre los estimadores de mínimos


cuadrados los valores verdaderos . Los valores verdaderos son
constantes cuyos valores no se conocen. Los estimadores son
cantidades que se calculan a partir de los datos. Se pueden utilizar los
estimadores como aproximaciones de los valores verdaderos

Los residuos constituyen las distancias verticales de los valores


observados y la recta de mínimos cuadrados y los errores son las
distancias del a la recta verdadera

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Cálculo de la Recta de MC

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Bondad del Ajuste. Coeficiente de determinación
La suma errores de la estimación en la muestra respecto a la media estimada se
denomina suma total de los cuadrados 𝐧
∗ 𝟐
(𝐲𝐢 − 𝐲 )
𝐢=𝟏
La suma de los residuos de ajuste de la estimación se denomina suma de
los cuadrados de los errores 𝐧

(𝐲𝐢 − 𝒚𝒊^)𝟐
𝐢=𝟏
Buscamos una medida de la reducción de la incertidumbre usando Recta MC
𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗ − 𝒏
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^
𝟐
𝒔𝒖𝒎𝒂 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐𝒔 𝒓𝒆𝒈𝒓𝒆𝒔𝒊𝒐𝒏
r2 = 𝒏 𝟐 =
𝒚
𝒊=𝟏 𝒊 −𝒚∗ 𝒔𝒖𝒎𝒂 𝒕𝒐𝒕𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐𝒔

Suma total cuadrados = Suma de cuadrados de la regresión + Suma de cuadrados de los errores

Coeficiente de Correlación que indica la proporción de la varianza en y


TEMA 3. Correlación yexplicada por la regresión
Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Regresión en función de correlación
La recta de mínimos cuadrados es la que pasa a través del centro de masa

del diagrama de dispersión (x*,y*) con pendiente 𝜷 𝟏

𝒏 𝒚𝒊 −𝒚∗ 𝟐
𝒊=𝟏 𝒔𝒙
=𝒔
𝒏 𝒙𝒊 −𝒙∗ 𝟐 𝒚
𝒊=𝟏

∗ 𝒔𝒙
𝜷 𝟏 =𝒓𝒔
𝒚


y^ - y* = 𝜷 𝟏 (x – x*)

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Incertidumbres en los coeficientes de mínimos cuadrados
Los errores de la observación del datos son el resultado de múltiples causas. En
particular, necesitaríamos conocer cual es el error de estimación de los coeficientes
∗ ∗
𝜷0 ,𝜷𝟏 de la población a partir de los calculados desde la muestra 𝜷 0 ,𝜷 𝟏

𝒚𝒊 = 𝜷0 + 𝜷𝟏 xi + εi
Si los errores en la estimación de las magnitudes de la población son independientes
ente sí y tienen media 0 (no hay sesgo), tienen la misma varianza y se distribuyen según
normal, se puede estimar esa varianza de los errores.

𝒏 𝒏
𝒆
𝒊=𝟏 𝒊
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^ 𝟐
(𝟏−𝒓𝟐) 𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗
𝟐
s2 = = =
𝒏−𝟐 𝒏−𝟐 𝒏−𝟐

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Incertidumbres en los coeficientes de mínimos cuadrados


Bajo los supuesto enunciados las variables aleatorias 𝜷 0 y

𝜷 𝟏 correspondientes a las RMC de las muestras se distribuyen normalmente
∗ ∗
con medias 𝜷 0 y 𝜷 𝟏 y las desviaciones se calculan :

𝟏 𝒙∗𝟐
s 𝛃0 = s + 𝒏 𝟐
𝒏 𝒊=𝟏 𝒙𝒊 −𝒙∗

s
s 𝛃𝟏 =
𝒏 𝒙𝒊 −𝒙∗ 𝟐
𝒊=𝟏

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Incertidumbres en los coeficientes de mínimos cuadrados (MinTab)
∗ ∗
Bajo los supuesto enunciados cantidades
β0 − β0 y
β1 − β1 tienen una
s 𝛽0 s 𝛽1
distribución t de Student con n-2 grados de libertad

Los intervalos con un nivel de


confianza de 100( 1 – α)% para β0 y
β1 están dados por

𝜷

0 ± t n-2, α/2 s 𝛽0
𝜷

1 ± t n-2, α/2 s 𝛽1

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Optimización del diseño de la regresión

Una vez que se han establecido las incertidumbres en una RMC


podemos extraer algunas conclusiones prácticas:

 La incertidumbre de 𝜷𝟏 es inversamente proporcional a


𝒏
𝒊=𝟏 𝒙𝒊 − 𝒙 ∗
𝟐 o lo que es lo mismo, a la desviación estándar de 𝒙 .
𝒊
Lo cual implica que la elección de valores de 𝒙𝒊 lo mas dispersos
posibles, beneficia la regresión. Lo mismo se aplica a 𝜷𝟎. No aumenta
los costos

 También se puede mejorar la regresión aumentando el número de


términos de la suma mencionada (más pruebas)

 Se puede actuar también disminuyendo el tamaño de S mejorando


la calidad de nuestras observaciones, ya que depende de
𝒏
𝒊=𝟏 𝒚𝒊 − 𝒚 ∗
𝟐

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Optimización del diseño de la regresión

 Hay que tener siempre presente que estimar utilizando la Recta


Mínimos Cuadrados funciona en interpolaciones entre datos.
Cualquier extrapolación fuera de la validez del modelo no será válida

 La hipótesis nula más común es H0 : 𝛽1 = 0 es decir, no existe


dependencia alguna entre las dos variables.
Por tanto si no se rechaza, no se debe utilizar el modelo lineal para
estimar y a partir de x

 Las Predicciones basadas en la recta de mínimos cuadrados


son más precisas cerca del centro del diagrama de dispersión y
lo son menos cerca de los extremos.

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Intervalos de predicción para futuras observaciones

Nos interesa analizar los intervalos de confianza de un pronóstico para


una variable y a partir de un valor individual x en lugar del valor medio
X* . En función de los datos de la muestra se obtendrá:

∗ ∗
𝒚 = 𝜷0 + 𝜷𝟏 x = y ∗ + εi = 𝜷 0+ 𝜷 𝟏 x + εi

El error de pronóstico se aproximará por la suma de las incertidumbres s2 y


sy2 .
𝟏 𝒙∗𝟐
s 𝐩𝐫𝐞𝐝 = s 𝟏 + + 𝒏 𝟐
𝒏 𝒊=𝟏 𝒙𝒊 −𝒙∗
con intervalos definidos con
∗ ∗
𝜷 0+ 𝜷 𝟏 xj ± t n-2, α/2 s 𝐩𝐫𝐞𝐝
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Bandas de predicción

1) Las dos curvas verdes punteadas son las bandas de confianza de 95%.
Dado cualquier contenido de oxígeno, se tiene una confianza de 95% de que la media de la
fuerza para soldaduras con ese contenido de oxígeno se encuentre entre los límites de
confianza superior e inferior
2) Las dos curvas punteadas magenta son las bandas de predicción de 95%.
Dada cualquier soldadura específica, se tiene una confianza de 95% de que la fuerza para esa
soldadura específica se encuentre entre los límites de predicción superior e inferior
correspondiendo al contenido de oxígeno de esa soldadura.
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Interpretación completa de la regresión con MINTAB

1) Ecuación de la recta de MC
8 ∗ ∗
2) 𝜷 0= 49,78 𝜷 𝟏 = 16,92
3) Desviaciones Estándar s 𝛽0 y s 𝛽1

4) Estadístico t-Student para probar las hipótesis


∗ ∗
𝜷 0= 0 y 𝜷 𝟏 = 0
5) P-valores correspondientes para probar las
∗ ∗
hipótesis 𝜷 0 = 0 y 𝜷 𝟏 = 0. SI no son lo suficientemente
pequeños, el ajuste no es fiable.
6 7
6) Estimación s estandar del error
2 3 4 5 7) r2 cuadrado del coeficiente de correlación o
coeficiente de determinación
8) Análisis de la varianza. La columa SS incluye la
suma de los cuadrados de la regresión (Regression),
1 suma de los cuadrados del error (Error) y la suma
total de los cuadrados (Total).

9) Observaciones inusuales. Llamada de atención


para los puntos que están fuera de los intervalos.
9
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Interpretación completa de la regresión con MINTAB

10) Los intervalos de confianza y los de predicción para


valores de x especificados por el usuario. Se hace una
previsión de la fuerza para un valor de oxígeno de 1,7. El
“Fit” es el valor ajustado yˆ= βˆ0 + βˆ1x y “SE Fit” es la
10 desviación estándar syˆ. Después se presentan los
intervalos de confianza y de predicción del
95%, respectivamente.
.

9
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Interpretación completa de la regresión con MINTAB

Si la gráfica de residuos contra valores ajustados no muestra una tendencia importante de la


curva, y es homoscedástica (la dispersión vertical no varía demasiado a lo largo de la longitud
horizontal de la gráfica, excepto quizás cerca de los bordes), entonces es probable, pero no se
tiene la seguridad, de que los supuestos del modelo lineal sean válidos.
Sin embargo, si la gráfica de residuos sí muestra tendencia importante o se curva,
o es heteroscedástica, se tiene la seguridad de que los supuestos del modelo lineal no
son válidos.

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Transformación de variables

y = 8,65 + 1,910 x y2 = -101,23 + 100,421 x

 Determinación de que transformación se debe aplicar


 Las transformaciones no siempre funcionan
 Las gráficas de residuos con pocos puntos son difíciles de
interpretar

 Hay que tener en cuenta al calcular los intervalos de confianza de las


variables transformadas que funciona solamente para el intervalo de
predicción de forma directa.

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Datos Atípicos y otros ajustes
 Transformar variables no es el único método para analizar los datos cuando la
gráfica de residuos indica un problema.
 Cuando ésta es heteroscedástica, algunas veces se utiliza una técnica llamada
mínimos cuadrados ponderados. En este método, las coordenadas x e y de cada
punto se multiplican por una cantidad conocida como peso

 También se pueden hacer regresiones no lineales

 Las leyes físicas son aplicables a todas las futuras observaciones.

 Un modelo empírico es válido solamente para los datos a los que se ajusta.
Esto último puede o no ser útil para predecir los resultados para las siguientes
observaciones.

 Determinar si se aplica un modelo empírico a una futura observación requiere


juicio científico más que análisis estadístico.

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Regresión Múltiple

Se tiene una muestra de n elementos, y para cada uno se ha medido una


variable dependiente y y p variables independientes x1, . . . , xp.

El i-ésimo elemento de la muestra se puede representar por una variable


dependiente y p independientes de la forma (yi, x1i, . . . , xpi).
En consecuencia, se puede ajustar al modelo de regresión múltiple

𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐩xpi + ε
Hay algunos casos especiales del modelo de regresión múltiple que con
frecuencia se utilizan en la práctica.
Uno es el modelo de regresión polinomial, en el cual las variables
independientes son potencias de una sola variable. El modelo de
regresión polinomial de grado p es

𝒚 = 𝜷0 + 𝜷𝟏 x + 𝜷𝟐x2 + … + 𝜷𝐩xp + ε

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Regresión Múltiple
∗ ∗ ∗
𝒚^ = 𝜷 𝜷 𝟏 x1i + … + 𝜷 𝐩xpi
0+
∗ ∗ ∗
ei = 𝒚𝒊 − 𝜷 0 - 𝜷 𝟏 x1i - … - 𝜷 𝐩xpi
𝐧
∗ 𝟐
Suma de los cuadrados de la regresión SSR (𝐲^𝐢 − 𝐲 )
𝐢=𝟏
𝐧
Suma de los cuadrados del error SSE (𝐲𝐢 − 𝒚𝒊^)𝟐
𝐢=𝟏
𝐧
∗ 𝟐
Suma total de los cuadrados SST (𝐲𝐢 − 𝐲 )
𝐢=𝟏

SST = SSR + SSE


TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Regresión Múltiple

Si los errores en la estimación de las magnitudes de la población ε1, …, εn son


independientes ente sí y tienen media 0 (no hay sesgo), tienen la misma varianza y
se distribuyen según normal, se puede estimar esa varianza de los errores.
En un modelo de regresión múltiple 𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝒑xpi + εi es estas
condiciones las observaciones y1, …, yn son variables aleatorias independientes
que siguen una distribución normal cuya media y varianza son:

µyi= 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐩xpi


σ2yi = σ2

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Los estadísticos s2, R y F

𝒏 𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^ 𝐒𝑺𝑬
s2 = =
𝒏−𝒑 −𝟏 𝒏 −𝒑 −𝟏

𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗ − 𝒏
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^
𝟐
𝐒𝐒𝐓−𝐒𝐒𝐄 𝐒𝑺𝑹
r2 = 𝒏 𝟐 = =
𝒚
𝒊=𝟏 𝒊 −𝒚∗ 𝐒𝐒𝐓 𝐒𝐒𝐓

( 𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗
𝟐
− 𝒏 𝒚
𝒊=𝟏 𝒊 −𝒚 𝒊
^ 𝟐)/𝒑
(𝐒𝐒𝐓−𝐒𝐒𝐄)/𝐩 𝐒𝑺𝑹/𝒑
F= 𝒏 = =
𝒊=𝟏 𝒚𝒊 −𝒚^ 𝟐/(𝒏 − 𝒑 −𝟏 ) 𝐒𝐒𝐄/(𝐧−𝐩−𝟏) 𝐒𝐒𝐓/(𝐧−𝐩−𝟏)

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Regresión Múltiple en Mintab

Regression Analysis: MPG versus odometro; peso


media de los cuadrados, que son las
Analysis of Variance sumas de cuadrados divididas entre
Source DF Adj SS Adj MS F-Value P-Value
sus respectivos grados de libertad
Regression 2 8.7197 4.3599 43.05 0.000
odometro 1 0.7895 0.7895 7.80 0.016 Este estadístico es igual al cociente
peso 1 8.3204 8.3204 82.16 0.000 del estimador del coeficiente y su
Error 12 1.2153 0.1013 desviación estándar.
Total 14 9.9350
los grados de libertad para la
la suma de los cuadrados de la
Model Summary
regresión igual al número de
regresión SSR, la suma de los
variables independientes
cuadrados del error SSE, y la suma
S R-sq R-sq(adj) R-sq(pred)
0.318237 87.77% 85.73% 82.56%
total de los cuadrados SST

Coefficients

Term Coef SE Coef T-Value P-Value VIF estadístico t de Student para probar la
Constant 8.241 0.287 28.70 0.000 hipótesis nula de que el valor verdadero del
odometro -0.00392 0.00141 -2.79 0.016 1.01
coeficiente es igual a 0 (independencia).
peso -0.1083 0.0119 -9.06 0.000 1.01

el estimador de los coeficientes y las


Regression Equation
estimaciones de sus desviaciones
MPG = 8,241 - 0,00392 odometro - 0,1083 peso estándar (errores)
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Regresión Múltiple en Mintab

Prediction for MPG

Regression Equation

MPG = 8,241 - 0,00392 odometro - 0,1083 peso

Variable Setting Los valores de las variables


independientes que se han
odometro 15 especificado
peso 10.5
el estimador de la desviación
estándar de y, que se utiliza para
calcular el intervalo de confianza
Fit SE Fit 95% CI 95% PI de 95%
7.04511 0.175131 (6.66353; 7.42669) (6.25367; 7.83655)

intervalo de predicción de 95% para una


futura observación de la variable dependiente
el valor calculado de la variable cuando se establecen las variables
dependiente, obtenido al independientes para algunos valores dados
sustituir estos valores en la (más ancho)
ecuación
TEMA de regresión ajustada. y Regresión
3. Correlación tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Comprobación de supuestos en la regresión múltiple

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Comprobación de supuestos en la regresión múltiple

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Confusión y colinealidad

Ajustar modelos por separado para cada variable no es lo mismo que


ajustar el modelo multivariado. Confusión

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Colinealidad

Cuando dos variables independientes están muy fuertemente correlacionadas la


regresión múltiple no puede ser capaz de determinar cuál es la importante. En este
caso, se dice que las variables son colineales.
Se puede corregir con más datos o replanteando el modelo.

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Selección de modelos

La navaja de Occam
El mejor modelo científico es el modelo más simple que explica los hechos
observados

El principio de parsimonia
Un modelo debe contener el menor número de variables necesario para ajustar los
datos
Este principio habría que matizarlo con las siguientes consideraciones
 Un modelo lineal siempre debe contener una ordenada en el origen, a
menos que una teoría física indique otra cosa.

 Si una potencia xn de una variable se incluye en un modelo, también estarán


incluidas todas las potencias inferiores x2, . . . , xn-1, a menos que una teoría
física indique lo contrario.

 Si un producto xixj de dos variables está incluido en un modelo, entonces


las variables xi y xj también deben estar incluidas por separado, a menos
que una teoría física indique algo distinto.
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Selección de modelos

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Determinando si se pueden eliminar variables de un modelo

𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐤xki + 𝜷𝒌 + 𝟏 x1k+1i + … + 𝜷𝐩xpi + ε


Se desea probar la hipótesis nula

H0 : 𝜷𝒌 + 𝟏 = …. = 𝜷𝐩 = 0

De forma que si es cierta, se puede modelar con las variables, sin perdida de significación
𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐤xki + ε
En ese caso, e realiza mediante el uso del estadístico f definido sobre la diferencia
(SSE reducido – SSE Completo) que se aproxima a (p – k) σ.

(𝑺𝑺𝑬𝒓𝒆𝒅𝒖𝒄𝒊𝒅𝒐 −𝑺𝑺𝑬𝒄𝒐𝒎𝒑𝒍𝒆𝒕𝒐)/(𝒑−𝒌)
f=
𝑺𝑺𝑬𝒄𝒐𝒎𝒑𝒍𝒆𝒕𝒐/(𝒏 −𝒑−𝟏)

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Determinando si se pueden eliminar variables de un modelo

TEMA 3. Correlación y Regresión tomado de Referencia 1) 0.05 < P < 0.10


Curso de Estadística aplicada a Minería
Regresión paso a paso (stepwise)

El modelo ajusta bien, y solamente en relación con el ajuste es razonable. Se indica que este modelo tiene una
característica indeseable que contiene el término de interacción Velocidad ⋅ Pausa sin contener la variable
Velocidad sola. Esto último indica una debilidad de todos los procedimientos automáticos de selección de
variables, incluyendo la regresión stepwise y la regresión con los mejores subconjuntos. Operan sólo con base en
la bondad del ajuste, y pueden no considerar las relaciones entre variables independientes que son importantes

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería

0.05 < P < 0.10 P > 0.10

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Regresión con los mejores subconjuntos

R2 de cada modelo, estándar, ajustado (corregido


con el número de variables que entran en el
modelo ) y Cp de Mallows

Raiz cuadrada
de la
Numero de estimación. S2
variables del de cada modelo
modelo

Ordinal de
las
mejores
combinaci
ones

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería

Es importante en este caso utilizar la opción ‘siempre


presente’ para asegurarse que las variables de orden 1
están presentes (principio de parsimonia).
Mallows'Cp compara la precisión y el sesgo del modelo completo con modelos
con el mejor conjunto de estimadores equilibrando el sesgo y la precisión.
Excesivos predictores empeoran la precisión y demasiado pocos el sesgo.
Un número de Mallows'Cp próximo al número de predictores es signo de buen
ajuste.

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Limitaciones de la modelización estadística

Los procedimientos de selección de modelos algunas veces encuentran modelos cuando no


deben hacerlo

Un coeficiente de correlación se puede calcular entre cualesquiera dos variables. A


veces, dos variables sin ninguna relación real estarán correlacionadas fuertemente por
probabilidad.

TEMA 3. Correlación y Regresión tomado de Referencia 1)


Curso de Estadística aplicada a Minería
Limitaciones de la modelización estadística
Cuando se seleccione un modelo de regresión, hay que tener siempre presente que:

 Si no existe un modelo teórico consistente para apoyarse, muchos modelos


diferentes ajustarán los datos casi igualmente bien.

 Los métodos para elegir un modelo implican estadísticos (R2, el


estadístico F, Cp) cuyos valores dependen de los datos. Por tanto, si el
experimento se repite, estos estadísticos tendrán valores diferentes, y los
modelos diferentes pueden erróneamente interpretarse como mejores
 Algunas o todas las variables independientes en un modelo seleccionado pueden
no estar realmente relacionadas con la variable dependiente. Siempre que sea
posible, los experimentos se deben repetir para evaluar estas relaciones
aparentes
 La selección de modelos es un arte, no una ciencia.

 La interpretación experta en la materia que se esté tratando siempre


imprescindible para poder obtener resultados plausibles

TEMA 3. Correlación y Regresión tomado de Referencia 1)

También podría gustarte