Documentos de Académico
Documentos de Profesional
Documentos de Cultura
𝟏 𝒏 𝒙𝒊 −𝒙∗ 𝒚𝒊 −𝒚∗
r=
𝒏−𝟏 𝒊=𝟏 𝒔𝒙 𝒔𝒚
𝒏
𝒊=𝟏 𝒙𝒊 −𝒙∗ 𝒚𝒊 −𝒚∗
r=
𝒏 𝒙𝒊 −𝒙∗ 𝟐 𝒏 𝒚𝒊 −𝒚∗ 𝟐
𝒊=𝟏 𝒊=𝟏
¿Cómo funciona r?
¿Cómo funciona r?
𝟏 𝟏+𝒓
W= ln
𝟐 𝟏−𝒓
está casi normalmente distribuida, con la media dada por media
𝟏 1+ρ
µw = ln
𝟐 1−ρ
Y varianza
𝟏
𝝈𝟐 𝒘 =
𝒏−𝟑
despejando ρ
𝒆𝟐µ𝒘 −1
ρ=
𝒆𝟐µ𝒘 +1
La prueba de hipótesis nula de la forma ρ = 0, p ≤ 0, p > 0
se sigue el procedimiento ya descrito
Cuando ρ =0
𝐫 𝐧−𝟐
U=
𝟏−𝐫𝟐
∗ ∗
𝒚= 𝜷 0+ 𝜷 𝟏 x
𝒏 𝟐 𝒏 ∗ ∗
𝒆 𝒊=𝟏 (yi −𝛽 −𝛽 )
S= = xi 𝟐
𝒊=𝟏 𝒊 0 1
𝐧
∗ 𝐢=𝟏 𝐱𝐢 −𝐱∗ 𝐲𝐢 −𝐲∗
𝛃 𝟏 = 𝐧 𝟐
𝐢=𝟏 𝐢𝐱 −𝐱∗
∗ ∗
𝛃 0= y* - 𝛃 𝟏 x*
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Cálculo de la Recta de MC
∗ ∗
Los valores 𝜷 0 y 𝜷 𝟏 son en realidad estimadores de los valores
estimados 𝜷0 y 𝜷𝟏 que corresponden con una ordenada en el
origen y una pendiente verdadera de la población
(𝐲𝐢 − 𝒚𝒊^)𝟐
𝐢=𝟏
Buscamos una medida de la reducción de la incertidumbre usando Recta MC
𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗ − 𝒏
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^
𝟐
𝒔𝒖𝒎𝒂 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐𝒔 𝒓𝒆𝒈𝒓𝒆𝒔𝒊𝒐𝒏
r2 = 𝒏 𝟐 =
𝒚
𝒊=𝟏 𝒊 −𝒚∗ 𝒔𝒖𝒎𝒂 𝒕𝒐𝒕𝒂𝒍 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐𝒔
Suma total cuadrados = Suma de cuadrados de la regresión + Suma de cuadrados de los errores
𝒏 𝒚𝒊 −𝒚∗ 𝟐
𝒊=𝟏 𝒔𝒙
=𝒔
𝒏 𝒙𝒊 −𝒙∗ 𝟐 𝒚
𝒊=𝟏
∗ 𝒔𝒙
𝜷 𝟏 =𝒓𝒔
𝒚
∗
y^ - y* = 𝜷 𝟏 (x – x*)
𝒚𝒊 = 𝜷0 + 𝜷𝟏 xi + εi
Si los errores en la estimación de las magnitudes de la población son independientes
ente sí y tienen media 0 (no hay sesgo), tienen la misma varianza y se distribuyen según
normal, se puede estimar esa varianza de los errores.
𝒏 𝒏
𝒆
𝒊=𝟏 𝒊
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^ 𝟐
(𝟏−𝒓𝟐) 𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗
𝟐
s2 = = =
𝒏−𝟐 𝒏−𝟐 𝒏−𝟐
∗
Bajo los supuesto enunciados las variables aleatorias 𝜷 0 y
∗
𝜷 𝟏 correspondientes a las RMC de las muestras se distribuyen normalmente
∗ ∗
con medias 𝜷 0 y 𝜷 𝟏 y las desviaciones se calculan :
𝟏 𝒙∗𝟐
s 𝛃0 = s + 𝒏 𝟐
𝒏 𝒊=𝟏 𝒙𝒊 −𝒙∗
s
s 𝛃𝟏 =
𝒏 𝒙𝒊 −𝒙∗ 𝟐
𝒊=𝟏
𝜷
∗
0 ± t n-2, α/2 s 𝛽0
𝜷
∗
1 ± t n-2, α/2 s 𝛽1
∗ ∗
𝒚 = 𝜷0 + 𝜷𝟏 x = y ∗ + εi = 𝜷 0+ 𝜷 𝟏 x + εi
1) Las dos curvas verdes punteadas son las bandas de confianza de 95%.
Dado cualquier contenido de oxígeno, se tiene una confianza de 95% de que la media de la
fuerza para soldaduras con ese contenido de oxígeno se encuentre entre los límites de
confianza superior e inferior
2) Las dos curvas punteadas magenta son las bandas de predicción de 95%.
Dada cualquier soldadura específica, se tiene una confianza de 95% de que la fuerza para esa
soldadura específica se encuentre entre los límites de predicción superior e inferior
correspondiendo al contenido de oxígeno de esa soldadura.
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Interpretación completa de la regresión con MINTAB
1) Ecuación de la recta de MC
8 ∗ ∗
2) 𝜷 0= 49,78 𝜷 𝟏 = 16,92
3) Desviaciones Estándar s 𝛽0 y s 𝛽1
9
TEMA 3. Correlación y Regresión tomado de Referencia 1)
Curso de Estadística aplicada a Minería
Interpretación completa de la regresión con MINTAB
Un modelo empírico es válido solamente para los datos a los que se ajusta.
Esto último puede o no ser útil para predecir los resultados para las siguientes
observaciones.
𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐩xpi + ε
Hay algunos casos especiales del modelo de regresión múltiple que con
frecuencia se utilizan en la práctica.
Uno es el modelo de regresión polinomial, en el cual las variables
independientes son potencias de una sola variable. El modelo de
regresión polinomial de grado p es
𝒚 = 𝜷0 + 𝜷𝟏 x + 𝜷𝟐x2 + … + 𝜷𝐩xp + ε
𝒏 𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^ 𝐒𝑺𝑬
s2 = =
𝒏−𝒑 −𝟏 𝒏 −𝒑 −𝟏
𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗ − 𝒏
𝟐
𝒊=𝟏 𝒚𝒊 −𝒚𝒊^
𝟐
𝐒𝐒𝐓−𝐒𝐒𝐄 𝐒𝑺𝑹
r2 = 𝒏 𝟐 = =
𝒚
𝒊=𝟏 𝒊 −𝒚∗ 𝐒𝐒𝐓 𝐒𝐒𝐓
( 𝒏
𝒊=𝟏 𝒚𝒊 −𝒚∗
𝟐
− 𝒏 𝒚
𝒊=𝟏 𝒊 −𝒚 𝒊
^ 𝟐)/𝒑
(𝐒𝐒𝐓−𝐒𝐒𝐄)/𝐩 𝐒𝑺𝑹/𝒑
F= 𝒏 = =
𝒊=𝟏 𝒚𝒊 −𝒚^ 𝟐/(𝒏 − 𝒑 −𝟏 ) 𝐒𝐒𝐄/(𝐧−𝐩−𝟏) 𝐒𝐒𝐓/(𝐧−𝐩−𝟏)
Coefficients
Term Coef SE Coef T-Value P-Value VIF estadístico t de Student para probar la
Constant 8.241 0.287 28.70 0.000 hipótesis nula de que el valor verdadero del
odometro -0.00392 0.00141 -2.79 0.016 1.01
coeficiente es igual a 0 (independencia).
peso -0.1083 0.0119 -9.06 0.000 1.01
Regression Equation
La navaja de Occam
El mejor modelo científico es el modelo más simple que explica los hechos
observados
El principio de parsimonia
Un modelo debe contener el menor número de variables necesario para ajustar los
datos
Este principio habría que matizarlo con las siguientes consideraciones
Un modelo lineal siempre debe contener una ordenada en el origen, a
menos que una teoría física indique otra cosa.
H0 : 𝜷𝒌 + 𝟏 = …. = 𝜷𝐩 = 0
De forma que si es cierta, se puede modelar con las variables, sin perdida de significación
𝒚 = 𝜷0 + 𝜷𝟏 x1i + … + 𝜷𝐤xki + ε
En ese caso, e realiza mediante el uso del estadístico f definido sobre la diferencia
(SSE reducido – SSE Completo) que se aproxima a (p – k) σ.
(𝑺𝑺𝑬𝒓𝒆𝒅𝒖𝒄𝒊𝒅𝒐 −𝑺𝑺𝑬𝒄𝒐𝒎𝒑𝒍𝒆𝒕𝒐)/(𝒑−𝒌)
f=
𝑺𝑺𝑬𝒄𝒐𝒎𝒑𝒍𝒆𝒕𝒐/(𝒏 −𝒑−𝟏)
El modelo ajusta bien, y solamente en relación con el ajuste es razonable. Se indica que este modelo tiene una
característica indeseable que contiene el término de interacción Velocidad ⋅ Pausa sin contener la variable
Velocidad sola. Esto último indica una debilidad de todos los procedimientos automáticos de selección de
variables, incluyendo la regresión stepwise y la regresión con los mejores subconjuntos. Operan sólo con base en
la bondad del ajuste, y pueden no considerar las relaciones entre variables independientes que son importantes
Raiz cuadrada
de la
Numero de estimación. S2
variables del de cada modelo
modelo
Ordinal de
las
mejores
combinaci
ones