Está en la página 1de 50

1

HERRAMIENTAS COMPUTACIONALES
APLICADAS A METALURGIA EXTRACTIVA

ING. JOSE LUIS SALAZAR


Consultor Intercade

CONCEPTOS PRELIMINARES

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
2
3

CONCEPTOS PRELIMINARES

Estadística: Es el studio de los fenómenos aleatorios.

El aspecto más importante de la estadística es la


obtención de conclusiones basadas en los datos
experimentales.

Este proceso se conoce como inferencia estadística.

¿Qué es población y muestra? ¿Cuál es su diferencia?

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

CONCEPTOS PRELIMINARES

Población: Es la colección de toda la posible


información que caracteriza a un fenómeno.

Muestra: Es el subconjunto representativo de una


población.

Pero ¿q¿qué significa


g que
q una muestra sea
representativa?

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
3
5

CONCEPTOS PRELIMINARES
Una muestra representativa es aquella que refleja las
características esenciales de la población de la cual se
obtuvo.

Ejemplo 1: Se tienen varias muestras de cátodos que


poseen un determinado porcentaje de cobre.

Muestra 2 Muestra 3

Muestra 1 Muestra 4
Población

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

FRECUECNIAS

Uno de los primeros pasos en cualquier estudio


estadístico es tabular los siguientes resultados:
• Recoger información de la muestra resumida en una
tabla en la que a cada valor de la variable se le
asocian determinados números que representan el
número de veces que ha aparecido.
• Estos números se denominan frecuencias.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
4
7

TIPOS DE FRECUENCIAS

Frecuencia absoluta. Es el número de veces que


aparece en la muestra dicho valor de la variable. La
denotaremos por la letra . ni
Frecuencia relativa. Es el cociente entre la frecuencia
absoluta y el tamaño de la muestra. La denotaremos por
la letra f i .
ni
Donde N es el tamaño de la muestra. fi 
N

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

TIPOS DE FRECUENCIAS

Si multiplicamos la frecuencia relativa por 100,


obtendremos el porcentaje pi .

Ejemplo 2

Tamaño de muestras de mineral en µm

50 67 50 58 61 59 41 59 42 60
55 48 45 58 69 46 51 52 40 65
53 52 68 53 46 60 50 54 54 40
44 41 49 45 47 56 48 53 55 51
47 52 51 58 54 51 52 55 60 58

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
5
9

TIPOS DE FRECUENCIAS
Frecuencia absoluta acumulada. Es el número de
veces que ha aparecido en la muestra un valor menor o
igual que el de la variable y lo representaremos por Ni.
La última frecuencia absoluta acumulada deberá ser
igual a N.

Frecuencia relativa acumulada. Es el cociente entre


la frecuencia absoluta acumulada y el número total de
datos N. La denotaremos por Fi.
Ni
Fi 
N
Si multiplicamos la frecuencia relativa acumulada por
100, se obtiene el porcentaje acumulado: Pi .
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

10

TABLA DE FRECUENCIAS
Es una tabla en la que se organizan los datos en clases;
es decir, en grupos de valores que describen una
característica de los datos y muestra el número de
observaciones del conjunto de datos que “caen” en cada
una de las clases.

Ejemplo 3: Se elaboró una encuesta en una planta de


molienda y esta informó que las variables más relevantes
fueron las siguientes:
g
• Potencia
• Nivel de llenado
• Flujo de agua
• Flujo de pulpa
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
6
11

TABLA DE FRECUENCIAS
Potencia Nivel de llenado Potencia Flujo de agua

Flujo de
Flujo de agua Nivel de llenado Potencia
alimentación
Flujo de
Flujo de agua Nivel de llenado Nivel de llenado
alimentación
Flujo de
Potencia Potencia Flujo de agua
alimentación
Flujo de
Potencia Potencia Nivel de llenado
alimentación

Frecuencia Frec. Frec. Frec. Rel.


Frecuencia Frecuencia
relativa relativa absoluta pocent.
absoluta relativa
porcentual acumulada acumulada acumulada

Potencia 7 0.35 35% 0,35 7 35%

Flujo de
4 0.20 20% 0,55 11 55%
alimentación

Flujo de agua 4 0.20 20% 0,75 15 75%

Nivel de llenado 5 0.25 25% 1 20 100%

Total 20 100%

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

12

CONSTRUCCION DE INTERVALOS
DE CLASES
Supongamos que tenemos las siguientes observaciones x1,
x2 … xn
Lo siguiente es encontrar el mayor y el menor valor.
valor
A continuación se calcula el rango (R).

R  X máx.  X mín.
No existe una convención para la cantidad de intervalos,
pero por lo
l generall oscila
il entre
t 5 y 20.
20

A continuación, se divide entre el número de intervalos


deseados. Este resultado se redondea al entero mayor más
cercano.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
7
13

GRAFICOS ESTADISTICOS
 Un gráfico estadístico es una representación pictórica que
permite dar un resumen visual de la información.

 Se utilizan para detectar tendencias,


tendencias agrupaciones de datos en
torno a un valor central, variaciones cíclicas, estacionales,
entre otros.

 Nos permite identificar y comparar de forma visual el


comportamiento de las categorías de una variable. Por medio
de las barras, podemos conocer aspectos de forma sencilla de
una o varias variables, como lo pueden ser sus categorías, las
f
frecuencias y las diferencias
f entre ellas.

 La estructura básica de un gráfico de barras está basada en un


eje de categorías; generalmente, el eje horizontal y un eje de
frecuencias que en algunos casos puede ser remplazado por el
porcentaje.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

14

GRAFICO DE FRECUENCIA DE BARRAS


Ejemplo 4: Gráfico de barras, ejemplo 3

Variable relevante vs. frecuencia relativa

0.4

0.35

0.3
Freccuencia relativa 

Potencia

0.25 Pajaro

0.2 Hamster

0.15 Gato

0.1

0.05

0
1

Frecuencia relativa

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
8
15

GRAFICO DE SECTORES (TORTA)

L
Los gráficos
áfi d sectores
de t o de
d torta
t t nos permiten
it
observar la variable de forma global haciendo una
comparación inmediata del porcentaje o la frecuencia
del total de las categorías de una variable.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

16

GRAFICO DE SECTORES (TORTA)


Ejemplo 5: Gráfico de torta, ejemplo 3

Ejemplo 2

25% 35%
20%

20%

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
9
17

HISTOGRAMA
Los histogramas nos permiten identificar diversos
parámetros de los datos en una variable de escala.
• Dispersión
• Distribución
• Concentración
Generan una representación visual del comportamiento
de los datos, permitiendo observar rasgos característicos
como la zona o rango de mayor concentración, la
amplitud, los valores extremos, etc.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

18

HISTOGRAMA

La estructura básica de un histograma está basada en


rangos, los cuales suelen ser representados por barras
cuya altura es determinada por la cantidad de valores
que se encuentren dentro de los límites de cada rango
(frecuencia).

Generalmente se utiliza el eje vertical para representar


las frecuencias y el eje horizontal para los rangos.
Adicionalmente se puede sobreponer una curva
normal, con el fin de comparar si los datos tienden a
distribuirse de forma uniforme (simétrica).

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
10
19

MEDIDAS DE TENDENCIA CENTRAL


Para un conjunto de datos, existen principalmente tres
medidas de tendencia central.
• Media
• Moda
• Mediana
Media. La media de las observaciones x1, x2… xn es el
promedio aritmético de estas. Se denota por lo siguiente:
n
x
x   n
i

i 1
El único problema de la media es que puede verse
afectada por la existencia de algunos valores extremos.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

20

MEDIDAS DE TENDENCIA CENTRAL


Mediana. Para un conjunto de observaciones, es el valor
para el cual, cuando todas las observaciones se ordenan de
forma creciente,
creciente la mitad de estas es menor que este valor
y la otra mitad mayor.

Si el número de observaciones es impar, la mediana es el


valor que se encuentre a la mitad del conjunto ordenada.

Si el número de observaciones es par,


par se considera la
mediana como el promedio de los valores de las dos
observaciones que se encuentren a la mitad del conjunto
ordenada.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
11
21

MEDIDAS DE TENDENCIA CENTRAL

Moda. Es el valor que ocurre con más frecuencia en el


conjunto de observaciones. Muestra hacia qué valor
tienden los datos a agruparse.

Una medida de tendencia central proporciona


información acerca de un conjunto de datos, pero no
proporciona ninguna idea de la variabilidad de las
observaciones.

La medida más útil para conocer la dispersión de los


datos es la varianza.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

22

VARIANZA
La varianza de las observaciones x1, x2… xn es el
promedio del cuadrado de las distancias entre cada
observación y la media del conjunto de observaciones.
observaciones
Se denota por lo siguiente:
(xi  x)2
n
s 
2

i 1 n 1

La desviación
L d i ió estándar
tá d es la
l raíz
í cuadrada
d d positiva
iti ded
la varianza.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
12
23

DESVIACION ESTANDAR
La desviación estándar es la raíz cuadrada de la
varianza.

(xi  x)2 n
s 
i1 n 1

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

24

EJERCICIO N.°1
La siguiente tabla muestra la producción diaria en
toneladas, de 20 celdas de electrodepositación de cobre,
de una compañía
p minera.

40.2 29.3 35.6 88.2 42.9

26.9 28.7 99.8 35.6 37.8

44.2 32.3 55.2 50.6 25.4

31.7 36.8 45.2 25.1 39.7

Determinemos la media, la mediana y la desviación


estándar.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
13
25

EJERCICIO N.°1

40.2 29.3 35.6 88.2 42.9

26.9 28.7 99.8 35.6 37.8

44.2 32.3 55.2 50.6 25.4

31.7 36.8 45.2 25.1 39.7

Media 42,56
Mediana 37,30
Moda 35,60 MEDIA MODA MEDIA MODA MEDIA
MEDIANA MEDIANA MEDIANA
MODA
Desv. estándar 19,46 Asimétrica hacia Simétrica Asimétrica hacia
la izquierda la derecha

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

26

INFERENCIA ESTADISTICA

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
14
27

INFERENCIA ESTADISTICA

El objetivo de la inferencia estadística es hacer


estimaciones sobre características desconocidas
(parámetros) de una población (teóricamente infinita),
basados en la información contenida en una muestra de
tamaño n de la población.

Ejemplo: ¿Qué proporción de la alimentación de mineral


tiene “dureza alta” frecuentemente?

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

28

INFERENCIA ESTADISTICA
Ejemplo: Nos interesa inferir sobre la proporción de
mineral cumple con el nivel de exigencia de tamaño
mínimo.
Sea N es el número total de muestras de mineral.
 1 Si la i - ésima muestra cumple 
xi   
 0 En cualquier otro caso 
N

x i
P i1
 Proporción de m uestras que cum plen
N
Lo que nos interesa es inferir sobre P.
Podemos realizar un censo: muy costoso y tomaría
mucho tiempo.
Lo que buscamos son respuestas rápidas y confiables.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
15
29

INFERENCIA ESTADISTICA

 La inferencia estadística puede dividirse en dos grandes


áreas.
• Estimación de parámetros
• Prueba de hipótesis

 A su vez, la estimación de parámetros se divide en dos


áreas.
• Estimación puntual
• Estimación de intervalos

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

30

ESTIMACION PUNTUAL

 En general, existen tres métodos de estimación puntual de


parámetros
parámetros.

• Estimación por máxima verosimilitud


• Estimación por el método de los momentos
• Estimación por mínimos cuadrados

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
16
31

METODO DE ESTIMACION POR MAXIMA


VEROSIMILITUD
 La función de densidad conjunta de n observaciones
independientes es el producto de las funciones de densidad
marginales. n
f  x1 ,...xn ;    f  xi ,   L  | x 
i 1

 Esta función de densidad conjunta se conoce como función


de verosimilitud y está definida como función del vector de
parámetros desconocidos .
 El método de estimación por máxima verosimilitud consiste
en encontrar el valor del parámetro que maximiza la
función de verosimilitud.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

32

METODO DE ESTIMACION
POR MAXIMA VEROSIMILITUD
 Definición: Sea X1… Xn una muestra aleatoria de una
distribución con función de probabilidad f(x; ) y sea L
(x1… xn; ) la verosimilitud de la muestra como función de
. Si t = u (x1… xn) es el valor de , para el cual el valor de
la función de verosimilitud es máxima, entonces T = u
(X1… Xn) es el estimador de máxima verosimilitud de  y t
es el estimador de máxima verosimilitud.
n
f  x1 ,..xn ;    f  xi ,   L  | x 
i 1

 Generalmente, resulta más fácil trabajar con el logaritmo.


n

   
Lnf xi ;   Lnf xi ,  LnL  | x  
i1
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
17
33

METODO DE ESTIMACION
POR MAXIMA VEROSIMILITUD
 La condición necesaria para maximizar la función de
verosimilitud, o su logaritmo natural, Ln L(|x), es la
siguiente:
i i t LnL  | x 
0

 Esta ecuación es conocida como ecuación de
verosimilitud.
 La solución, únicamente función de los elementos
muestrales, será el estimador máximo verosímil del
parámetro  siempre que se verifique la condición de
máximo.   2 LnL X ; 
  0
  2  ö 33
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

34

LA COTA DE CRAMER-RAO
 Suponiendo que la función de densidad de x satisface
ciertas “condiciones de regularidad”, la varianza de un
estimador insesgado de un parámetro  siempre será
mayor o igual que lo siguiente:
1
    ln L   2 
 
1
   2 ln L  
   n  E  
-1
I     E  
    
2
      
  

 La utilidad de la cota de Cramer-Rao es q


que si se sabe q
que
uno de los estimadores alcanza dicha cota para la
varianza. Este es el estimador más eficiente dentro de los
estimadores insesgados.
34

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
18
35

PROPIEDADES DE LOS ESTIMADORES MV


 El método de MV consiste en elegir, entre todos los
posibles valores que puede tomar el parámetro , el que
hace máxima la función de verosimilitud.
verosimilitud
 Asintóticamente, los estimadores máximo verosímiles
tienen las siguientes propiedades:
1. Insesgadez: Los estimadores MV no son, en general,
insesgados. Sin embargo, si no son insesgados lo son
asintóticamente
asintóticamente.
2. Consistencia: Los estimadores MV son consistentes.
Si el estimador MV no es insesgado, al ser consistente
será asintóticamente insesgado.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

36

PROPIEDADES DE LOS ESTIMADORES MV


Eficiencia: Si existe un estimador cuya varianza es igual a
la cota de Cramer-Rao es el obtenido por máxima
verosimilitud.
Todo estimador máximo verosímil no tiene que ser
eficiente; sin embargo, si existe un estimador eficiente es el
máximo verosímil.

Normalidad y eficiencia asintótica: Los estimadores


máximo verosímiles son asintóticamente normales con
esperanza  y asintóticamente eficientes.
p lim ˆMV  
a
ˆMV  N   ,  I   
 
  2 LnL  | x

1
Donde, I   E 
    2 
36

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
19
37

ESTIMACION POR INTERVALOS


 Una estimación puntual, debido a que es solo un número, por si
misma no proporciona información acerca de la precisión y
confiabilidad de una estimación.

 Una alternativa para informar un solo valor, sensible del parámetro


que está siendo estimado, es calcular un intervalo completo de
valores posibles; es decir, un intervalo de confianza (IC).

 Un IC siempre se calcula al seleccionar primero un nivel de


confianza, que es una medida del grado de confiabilidad del
intervalo
intervalo.

 Por ejemplo, un IC con un nivel de confianza del 95% significa que


95% de las muestras darían un intervalo que incluye al parámetro
que está siendo estimado y solo 5% de las muestras producirán un
intervalo erróneo.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

38

METODO DE LA CANTIDAD PIVOTAL

 Definición: Sea X una muestra aleatoria simple extraída


de una población con distribución f(x; ), donde   ,
siendo  cualquier intervalo de la recta real.
real

 Una función T(X; ) recibe el nombre de cantidad


pivotal (o simplemente pivote) si depende del
parámetro , pero su distribución de probabilidad no
depende de dicho parámetro .

 El pivote T(X; ) es un estadístico para cada valor de .

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
20
39

METODO DE LA CANTIDAD PIVOTAL


1. Encontrar un pivote para el parámetro k, T(x1..., xn; k)
que tenga una distribución conocida y sea independiente
del resto de los parámetros.
2. Encontrar dos números: a y b, tal que Prob. (a < T(xn; k) <
b) = 1 - 
Donde 1 -  recibe el nombre de coeficiente de
confianza.
Normalmente se seleccionan colas simétricas; es decir, a
y b tales que…
Prob. (T(xn; k)  b) = /2
Prob. (T(xn; k)  a) = /2 1-

/2 /2

a b

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

40

METODO DE LA CANTIDAD PIVOTAL

3. Invertir en k el intervalo. Tomar el intervalo a < T(xn; k)


< b y despejar k.

 En lo que sigue estudiaremos varias situaciones que


involucran la construcción de IC para medias y
varianzas poblacionales.

1-

/2 /2

a b

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
21
41

INTERVALO DE CONFIANZA PARA  CON 2


CONOCIDA
 Sea X1, X2…, Xn una m.a. de una distribución normal con media
desconocida , pero con varianza 2 conocida. El interés está en
) sobre 
construir un IC de un 100(1-)%
( .

 Método de la cantidad pivotal

1. Encontrar un pivote para el parámetro , que tenga una


distribución conocida y sea independiente del resto de los
parámetros.
Del teorema central del límite sabemos lo siguiente:
X 
Z cuando n  
  es la distribución normal estándar
 n
Nota: Z(X; ) es un pivote para , ya que es una función dependiente
del parámetro ; pero su distribución de probabilidad no depende
de .
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

42

INTERVALO DE CONFIANZA PARA  CON 2


CONOCIDA
2. Encontrar dos números: a y b, tal que Prob. (a <Z (X; ) < b)=1 - 
a


P Za    Z X ;  X   2

b

   Z X ;  X  1  
1-
P Z b  2 /2 /2

a b
Dado que Z  N(0,1), entonces a = Z/2 y b = Z1- /2

C
Como lla di
distribución
t ib ió normall es simétrica,
i ét i entonces
t a = -b.
b

Por ejemplo, un IC con un nivel de confianza del 95% resulta lo


siguiente:
a = -1,96 b = 1,96

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
22
43

INTERVALO DE CONFIANZA PARA  CON 2


CONOCIDA
3. Invertir en  el intervalo. Tomar el intervalo a < Z (X; ) < b y
despejar .    
Pr a  Z X ;   b  1  

   
Pr  X  Z1  2    X  Z 2   1  
 n n 
Dado que para la normal estándar Z/2 = - Z1- /2 resulta lo siguiente:
   
Pr  X  Z1 2    X  Z1  2   1  
 n n 

Luego, la probabilidad de que el intervalo aleatorio (límite de


confianza inferior; límite de confianza superior) contenga el
verdadero valor de la media  es 1 - .

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

44

INTERVALO DE CONFIANZA PARA  CON 2


CONOCIDA
 Ejemplo 1: La siguiente tabla muestra los Muestra Peso medio
1 506
pesos en gramos del contenido de 2 508
muestras de mineral que se 3 499
seleccionaron de un proceso de llenado, 4 503

con el propósito de verificar el peso 5 504


6 510
promedio. 7 497
 Si el peso de muestra es una v.a. normal 8 512
con  = 5 g, se debe obtener los IC 9 514
10 505
estimados del 90%, 95% y 99% para la
11 493
media de llenado de este proceso.
proceso 12 496
Nivel de Límite Límite 13 506
z 14 502
confianza inferior superior
15 509
90% 1.6449 501.69 505.81 16 496
95% 1.9600 501.30 506.20 Media 503,75

99% 2.5757 500.53 506.97


Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
23
45

INTERVALO DE CONFIANZA PARA  CON 2


DESCONOCIDA
 El problema consiste en encontrar un IC para , cuando se muestrea una
distribución normal y para la cual no se tiene conocimiento acerca del valor de
la varianza poblacional.
poblacional

 Método de la cantidad pivotal

1. Encontrar un pivote para el parámetro , que tenga una distribución conocida


y sea independiente del resto de los parámetros.

T
 X    
 t de Student con n -1 grados de libertad
S n

Nota: T (X ;) es un pivote para , ya que es una función dependiente


del parámetro ; pero su distribución de probabilidad no depende de
ningún otro parámetro.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

46

INTERVALO DE CONFIANZA PARA  CON 2


DESCONOCIDA
2. Encontrar dos números: a y b, tal que Prob. (a < T (X ; ) < b) = 1 - 

a
P T  a    T  X ;   X  

2

b 1-
P T  b    T  X ;   X  1   2

/2 /2

a b

 Dado que T tn-1 , entonces a = t/2,n-1 y b = t1- /2,n-1

 Como la distribución t es simétrica, entonces a = -b.

 Por ejemplo: un IC con un nivel de confianza del 95% y n = 25 grados de


libertad resulta en a = 2,064 y b = -2,064.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
24
47

INTERVALO DE CONFIANZA PARA  CON 2


DESCONOCIDA
3. Invertir en  el intervalo. Tomar el intervalo a < T ( X ; ) < b y despejar .

 
P a  T  X ;    b  1
Pr

 X    S S 
Pr  t 2,n 1   t1 2,n 1   Pr  X  t1 2,n 1    X  t 2, n 1 
 S n   n n 
n n

x  x  x  nx 2
2 2
i i
Donde s2  i 1
 i 1

n 1 n 1
 Dado que t/2,n-1 = - t1- /2, n-1 resulta lo siguiente:

 S S 
Pr  X  t1 2,n 1    X  t1 2,n 1   1  
 n n 

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

48

IC PARA  CON 2 DESCONOCIDA:


EJEMPLO
 Ejemplo 2: La siguiente tabla muestra los
pesos en gramos del contenido de Muestra Peso medio
muestras de mineral que se 1 506
seleccionaron de un proceso de llenado, 2 508
con el propósito de verificar el peso 3 499
4 503
promedio. 5 504
 Si el peso de muestra es una v.a. 6 510
normal, de debe obtener los IC estimados 7 497
del 90%, 95% y 99% para la media de 8 512
9 514
llenado de este proceso. 10 505
11 493
12 496
13 506
Nivel de Límite Límite 14 502
t
confianza inferior superior 15 509
90% 1.753 501.03 506.47 16 496
95% 2.131 500.45 507.05 Media 503,75
99% 2.947 499.18 508.32 DesvEst 6,202

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
25
49

IC PARA X - Y PARA DOS MUESTRAS


NORMALES INDEPENDIENTES CON VARIANZA
CONOCIDA
 Sean X1..., Xnx y Y1..., Yny dos muestras aleatorias de dos
distribuciones normales independientes con medias x y y
y varianzas 2x y 2y, respectivamente.
1. Encontrar un pivote para el parámetro (x - y), que
tenga una distribución conocida y sea independiente del
resto de los p
parámetros.

Z
X  Y  x   y  es una v.a. con distribución normal estándar
 2
 2
y
x

nx ny

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

50

IC PARA X - Y PARA DOS MUESTRAS


NORMALES INDEPENDIENTES CON VARIANZA
CONOCIDA
2. Encontrar dos números: a y b,, tal q ( ; ) <
que Prob. ((a < Z(X;
b) = 1 - .
a


P Za    Z X  Y ;  ,   X  Y  
x x
2


  Z X  Y ;  ,   X  Y  1  
b


P Z b  x y
2
1-


/2 /2

a b

Dado que Z  N(0,1), entonces a = Z/2 y b = Z1- /2

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
26
51

IC PARA X - Y PARA DOS MUESTRAS


NORMALES INDEPENDIENTES CON VARIANZA
CONOCIDA
3. Invertir en x - y el intervalo.
Dado que para la normal estándar Z/2 = - Z1- /2 resulta lo
siguiente:

  x2  2y  x2  2y 

 
Pr  X  Y  Z1  2
nx

ny
  
  x   y  X  Y  Z1  2
nx
   1 
ny 

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

52

IC PARA X - Y PARA DOS MUESTRAS


NORMALES INDEPENDIENTES CON VARIANZA
DESCONOCIDA
 Sean X1..., Xnx y Y1..., Yny dos muestras aleatorias de dos
distribuciones normales independientes, con medias x y y y
varianzas 2x y 2y desconocidas.

1. Encontrar un pivote para el parámetro (x - y), que tenga una


distribución conocida y sea independiente del resto de los
parámetros.
p
T

X  Y  x   y  es una v.a. con distrib. t con nx  n y  2 gl
1 1
SP 
nx ny

Donde, S P 
n x   
 1 S x2  n y  1 S y2
nx  ny  2
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
27
53

IC PARA X - Y PARA DOS MUESTRAS


NORMALES INDEPENDIENTES CON VARIANZA
DESCONOCIDA
2. Encontrar dos números: a y b, tal que Prob. (a < Z (X; )
< b) = 1 - .

a


P T a    T X ;  X   2

1-
b


P T b    T X ;  X  1  2
/2

a b
/2



Dado que T tnx+ny-2 , entonces a = t/2,nx+ny-2 y b = t1- /2, nx+ny-2

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

54

IC PARA X - Y PARA DOS MUESTRAS


NORMALES INDEPENDIENTES CON VARIANZA
DESCONOCIDA
3 Invertir en x - y el intervalo.
3. intervalo

Dado que t/2,n-2 = - t1- /2, n-2 resulta lo siguiente:

 1 1 1 1
Pr  X  Y  t1  S     X  Y  t1  S    1 
 2,n 2 P
nx ny 2,n 2 P
nx ny 

Donde, S P 
n x   
 1 S x2  ny  1 S y2
nx  ny  2

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
28
55

INTERVALO DE CONFIANZA PARA 2 CON 


DESCONOCIDA
 El problema consiste en encontrar un IC para 2, cuando
se muestrea una distribución normal y para la cual no se
tiene conocimiento acerca del valor de la media
poblacional .
Método de la cantidad pivotal

1.Encontrar un pivote para el parámetro 2, que tenga una


di t ib ió conocida
distribución id y sea independiente
i d di t del
d l resto
t de
d los
l
parámetros.
S2

  n 1  2
  2 con n - 1 grados de libertad


Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

56

INTERVALO DE CONFIANZA PARA 2 CON 


DESCONOCIDA
2. Encontrar dos números: a y b, tal que Prob. (a <  (S2 ; 2) <
b) = 1 - .

a

   
P   a    S 2 ;  2 S 2   2
0

b 1-
   
P   b    S 2 ;  2 S 2  1  2 /2 /2
0 a b

Dado que   2n-1


n 1 , entonces a =  /2,n-1
2
/2 n 1 y b = 21-
1 /2,n-1
/2 n 1

Por ejemplo, un IC con un nivel de confianza del 95% y n = 20


grados de libertad resulta en a = 8,9065 y b = 32,8523.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
29
57

INTERVALO DE CONFIANZA PARA 2 CON 


DESCONOCIDA
3. Invertir en 2 el intervalo. Tomar el intervalo a <  (S2 ; 2) < b y
despejar 2.

   
Pr a   S 2 ; 2  b  1  

 S2  
 n 1 S2   
n  1 S2 
 

Pr  2 2,n1  n  1 2  1
2
 2,n1 
 Pr  2   2
 
    2,n1 12  2,n1 

 Luego, el intervalo aleatorio que contiene a 2 con una


probabilidad de 1 -  es el siguiente:

  
 n 1 S2 n 1 S2 
 2 ; 2 

 1 2,n1  2,n1 

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

58

INTERVALO DE CONFIANZA PARA 2X / 2Y


 Suponga que se tienen muestras aleatorias provenientes
de dos distribuciones normales con medias y varianzas
desconocidas.
 Sean
S nx y ny ell tamaño
t ñ de
d las
l muestras
t y S2x y S2y, las
l
varianzas muestrales. El objetivo es construir un IC para el
cociente entre las varianzas poblacionales.

Método de la cantidad pivotal


1. Encontrar un pivote para el parámetro 2, que tengag una
distribución conocida y sea independiente del resto de los
parámetros.
S x2  x2
 
 F con nx - 1 y n y - 1 grados de libertad
S y2  2y

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
30
59

INTERVALO DE CONFIANZA PARA 2X / 2Y

2. Encontrar dos números: a y b, tal que Prob. (a <  (S2x, S2y ;


2x, 2y) < b) = 1 - .

 S2  2 
P  a  x2 x2  b  1  
 Sy  y 
1-
 S2  2  /2 /2
P  x2 x2  b  1   2  b  f1  2,nx 1,n y 1 a
 Sy  y  b

 S2  2   S y2  2y 1  1
P  a  x2 x2   1   2  P  2 2    1   2   f1  2,n y 1,nx 1
 Sy  y   Sx  x a  a

1
Luego, b  f1  2,nx 1,n y 1
y a
f1  2,n y 1,nx 1

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

60

INTERVALO DE CONFIANZA PARA 2X / 2Y


 Ejemplo: Construir un IC para el cociente entre dos
varianzas 2x/ 2y, si se sabe que nx = 20 y ny = 25,
además se requiere un nivel de confianza del 95%.
además, 95%

Nivel de
confianza
b 1/a b  f1 2,nx 1,n y 1

95,0% 2,01 2,07 1


97 5%
97,5% 2 47
2,47 2 45
2,45 a
f1 2,n y 1,nx 1
99,0% 2,74 2,84

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
31
61

INTERVALO DE CONFIANZA BASADOS


EN GRANDES MUESTRAS
 Si el tamaño muestral es suficientemente grande, se puede hacer
uso de las propiedades asintóticas de los estimadores máximo
verosímiles
verosímiles.

 Así, para determinar el IC de un parámetro , siempre que la


muestra sea de gran tamaño, se puede partir del estimador máximo
verosímil de ; ya que, como se vio en clases pasadas, tiene el
siguiente comportamiento asintótico:
1. Insesgadez. Los estimadores MV no son, en general,
i
insesgados.
d Si embargo,
Sin b sii no son insesgados,
i d l son
lo
asintóticamente.
2. Consistencia. Los estimadores MV son consistentes. Si el
estimador MV no es insesgado, al ser consistente será
asintóticamente insesgado.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

62

INTERVALO DE CONFIANZA BASADOS EN


GRANDES MUESTRAS
3. Eficiencia. Si existe un estimador cuya varianza es igual a la cota
de Cramer-Rao es el obtenido por máxima verosimilitud.
Todo estimador máximo verosímil no tiene que ser eficiente; sin
embargo, si existe un estimador eficiente es el máximo verosímil.

4. Normalidad y eficiencia asintótica. Los estimadores máximo


verosímiles son asintóticamente normales con esperanza  y
asintóticamente eficientes.
eficientes
 
  2 LnL n | x

a
 N  ˆ,  I   
1
ˆ Donde, I n  E 
MV
   n 2 

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
32
63

INTERVALO DE CONFIANZA BASADOS


EN GRANDES MUESTRAS
 Los resultados anteriores nos permiten definir la cantidad
pivotal.
ˆMV  
T  X ;   
d
 N  0,1
 
V ˆMV

 A partir de este pivote, se puede construir un IC para :

ˆ  V ˆ
 MV   
MV Z1 2 ; MV  V  MV Z1 2 
ˆ ˆ

 
 Si no se conoce la varianza del estimador MV, puede
sustituirse por una estimación de esta, sin que ello afecte
apreciablemente la bondad de la aproximación.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

64

MODELOS
DE REGRESION LINEAL

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
33
65

MODELOS DE REGRESION LINEAL


 El modelo de regresión lineal se utiliza para estudiar la
relación que existe entre una variable dependiente y varias
variables independientes. La forma genérica del modelo de
regresión lineal es la siguiente:

yi   0  1 xi1   2 xi 2     k xik   i i  1,..., n


Y  X
Donde
yi: variable dependiente o explicada
xik: variables
i bl independientes
i d di t o explicativas
li ti
i: indica las n observaciones muestrales
k: indica el número de variables explicativas
: perturbación aleatoria (residuos o errores)
Si  no fuera una v.a., la relación sería determinística estable.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

66

MODELOS DE REGRESION LINEAL


yi   0  1 xi1   2 xi 2     k xik   i i  1, , n

Y  X

 y1  1 x11 x12  x1k 


y  1 x21 x22  x2k 
Y   2 , X 
      
   
yn  1 xn1 xn2  xnk 

 0   1 
   
   1,    2
  
   
k   n 

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
34
67

MODELOS DE REGRESION LINEAL

Y
1,5

12
1,2

0,9

0,6

0,3

0,0 X
0 2 4 6 8 10

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

68

SUPUESTOS DEL MODELO


DE REGRESION LINEAL

1. Linealidad del modelo


2
2. Rango completo de los regresores
3. Valor esperado de los residuos en X es cero.
4. Perturbaciones esféricas
5. Regresores no estocásticos
6. Normalidad

 Los tres primeros supuestos permiten obtener ̂ .


 Los tres últimos supuestos permiten inferir sobre ̂ .

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
35
69

LINEALIDAD DEL MODELO DE REGRESION

 SUPUESTO 1:
Y  X
yi   0  1 xi1   2 xi 2     k xik  εi i  1 n

 Este es un modelo de regresión lineal múltiple con k


regresores.
 Se usa el término lineal porque y es función lineal de los
parámetros k
 Para que la regresión sea lineal debe tener la forma de la
ecuación anterior, ya sea en sus variables originales o
después de alguna transformación.
69

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

70

LINEALIDAD DEL MODELO DE REGRESION

 SUPUESTO 1 Y  X

yi   0  1 xi1   2 xi 2     k xik  εi i  1 n
 En el contexto de la regresión, la linealidad hace
referencia a la manera en la que los parámetros y la
perturbación entran a formar parte de la ecuación y no
necesariamente a la relación entre las variables.

 La variable observable es la suma de dos componentes.


• Un componente determinístico  + x
• Un componente aleatorio є
70

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
36
71

LINEALIDAD DEL MODELO DE REGRESION

 Ejemplos de modelos lineales en donde solo se ha


modificado x.
y   x  y     cos  x   
y    / x y     Ln( x)  
 Hay modelos lineales donde también puede modificarse y
uno de los más conocidos es el modelo logarítmico-lineal.

y  e  1 X 2 2 X 3 3  X k k e 
e n lo g a ritm o s ,

Ln  y   1   2 Ln  X 2   3 Ln  X 3      k Ln  X k   

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

72

LINEALIDAD DEL MODELO DE REGRESION


(Ejemplo 1)
 Supongamos el siguiente modelo de regresión lineal múltiple:
yi  0  1x1  2x2 ε
 Este modelo de regresión describe un plano en el espacio
tridimensional de y, x1, y x2.
 Por ejemplo: tomemos E[y]=50 + 10x1 + 7x2

240
200
160
E(y) 120
80
10
40 8
6
0 4
0 2 2 X2
4 6 0
8 10

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
37
73

LINEALIDAD DEL MODELO DE REGRESION


(Ejemplo 1)
 La siguiente figura muestra la gráfica de curvas de nivel
del modelo de regresión: líneas de respuestas esperada
E[y] constante en función de x1 yx2.
x2
10 220
8
203
6
186
4
169
2
152
0 x1
0 2 4 6 8 10
b)

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

74

LINEALIDAD DEL MODELO DE REGRESION


(Ejemplo 2)
 Supongamos el siguiente modelo de regresión que
incluye “efectos de interacción”:
yi  0  1x1  2x2  12x1x2 ε
 Haciendo x3 = x1x2 y 12 = 3, la ecuación se puede
escribir de la siguiente manera:

yi  0  1x1  2x2  3x3 ε 800


600
E(y) 400

 E[y]=50+10x1+7x2+5x1x2 200
10
8
6
0 4
0 2 2 X2
4 6 0
8 10
74

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
38
75

LINEALIDAD DEL MODELO DE REGRESION


(Ejemplo 2)
 Gráfico de las curvas de nivel
x2
10 720  Notar que,
que aunque este
653
8
586 es un modelo de
6
519
regresión lineal, la
452
4 385 forma de la superficie
318
2 251
generada con el modelo
117
0
184 no es lineal.
x1
0 2 4 6 8 10

 “Todo modelo de regresión que es lineal en los


parámetros es un modelo de regresión lineal,
independientemente de la forma de la superficie
generada.”
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

76

LINEALIDAD DEL MODELO DE REGRESION


(Ejemplo 3)
 Considere el siguiente modelo de segundo orden con
interacción.
yi  0  1x1  2x2  11x1  22x2  12x1x2 ε
2 2

 Haciendo x3 = x12, x4 = x22, x5 = x1x2, y 3 = 11, 4 = 22 y


5 = 12 la ecuación se puede escribir de la siguiente
manera:
yi  0 1x1 2x2  3x3 4x4  5x5 ε 1000
800
600

 E[y] = 800 + 10x1+7x2 – 8,5 E(y) 400


200
10
x12 - 5x22 +5x1x2 6
8
0 4
0 2 2 X2
4 6 0
8 10

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
39
77

LINEALIDAD DEL MODELO DE REGRESION


(Ejemplo 3)
 Gráfico de las curvas de nivel

x2
10 25

8 100

6
175
250
4 325
400
550 475
2 800 750 700 625

0 x1
0 2 4 6 8 10

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

78

RANGO COMPLETO DE LA MATRIZ


DE REGRESION
 SUPUESTO 2: X es una matriz n x k con rango k.
 Condición de especificación
 Esto significa que X tiene rango de columna completo; es
decir, las columnas de X son linealmente independientes, y
hay al menos k observaciones.
1 x11 x12  x1k 
1 x x  x 
X   21 22 2k 
 “No existe relación exacta
     
  entre los regresores.”
x
 n1 n2
1 x  xnk 

Ejemplo
y   0  1 x1   2 x2  ε
x1   0   1 x2  
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
40
79

MEDIA CONDICIONAL DE LOS RESIDUOS

 SUPUESTO 3: E[i / X] = 0
 E  1 / X  
 
Esto significa que : E  / X     0
 E  n / X 

 Este supuesto afirma que cada i condicionada a todas las


observaciones Xi es cero. En otras palabras, las observaciones en
X no conllevan información sobre el valor esperado de la
perturbación.

 También supondremos que las perturbaciones no contienen


información sobre las otras. Es decir, E  i /  j   0 i  j

 En definitiva, hemos considerado que las perturbaciones siguen un


camino aleatorio puro.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

80

MEDIA CONDICIONAL DE LOS RESIDUOS


 Que la media condicional sea cero, implica que la media no
condicional también sea cero.

E  i   Ex  E  i / X   Ex  0  0

 El supuesto 3 implica que Cov  X ,  0 .

 ¿Qué significa esto?

 El supuesto 3 también implica que E  y / X    X.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
41
81

PERTURBACIONES ESFERICAS
 SUPUESTO 4
Var  i / X    2 para i = 1,…,n  HOMOCEDASTICIDAD
Cov  i ,  j / X   0 para i  j  NO AUTOCORRELACION
 La varianza constante es conocida como la
homocedasticidad.
 La incorrelación entre observaciones es conocida como no
autocorrelación.
 La no autocorrelación no implica que las observaciones yi
e yj estén incorrelacionadas.
 El supuesto consiste en que las desviaciones de las
observaciones de su valor esperado están
incorrelacionadas.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

82

PERTURBACIONES ESFERICAS
 El supuesto 4 implica lo siguiente:

Var  /X   E '/X   E 2  /X   E '/X 

 E  ε1ε1 / X  E  ε1ε2 / X   E  ε1εn / X  


 
 E  ε2 ε1 / X  E  ε2 ε2 / X   E  ε2 εn / X 
E ' / X  
     
 
 E  εn ε1 / X  E  εn ε2 / X   E  εn εn / X 
σ 2 0  0
 
0 σ2  0
E '/X     σ 2I
   
 
0 0 0 σ2 

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
42
83

PERTURBACIONES ESFERICAS
 El supuesto 4 puede resumirse de la siguiente manera:

V  /X  E   '/ X   2
I

 Hay que resaltar que este supuesto describe la información


sobre las varianzas y las covarianzas entre perturbaciones
que es proporcionada por las variables independientes.
 ¿Por qué es esférica?
La dispersión es idéntica para todas los i, por lo que su
normalización
li ió es una esfera.
f
 Si  = 2I en la función de densidad normal multivariante,
entonces la ecuación f(x) = c es la fórmula de una esfera
centrada en  con radio  en el espacio n-dimensional.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

84

REGRESORES NO ESTOCASTICOS
 SUPUESTO 5: Regresores no estocásticos

 Es usual suponer que xi es no estocástico, como ocurriría en


una situación
it ió experimental.
i t l

f(y)
E[y3|x3] yi = + xi

E[y2|x2]
x
x1 x2 x3
E[y1|x1]

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
43
85

PERTURBACIONES DISTRIBUIDAS
NORMALMENTE
 SUPUESTO 6: /x  N[0, 2I]

 Es conveniente suponer que las perturbaciones están


normalmente distribuidas, con media cero y varianza
constante.

 Con esto, se pueden aplicar las condiciones del teorema


central del límite.
límite

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

86

PERTURBACIONES DISTRIBUIDAS
NORMALMENTE
E[y | x]

+ x

E[y | x = x2]

N[ +x2, 2]


E[y | x = x1]

E[y | x = x0] N[ + x1, 2]

N[ + x0, 2]

x1 x
x0 x2

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
44
87

MODELO DE REGRESION LINEAL SIMPLE


 Es un modelo con un solo regresor x que tiene relación
lineal con una respuesta y,
y   0  1 x  
donde la ordenada al origen 0 y la pendiente 1 son
constantes desconocidas, y  es un componente aleatorio
de error con media cero y varianza 2 desconocida.
 Para cada valor posible de x hay una distribución de
probabilidades de y, donde la media y varianza de esta
di t ib ió es
distribución
E  y x   β0  β1 x V  y x   σ 2

 Así, la media de y es una función lineal de x.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

88

ESTIMACION DE PARAMETROS POR MCO

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
45
89

ESTIMACION DE PARAMETROS POR MCO

 Supongamos que hay n pares de datos: (x1; y1), (x2; y2)...,


(xn; yn). Lo que se quiere es estimar 0 y 1 de manera que la
suma de los cuadrados de las diferencias entre las
observaciones yi y la línea recta sea mínima.

yi   0  1 xi   i i  1, , n

 El criterio de mínimos cuadrados es el siguiente:

n n
S   0 , 1      i     yi   0  1 xi 
2 2

i 1 i 1

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

90

ECUACIONES NORMALES
 Los estimadores de 0 y 1 deben satisfacer

S
 
n n
 2 yi  ˆ0  ˆ1 xi  0  e 0
 0
i
ˆ0 , ˆ1 i 1 i 1

S
 
n n
 2 yi  ˆ0  ˆ1 xi xi  0  xe 0
1
i i
ˆ0 , ˆ1 i 1 i 1

 Simplificando se obtiene las ecuaciones normales de MCO.


n n

y
i 1
i  nˆ0  ˆ1  xi
i 1
 y  ˆ0  ˆ1 x
n n n n n

yx
i 1
i i  ˆ0  xi  ˆ1  xi2
i 1 i 1
 yx
i 1
i i  nˆ0 x  ˆ1  xi2
i 1

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
46
91

CALCULO DE LOS ESTIMADORES

 A partir de las ecuaciones normales se obtiene lo siguiente:


n n n n n
1
 y x  n  y  x  y  x  x   y x  nyx
i i i i i i i i
ˆ0  y  ˆ1 x ˆ1  i 1 i 1 i 1
2
 i 1
n
 i 1
n
1 n 
 x  x  x
n
 nx 2
x    xi 
2 2
2
i i i
i 1 n  i 1  i 1 i 1

 Sea
n
S xy   yi xi  nyx Suma corregida de los productos cruzados de yi y xi
i 1

n
S xx   xi2  nx 2 Suma corregida de cuadrados de las xi
i 1

S xy
Luego, ˆ1 puede escribirse como: ˆ1 
S xx

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

92

MODELO AJUSTADO Y VALOR RESIDUAL


 Conocidos los estimadores, el modelo ajustado de
regresión lineal simple es ŷ  ˆ0  ˆ1 x .
A p
partir de esta ecuación se obtiene una estimación
puntual de la media de y para un determinado valor de x.
 La diferencia entre el valor observado yi y el valor
ajustado correspondiente se llama residual.
Matemáticamente, el i-ésimo residual es el siguiente:


ei  yi  yˆi  yi  ˆ0  ˆ1 xi , i  1,, , n 
 Los residuales cumplen un rol importante en la
investigación de la adecuación del modelo de regresión
ajustado y testean diferencias respecto a los supuestos
básicos.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
47
93

ESTIMACION DE 2
 El estimador de 2 se obtiene a partir de la suma de
cuadrados de residuales o suma de cuadrados de error.

n n
SSRe s   e    yi  yˆi  2 2
i
i 1 i 1

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

94

ESTIMACION DE 2
 Dado de ei sigue una distribución N[0; 2 ], entonces
n
SSRe s ei2
   n2 p 
 E  SS Re s    n  p   2
2 i 1 
2

 Donde n = tamaño de muestra y p = número de


coeficientes de regresión.
 Luego, un estimador insesgado de 2 está dado por lo
siguiente: SS
ˆ 2  Re s  MSRe s
n p
 MSRes es conocido como el error estándar de regresión,
o cuadrado medio residual.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
48
95

ANALISIS DE VARIANZA
 Se utiliza para probar el significado de la regresión y se
basa en el análisis de la variabilidad total de la variable y
de respuesta.

y i - ŷ i

yi - y

ŷ i  y bx i  x 

xi  x

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

96

ANALISIS DE VARIANZA

 Para realizar este análisis, se comienza con la identidad.


yi  y   yˆi  y    yi  yˆi 

 Se elevan al cuadrado ambos lados de la ecuación y se


suma para todas las n observaciones.
n n n n

  y  y     yˆ  y   2  yi  yˆ i  yˆi  y     yi  yˆi 
2 2 2
i i
i 1 i 1 i 1 i 1

n n n

  y  y     yˆ  y     y  yˆ 
2 2 2
i i i i
i 1 i 1 i 1

 El lado izquierdo es la suma corregida de cuadrados de


las observaciones (SST) que mide la variabilidad total de
las observaciones.

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
49
97

ANALISIS DE VARIANZA

 El primer componente del lado derecho mide la cantidad de


variabilidad en las observaciones explicada por la línea de
regresión;
g es decir, SSR ((suma de cuadrados de regresión,
g
o del modelo).
 El segundo componente del lado derecho mide la variación
residual, o la cantidad de variabilidad en las observaciones
NO explicada por la línea de regresión; es decir, SSRes
(suma de cuadrados de los residuos, o suma de
cuadrados de error).
n n n

  y  y     yˆ  y     y  yˆ 
2 2 2
i i i i
i 1 i 1 i 1


SST  SS R  SSRe s
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

98

ANALISIS DE VARIANZA PARA PROBAR LA


SIGNIFICANCIA DE LA REGRESION
Análisis de varianza para probar la significancia de la regresión
Grados
Fuente de Suma de Cuadrado
de F0
variación cuadrados medio
libertad
n
SS R    yˆi  y 
2
Regresión 1 MS R MS R MS Re s
i 1
n
SS Re s    yi  yˆi  MSRe s
2
Residual n–2
i 1
n
SST    yi  y 
2
Total n–1
i 1

Para probar la hipótesis H0: 1 = 0, se calcula el estadístico F0 de prueba y se


rechaza H0 si F0  F ,1, n  2 .

Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
50
99

GRADOS DE LIBERTAD
 SST tiene dfT = n - 1 grados de libertad

Esto se debe a que se perdió un grado de libertad como resultado de la restricción


 y i  y  para las d i i es yi  y.
l desviacion

 SSR tiene dfR = 1 grados de libertad

Porque SSR queda completamente determinado por un parámetro, que es ̂1

 SSRes tiene dfRes = n - 2 grados de libertad


E t se debe
Esto d b a que se imponen
i d restriccio
dos t i i nes a las d i i es y i  yˆ como
l desviacion
resultado de estimar ˆ0 y ˆ1

 Observar que los grados de libertad tienen una propiedad


aditiva:
dfT = dfR + dfRes
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

100

COEFICIENTE DE DETERMINACION
 El coeficiente de determinación está dado por la siguiente
expresión: SS SS
R2  R
 1 Re s

SST SST

 A R2 se le conoce también como proporción de la variación


explicada por el regresor x; es decir…
Varianza de Regresión
Coeficiente de Determinación  R 2 
Varianza Total
 Dado que 0  SSRes  SST , entonces 0  R2  1.

 La magnitud de R2 depende, entre otras cosas, del intervalo de


variabilidad de la variable regresora. En general, R2 aumenta a
medida que aumenta la dispersión de las x, siempre y cuando
sea correcta la forma supuesta del modelo.
Ing. José Luis Salazar - jsalazar@expo.intercade.org - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING

También podría gustarte