Está en la página 1de 30

EPD

Estadísticas para derivados

Temario Módulo I

 Medidas de posición y dispersión.

 Funciones de densidad, probabilidad y distribución.

 Medidas de distribución.

 Distribuciones Binomial, Normal y Log-normal.

MEDIDAS DE POSICIÓN Y DISPERSIÓN


Estas medidas son valores numéricos calculados a partir de la muestra y que resumen la
información contenida en ella. Las medidas que se estudian en el curso son las siguientes:

MEDIDAS DE POSICIÓN
 Media aritmética: La media puede definirse como la suma ponderada de todos los valores
posibles de la variable aleatoria. 1n
x
n x
i1
i

 Mediana: es el valor de la variable que, una vez ordenados los datos, deja el mismo número
de datos antes y después que él. De acuerdo con esta definición el conjunto de datos
menores o iguales que la mediana representarán el 50% de los datos, y los que sean
mayores que la mediana representarán el otro 50% del total de datos de la muestra.

Aunque la media es la medida de posición más utilizada, en algunos casos se prefiere la


mediana, ya que la media se ve influida por valores extremos, tanto muy pequeños como
muy grandes.

 Moda: es el valor con una mayor frecuencia en un conjunto de datos. Una distribución puede
tener más de una moda o no tener ninguna.

 Percentiles: son los 99 valores que dividen la serie de datos en 100 partes iguales.
Generalizando, el percentil p es un valor tal que por lo menos p porciento de las
observaciones son menores o iguales que él, y por lo menos el (100-p) porciento son
mayores o iguales que él.

Como un caso particular, los cuartiles son los tres valores de la variable que dividen a un
conjunto de datos ordenados en cuatro partes iguales. Q1 y Q3 determinan los valores
correspondientes al 25% y al 75% de los datos. Por otra parte, P50 coincide con la mediana.
EPD
Estadísticas para derivados

MEDIDAS DE DISPERSIÓN
Las medidas de dispersión resumen en un valor cuán alejados están los valores de su media. Cuanto
más alejados se encuentren, habrá mayor variabilidad, obteniendo por lo tanto mayores valores de
las medidas de dispersión.

 Rango: es la diferencia entre el mínimo y el máximo.

 Rango intercuartil: es la diferencia entre el tercer y el primer cuartil de una distribución.


n
2 1 2
 La Varianza mide la dispersión alrededor de la media S  
n 1 i1 (xi  x)

 El desvío estándar es la raíz cuadrada de la varianza.

CÁLCULO EN EXCEL
Excel cuenta con funciones para el cálculo de todas las medidas de posición y dispersión:

*PROMEDIO (rango)

*MEDIANA (rango)

*MODA (rango)

*Q1: CUARTIL (rango;1) = PERCENTIL (rango; 0,25)

*Q3: CUARTIL (rango;3) = PERCENTIL (rango; 0,75)

*DESVEST (rango de datos)

Por otra parte, en el módulo “Análisis de Datos”, se puede seleccionar la opción “Estadística
Descriptiva”.
EPD
Estadísticas para derivados

FUNCIONES DE PROBABILIDAD, DENSIDAD


Y DISTRIBUCIÓN
Una variable aleatoria es una función que asigna un valor numérico a cada elemento del espacio
muestral (conjunto de valores posibles). Una variable cuantitativa es discreta cuando puede tomar
un número finito de valores, en cambio es continua cuando puede tomar un número infinito de valores
(cualquier valor dentro de un intervalo).
EPD
Estadísticas para derivados

FUNCIÓN DE PROBABILIDAD
En el caso de variables discretas, la función de probabilidad es una función que asocia a cada
punto de su espacio muestral la probabilidad de que ésta lo asuma.

La función de probabilidad P asociada a X es P(xi)=pi, donde pi es la probabilidad del suceso X=xi.


Por ejemplo:

Estas probabilidades cumplen con las siguientes propiedades:

pi  0i

p
i
i 1

FUNCIÓN DE DENSIDAD
Para variables continuas, la función de densidad es una función o curva que describe la forma
general de una distribución. Se la denomina f(x).

 Es una función no negativa: f (x)  0x




 El área total debajo de la curva completa es igual a 1:


 f (x)dx  1


 La probabilidad de que X tome un valor en el intervalo [a,b] es la integral definida en dicho

intervalo (área bajo la curva de la función de densidad en ese intervalo):


b

P(a  X  b)   f (x)dx
a
EPD
Estadísticas para derivados

FUNCIÓN DE DISTRIBUCIÓN
La función de distribución de una variable aleatoria es la función que asocia a cada valor de x la
probabilidad de que la variable tome valores menores o iguales a dicho valor: F (x)  P( X  x)

 La probabilidad de que X tome un valor en el intervalo [a,b] es: P(a  X  b)  F(b)  F(a)


 Es una función no decreciente y además: lim F (x)  0 lim F (x)  1
x x

 En variables aleatorias discretas, se define como: F (x)   p(x )


i / xi  x
i


x

F (x) 
 En variables aleatoria continuas, puede definirse como:

 f (u)du

ESPERANZA Y VARIANZA
La esperanza o valor esperado de una variable aleatoria es el número que representa el valor
medio.

La varianza de una variable aleatoria es una medida de su dispersión, definida como la esperanza
del cuadrado de la desviación de dicha variable respecto a su media.

En el siguiente cuadro se muestran las fórmulas para calcular estas medidas en los casos de
variables discretas y continuas.

La esperanza y la varianza cumplen las siguientes propiedades:

 Sea y = a+bx (transformación lineal de x).

 La esperanza de y es:

 La varianza de y es:

 Sea y = x1+x2 (combinación lineal de variables aleatorias).

 La esperanza de y es:
EPD
Estadísticas para derivados
 La varianza de y es:
EPD
Estadísticas para derivados

El término Covarianza (Cov) es una medida del grado de variación conjunta entre dos variables. Si
las variables son independientes, la covarianza es 0, por lo que la varianza de la suma de variables
es la suma de las varianzas de cada una. Se profundiza sobre esta medida en el módulo II.

MEDIDAS DE DISTRIBUCIÓN O DE FORMA


Son medidas asociadas a la forma de la distribución de variables continuas.

La curtosis es una medida de la forma o apuntamiento de las distribuciones. Si existe una gran
concentración de valores alrededor de la media, la curva se define como Leptocúrtica, si la
concentración es normal se denomina Mesocúrtica, y si hay una baja concentración, Platicúrtica.

La asimetría permite identificar si los datos se distribuyen de forma uniforme alrededor de la media
aritmética. Se dice que la asimetría es negativa cuando la mayoría de los datos se encuentran por
encima del valor de la media aritmética, la curva es simétrica cuando se distribuyen
aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como
asimetría positiva cuando la mayor cantidad de datos se aglomeran en los valores menores que la
media.

CÁLCULO DE COEFICIENTES
El coeficiente de asimetría (Fisher) se basa en la relación entre las distancias a la media y la
desviación típica.
EPD
Estadísticas para derivados

 Si g1 > 0, la distribución es asimétrica positiva o a la derecha.

 Si g1 = 0, la distribución es simétrica.

 Si g1 < 0, la distribución es asimétrica negativa o a la izquierda

El Coeficiente de Curtosis o Apuntamiento (Fischer) pretende comparar la curva de una distribución


con la curva de la distribución Normal1. Basándose en el dato de que en una distribución normal se
verifica que:

el coeficiente se define como:

 En una distribución Leptocúrtica (más apuntada que la Normal) el coeficiente de curtosis es


positivo.

 En una distribución Platicúrtica (menos apuntada que la Normal) el coeficiente es negativo.

Se puede obtener ambos coeficientes con las siguientes funciones de Excel:

*COEFICIENTE.ASIMETRIA (rango)

* CURTOSIS (rango)

Otra manera es a través de la opción “Estadística descriptiva” dentro de “Análisis de datos”.

1
La distribución normal se estudia en detalle más adelante en este módulo.
EPD
Estadísticas para derivados

DISTRIBUCIÓN BINOMIAL
Se define un ensayo de Bermoulli de la siguiente manera:

 Sea una experiencia con solo dos posibles resultados, identificados como éxito y fracaso.

 La probabilidad de ambos resultados es conocida y constante de repetición en repetición. La


probabilidad de éxito se denomina p, y la de fracaso q=1-p.

 El resultado de cada prueba es independiente de los resultados obtenidos en pruebas


anteriores.

Entonces, se define la variable Y como la cantidad de éxitos en n repeticiones independientes.


Esta variable tiene distribución Binomial con parámetros n y p, y se expresa Y ~ Bi(n, p)

La función de probabilidad de una variable binomial viene dada por:

n n!
P(Y  k)   k pk (1  p) nk  k!(n  k)! p (1  p) nk
k

 

Por su parte, la esperanza y la varianza son:

E( X )  np Var( X )  np(1 p)

Ejemplo: Una empresa informa que el 20% de las cuentas por cobrar están vencidas. El contador
escoge al azar 5 cuentas. ¿Cuál es la probabilidad de que ninguna de las cuentas esté vencida?

Se define Y: Número de cuentas vencidas en una muestra de tamaño 5.


Y ~ Bi(n  5, p  0,20)
5
P(Y  0)   00,200 (0,80)  0,80  0,328
5 5

 

CÁLCULO DE COEFICIENTES
Las probabilidades para la distribución Binomial están tabuladas, y además pueden ser calculadas
en Excel, con la función estadística DISTR.BINOM, de la siguiente forma:
EPD
Estadísticas para derivados

APLICACIÓN: MODELO BINOMIAL


Se supone que el precio de un activo hoy es P. En el período siguiente puede aumentar un U% con
probabilidad p, y disminuir un D% con probabilidad (1-p). Por lo tanto, el precio del activo es una
variable Bermoulli.

Se extiende el modelo a más períodos, considerando a cada período como un ensayo independiente,
con probabilidad de aumento p, y probabilidad de disminución (1-p). Se obtiene el siguiente árbol
binomial:
EPD
Estadísticas para derivados

En el momento t=3, hay cuatro resultados posibles. La probabilidad de que el precio sea igual a
alguno de estos cuatro valores se calcula a través de la distribución binomial.

Por ejemplo, hay 3 secuencias de movimientos que resultan en un precio de u2dP, que incluyen
dos aumentos en tres movimientos. Por lo tanto, la probabilidad de que el precio sea P 3= u2dP es:

2 3  2 2
P(P3  u dP)    p (1 p)  3 p (1 p)
2
 
La variable binomial es entonces el número de aumentos.

DISTRIBUCIÓN NORMAL
Una variable aleatoria continua X sigue una distribución Normal de parámetros (µ,σ), y se designa
x~N(µ,σ), si su función de densidad está dada por:
1 1  x 2
f (x)  e  2   
2 2


EPD
Estadísticas para derivados


Esta distribución tiene las siguientes propiedades:
 Una función de densidad normal es simétrica, campanular y centrada en la media μ.
 Debido a que las densidades normales son simétricas y unimodales, la media, la mediana
y la moda coinciden.
 La dispersión de la curva de densidad normal está determinada por el desvío estándar σ.
 El coeficiente de asimetría es igual a 0 y la curtosis es igual a 3.
 La regla del 68-95-99.7 Para cualquier Distribución Normal se cumple que:
 68% de las observaciones caen en (μ- σ, μ+ σ)
 95% de las observaciones caen en (μ- 2σ, μ+ 2σ)
 99.7% de las observaciones caen en (μ- 3σ, μ+ 3σ)

TEOREMA CENTRAL DEL LÍMITE


El Teorema Central de Límite no es un único teorema, sino que consiste en un conjunto de resultados
acerca del comportamiento de la distribución de la suma (o promedio) de variables aleatorias. Se
afirma, bajo ciertas hipótesis, que la distribución de la suma de un número grande de variables
aleatorias se aproxima a una distribución normal.

Sea una muestra aleatoria de una distribución con media μ y varianza σ2. Entonces, si n es
suficientemente grande, la variable aleatoria tiene aproximadamente una distribución normal:
 
X ~ N  , 
 
EPD
Estadísticas para derivados

SUMA DE VARIABLES NORMALES


Sean X1,…, Xn variables aleatorias independientes con X i ~ Ni ,  i 

Entonces, la variable Y=a1X1+ …+ anXn también se distribuye normal con parámetros:


Y  a11 ... an n  2  a 2 2 ... a 2 2
Y 1 1 n n

DISTRIBUCIÓN NORMAL ESTÁNDAR


La distribución normal con media 0 y desvío estándar 1 se llama distribución normal estándar.
Cualquier distribución normal se puede transformar directamente en una distribución normal estándar
mediante la siguiente transformación:

La distribución normal estándar está tabulada y se pueden usar los valores tabulados para encontrar
valores de la función de distribución de cualquier otra distribución normal.

Uso de la distribución N (0,1)


Sea X una variable con distribución N (µ,σ). Se puede calcular la probabilidad de que X sea menor
o mayor a un determinado valor, así como obtener el valor cuya probabilidad es un valor
determinado:

X A A   
P( X  A)  ? P( X  A)  P   P Z 
   
      
 x
 P( X  ?)  p P( X  x)  P Z   PZ  z   p  x  z  
 
  

Ejemplo: Se desea conocer la probabilidad de que un portfolio registre un rendimiento de -2%,
siendo que el rendimiento promedio es 0,11% y el desvío estándar de 1.76%.

  2  0,11 
P( X  2)  P Z   PZ  1,20  0,115
 1,76 
EPD
Estadísticas para derivados

EPD
Estadísticas para derivados

Por otra parte, se puede determinar un nivel de confianza o probabilidad, y a partir de éste definir el
rendimiento asociado a esa probabilidad. En base al ejemplo anterior, se desea calcular el
rendimiento de la cola inferior que se encuentra asociado al 1% de probabilidad.

PZ  z  0,01  z  2,326

x  z    1,76(2,326)  0,11  3,98

Es decir, con una probabilidad del 1%, el rendimiento negativo será mayor que 3,98%.

CÁLCULO EN EXCEL
Las probabilidades para la distribución N(0,1) están tabuladas, y además pueden ser calculadas en
Excel, con las funciones (estadísticas) DISTR.NORM.ESTAND.INV y DISTR.NORM.ESTAND de la
siguiente forma:
EPD
Estadísticas para derivados

También pueden hacerse los cálculos sin necesidad de estandarizar los datos, con las funciones
(estadísticas) DISTR.NORM.INV y DISTR.NORM. de la siguiente forma:

APLICACIÓN: FÓRMULAS DE BLACK-SCHOLES


Las fórmulas de Black-Scholes para determinar el precio de las opciones son:

con

donde:
 X: precio de ejercicio
 S0: el precio de contado del subyacente
EPD
Estadísticas para derivados

 t: el tiempo expresado en años que aún faltan por transcurrir en la opción


 σ: volatilidad
 r: tasa de interés
 N: función de distribución acumulada de la distribución normal estándar

PRUEBAS DE NORMALIDAD
Si bien existen técnicas objetivas para probar la normalidad de conjunto de datos (como gráficos
específicos y test de hipótesis), con los temas incluidos en el curso se puede evaluar si la distribución
de los datos se aproxima a una normal, de la siguiente manera:
 Obtener las medidas descriptivas y analizar si la media, la mediana y la moda toman
valores similares.
 Evaluar la curtosis y la asimetría: ambas medidas deben ser próximas a 0.
 Aplicar la regla del 68-95-99.7.
 Obtener el histograma de los datos y analizar su forma: un histograma es una
representación gráfica de una variable en forma de barras, donde la superficie de cada barra
es proporcional a la frecuencia de los valores representados. En el eje vertical se
representan las frecuencias, y en el eje horizontal los valores de las variables, agrupados en
intervalos.

En Excel, puede obtenerse a través de los siguientes pasos:


EPD
Estadísticas para derivados

Una vez obtenido el gráfico, hay que realizar algunos cambios, ya que el gráfico resultante por
defecto muestra las barras separadas.
EPD
Estadísticas para derivados

DISTRIBUCIÓN LOG-NORMAL
Una variable X sigue una distribución log-normal si los logaritmos neperianos de sus valores están
normalmente distribuidos, es decir, si la variable Y=ln(X) es N (µ,σ). Dicho de otra manera, si Y se
distribuye N(µ,σ), X=exp(Y) tiene una distribución log-normal. La variable aleatoria se define para los
reales positivos.
 1  ln(x) 
2
1
f L (x; ,  )  1 f N (ln x; , ) f (x)  e 2  



x x 2


Utilizando las fórmulas para los estimadores de parámetros de la distribución normal para la
distribución log-normal se cumple:

ln x
1 1
ˆ ln x ˆ 2   ̂ 
2

n 1
k k
n k k

El cálculo de probabilidades en el modelo log-normal se realiza por medio de la relación logarítmica


existente con el modelo normal. El modelo Log-Normal LN(μ, σ) se puede expresar en términos del
modelo Normal Estándar mediante el cambio de variable

ln( X )  
Z



La distribución log-normal es la distribución natural a utilizar cuando los valores son proporciones o
porcentajes más que por valores absolutos como es el caso de la distribución normal. La relación de
esta distribución con la normal es de suma importancia, ya que es requisito que los datos provengan
de distribución normal para la aplicación de técnicas que veremos en los próximos módulos.
Utilizaremos esta relación en el cálculo de los retornos de activos financieros y los supuestos sobre
su distribución.

Ejemplo: Para una variable aleatoria Log-Normal, LN(5, 0.1), calcular la probabilidad de que la
variable tome valores en el intervalo (100,175).
ln(100)  5 ln(175)  5 
P(100  X  175)  P Z 
 0,1 
 0,1 
P(3,95  Z 1,65)  FZ (1,65)  FZ (3,95)  0,95031 - 0,00004  0,95049
EPD
Estadísticas para derivados

También pueden hacerse los cálculos sin necesidad de estandarizar los datos, con las funciones (estadísticas)
DISTR.LOG.INV y DISTR.LOG.NORM. de la siguiente forma:
EPD
Estadísticas para derivados

Temario Módulo II

 Cálculo de retornos de activos financieros.

 Correlación y Regresión Lineal Simple.

CÁLCULO DE RETORNOS
Sea Pt la cotización de un cierto activo en el momento t, se supone que P se observa en los momentos
t=1,2,…,n.
Para algunos modelos, se supone que los retornos son independientes y están idénticamente distribuidos.
Existen dos formas de calcular los retornos (o tasa de cambio) de un determinado activo o factor de riesgo:
el cálculo discreto y el continuo.

CÁLCULO DISCRETO
Un retorno discreto o aritmético en el momento t se define como:
P  Pt 1 P
 t 1
Rt t Pt Pt1 (Rt  1)
Pt 1 Pt 1

Rt representa la tasa de rentabilidad de un cierto activo, adquirido por Pt-1 y vendido por Pt. Un

retorno entre períodos se calcula de la siguiente manera:

Pt Pt
R (m)  1  Pt 1
...
Pt m1
1
t

Pt m Pt1 Pt 2 Pt m
 
 Pt  Pt1   Ptm1

 1 P  11 P  1...1 P  1  1


 t 1  t 2   t m 

 1  Rt 1  Rt 1 ...1  Rt m1  1 


t

(1  Rj) 1
 j t m1


CÁLCULO CONTINUO
Un retorno continuo o logarítmico de una inversión en el momento t se define como:

  
rt  ln( Pt )  ln( Pt1 )  ln Pt  Pt  Pt 1e rt

 Pt 1 
EPD
Estadísticas para derivados

La relación entre los retornos calculados de ambas maneras es:

 Pt   Pt 

rt  ln   lnP 11  ln( Rt 1)


 Pt 1   t 1 


Un retorno entre períodos se calcula de la siguiente manera

 Pt 

rt (m)  ln t m   ln( Pt)  ln( Ptm )


P
 ln( Pt )  ln( Pt1 )  ln( Pt1 )  ln( Ptm1 )  ln( Ptm1 )  ln( Ptm )
t

 rt  rt 1  rt 2 ... rt m1  r j
j t m1

COMPARACIÓN

 Emplear interés continuo no es la forma más intuitiva de calcular la variación de precios. Sin
embargo, resulta conveniente al momento de describir el comportamiento de los retornos o
variaciones de precios de los activos.

 Para datos diarios o semanales se puede asumir que Rt  r t .

 Los retornos discretos pueden llevar a conclusiones erróneas, ya que pueden provocar un precio
negativo. En el caso de cálculo continuo, no existe esta posibilidad ya que es siempre positivo
por definición.

 Los retornos continuos multiperíodos son aditivos, mientras que los discretos no lo son, por lo
que son más fáciles de modelar.

ln( P )  ln( P )   r
t
 Si se considera que los retornos continuos se distribuyen N (µ,σ2), entonces
t o j
se distribuye N (tµ, tσ2). Esto no ocurre con los retornos discretos. j1

APLICACIÓN: VOLATILIDAD
La volatilidad es una medida de la frecuencia e intensidad de los cambios del precio de un activo. Se
utiliza para cuantificar el riesgo del activo y se calcula mediante el desvío estándar de los
rendimientos de los precios en un horizonte temporal específico. Si el desvío estándar es alto, esto
significa que las rentabilidades del activo se han desviado significativamente con respecto a la
rentabilidad media, y por tanto podemos deducir que se trata de un activo con un riesgo alto.

Los supuestos implícitos son:

 El rendimiento de un activo es una variable aleatoria.


EPD
Estadísticas para derivados

 Los retornos son independientes y están idénticamente distribuidos.

En los informes económicos, análisis técnicos y mercados de opciones, se expresa anualizada y en


porcentaje.

Para interpretarla, se puede aplicar la regla del 68-95-99.7. Por ejemplo: Suponiendo que la soja
cotiza a u$s 400/ton, con una volatilidad semanal del 2%, esperaríamos que dentro de una semana
cotice aproximadamente entre:

 u$s 392 y u$s 408 con una probabilidad del 68%

 u$s 384 y u$s 416 con una probabilidad del 95%

 u$s 376 y u$s 424 con una probabilidad del 99,7%

CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE


Ambas técnicas se pueden aplicar cuando hay interés en la relación entre dos variables continuas.
Si lo que se quiere es obtener un estadístico que exprese el grado de relación entre las variables, se
habla de correlación. Si se busca hacer predicciones de una variable en función de otra, se habla de
regresión.

Cuando se cuenta con datos de dos variables, la forma más sencilla para obtener una primera idea
de la relación entre ambas es obtener un gráfico de dispersión.
D
EPD
Estadísticas para derivados

GRÁFICO DE DISPERSIÓN

A) Fuerte relación positiva, a medida que x aumenta, y también lo hace.

B) Fuerte relación negativa entre x e y, un aumento de x corresponde a una disminución de y.

A B

C) No hay ninguna relación entre las variables, no hay una tendencia de y con respecto a x

D) Existe una relación entre x e y, pero no es lineal.

En Excel, para obtener un gráfico de dispersión, hay que seleccionar los dos conjuntos de datos, y
elegir la opción Gráfico de dispersión, dentro de los Gráficos disponibles.
EPD
Estadísticas para derivados

CORRELACIÓN
El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la relación
entre dos variables. Una medida de esta relación es el coeficiente de correlación. Hay varios
coeficientes, pero el más común es el coeficiente de correlación de Pearson. Este coeficiente toma
valores entre -1 y 1, y se calcula de la siguiente manera:

 XY
Corr( X ,Y )   
 X Y

donde  XY  COV(X ,Y )  E(X  E(X ))(Y  E(Y ))




En la muestra, se calcula de la siguiente forma:

r
Cov(x, y)
  (x  x)( y  y) /(n 1) 
i i  x y  nxy
i i

Sx S y Sx S y ( x  nx )(  y  ny
i
2 2
i
2
)2

La interpretación depende del valor y del signo. El signo indica la dirección de la relación, y el valor
indica la fuerza.
EPD
Estadísticas para derivados

En Excel, se puede obtener el coeficiente de correlación a través de la función COEF.DE.CORREL:

Otra manera es a través de la opción “Coeficiente de Correlación” dentro de “Análisis de datos”. Esta
opción es más útil cuando se cuenta con información de varias variables, y se quieren obtener las
correlaciones para todos los pares de variables de una sola vez (el resultado es una matriz).

REGRESIÓN LINEAL SIMPLE


Un modelo de regresión lineal simple entre una variable X, llamada independiente o explicativa, y
una variable Y, llamada variable dependiente o respuesta, tiene la siguiente forma:

Y    X  
donde:

 α es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y


 β es el coeficiente de regresión (pendiente de la línea recta)
 ε es el término de error. Se supone que es una variable aleatoria que se distribuye N (0,σ2).

ECUACIÓN DE REGRESIÓN ESTIMADA


Se cuenta con n observaciones de las variables X e Y. El objetivo es estimar los valores de α y  que
producen la función lineal que mejor se ajusta a los datos, es decir, la ecuación para la cual los
valores estimados de y sean los más próximos posibles a los valores de y (errores mínimos).
yˆ  a  bx

El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

a  y  bx b  (x  x)( y  y)   x y  nxy
i i i i

 (x  x) i  x  nx
2
i
2 2
EPD
Estadísticas para derivados

b indica el número de unidades en que varía en promedio Y cuando se produce un cambio de una
unidad en X.

COEFICIENTE DE DETERMINACIÓN
Es la medida más importante de qué tan bien ajusta la línea de regresión estimada en los datos
muestrales en los que se basa. Este coeficiente es igual a la proporción de la variación total de los
valores de la variable dependiente que puede explicarse por medio de la variable independiente.

 ( ŷi  y) 2

R 
2
2
( yi  y)

La raíz cuadrada de R2 equivale al coeficiente de correlación.

TEST DE HIPÓTESIS
Las hipótesis son:

H0) No existe relación lineal entre x e y  H0) =0

H1) Existe relación lineal entre x e y  H1) ≠0

b
Se realiza un test t con el siguiente estadístico: t
Sb

Se rechaza H0 si la probabilidad asociada es menor o igual al nivel de significación establecido


(generalmente 0,05).

SUPUESTOS DE LA REGRESIÓN
Normalidad

Se exige la normalidad de la distribución de los errores. El recurso que brinda Excel para verificar
este supuesto es el Gráfico de Probabilidad Normal. La idea básica de este gráfico consiste en
representar la proporción acumulada de los datos observados, frente a la proporción acumulada que
se espera si la muestra se obtuviera de una distribución normal teórica.

Si la muestra se ha obtenido de una distribución normal, los puntos se agruparán en torno a una
línea recta. Es frecuente observar una mayor variabilidad (separación) en los extremos.
EPD
Estadísticas para derivados

Varianza constante (Homocedasticidad)

El supuesto de Homocedasticidad exige que para todo el recorrido de la variable X la variación de


los residuos sea constante. Se espera, a priori, que no exista ningún patrón de comportamiento
sistemático de los errores alrededor de su valor esperado (cero) y se distribuyan uniformemente
presentado “la misma dispersión”.

El recurso gráfico que presenta Excel para comprobar este supuesto es el de los valores de X versus
los residuos. Lo que se busca es que no haya evidencia de un mayor grosor de la nube de puntos
en alguna dirección.

CÁLCULO CON EXCEL


EPD
Estadísticas para derivados

Ejemplo: Se cuenta con datos de la duración de la cosecha de soja en días y el rendimiento de la


cosecha en toneladas por hectárea.

Estadísticas de la regresión
Coeficiente de correlación 0,93964874
múltiple A
Coeficiente de determinación 0,88293976
R^2
R^2 ajustado 0,86830723
Error típico 0,20442726
Observaciones 10
Coeficientes Error típico Estadístico t Probabilidad
Intercepción 5,206833798 0,471351896 11,04659565 4,01845E-06
Duración -0,034215413 0,004404696 -7,767939302 5,39409E-05

B C

A) La duración de la cosecha explica el 89% de la variabilidad del rendimiento.

B) El rendimiento se reduce en promedio en 0,03 toneladas ante un aumento de un día en la


duración de la cosecha.

C) Se rechaza la hipótesis nula, existe relación lineal entre la duración y el rendimiento.

Por último, debe hacerse un análisis de los residuos, comprobando los supuestos de normalidad y
varianza constante.
EPD
Estadísticas para derivados

APLICACIÓN: MODELO DE MERCADO


Una importante aplicación de la regresión lineal simple es el Modelo de Mercado. Este modelo
supone que la tasa de retorno de una acción está linealmente relacionada con la tasa de retorno de
todo el mercado. El modelo es:

Rj    RM  

donde:

 Rj es el retorno de la acción j

 RM es el retorno de un conjunto de acciones, medido a través de un índice.

 β=coeficiente Beta (coeficiente de volatilidad).

Una acción con un coeficiente beta mayor que uno tiende a ser más volátil que el mercado. Por
ejemplo, si β es mayor que uno, la tasa de retorno de la acción es más sensible a cambios del
mercado que el promedio de las acciones. Si β =2, un incremento del 1% en el índice del mercado
ocasiona un aumento promedio del 2% en el retorno de la acción.

También podría gustarte