Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y Estadística
Maestría en Finanzas – Universidad Torcuato Di Tella
Prof. Sebastián Auguste
sauguste@utdt.edu
Objetivo
• Tenemos una base de datos de panel de 100 mil hogares de EE.UU. y sus
ingresos anuales. ¿Qué análisis podemos hacer de estos datos históricos?
7
Tipo de “variables”
Variables
Cuali Cuanti
(categóricas) (numéricas)
Ejemplos:
◼ Estado Civil Discretas Continuas
◼ Equipo de Fútbol
◼ Color de Ojos
Ejemplos:
(Definen categorías) Ejemplos:
◼ Número de hijos
◼ Edad ◼ Altura
(Items contables) ◼ Ingreso
(Items incontables)
8
Tipo de estadística descriptiva
• Univariada: es una medida basada en una sola variable (e.g. media, varianza,
etc)
• Bivariada: relaciona dos variables (e.g. covarianza, coeficiente de correlación)
• Multivariada: relaciona a muchas variables (se usa para “describir” pero
también para “inferir”) e.g. regresión, componentes principales/análisis
factorial, clustering
Datos categóricos o
Datos continuos
discretos)
se usan técnicas gráficas
tabulados simples o de
(histogramas) o medidas de
doble entrada (tablas de
posición y dispersión.
frecuencias)
¿Se deben
excluir los
missings?
20 20 22 24 ¿25?
25
frecuencias acumuladas
20
15
0
detectar outliers y
0-999 1000-1999 2000-2999 3000-3999 4000-4999 5000
potenciales errores.
Frecuencia Acumulada
120%
100%
80%
60%
40%
20%
Haga clic en el botón de Microsoft Office y, a continuación, haga clic en Opciones de Excel.
Haga clic en Complementos.
En el cuadro Administrar, haga clic en Complementos de Excel y, a continuación, en Ir.
En el cuadro Complementos disponibles, siga uno de estos procedimientos:
Para cargar Herramientas para análisis, active la casilla de verificación Herramientas para análisis y
haga clic en Aceptar.
Para incluir funciones de Visual Basic para Aplicaciones (VBA) de Herramientas para análisis, active la
casilla de verificación Herramientas para análisis -VBA y, a continuación, haga clic en Aceptar.
For Excel 2007 see http://office.microsoft.com/en-us/excel/HP100215691033.aspx
For Excel 2003 see http://office.microsoft.com/en-us/excel/HP011277241033.aspx
Características de la Media
intuitiva y fácil de calcular.
Su valor puede que no coincida con ninguno de los valores de la muestra
Tiene sentido para variables cuantitativas, no para cualitativas
𝑥𝑖 = 𝑥1 + 𝑥2 +…+ 𝑥𝑛
𝑖=1
35 MFIN. Nivelación. Prof. Sebastián Auguste
Aplicación: Media o Promedio (suma de n
elementos dividido por n)
1 n
X = xi x1 + x2 + ... + xn
X=
n i =1 n
X = f ( x1 , x2 ,..., xn )
𝐶 = 𝑥𝑖 ∗ 𝑐𝑖
𝑖=1
En el caso de tres elementos:
𝐶 = 𝑥1 ∗ 𝑐1 + 𝑥2 ∗ 𝑐2 +𝑥3 ∗ 𝑐3
= 1.20 ∗ 100 + 1.5 ∗ 50 + 2 ∗ 50
Ventajas:
considera todos los valores de la distribución
es menos sensible que la media aritmética a los valores extremos.
Desventajas:
es de significado estadístico menos intuitivo que la media aritmética,
su cálculo es más difícil y en ocasiones no queda determinada; por
ejemplo, si un valor xi=0 o hay valores negativos.
1
T
R G = (1 + R t ) − 1
T
t =1
En el ejercicio USD
1M / (1+i)^3 = USD1M / 1.1^3 = USD 751.314,8
Se puede usar con todo tipo de variable, pero es más útil para
variables cualitativa
2001 2010
$ 15,000 $ 15,000
$ 20,000 $ 20,000
$ 30,000 $ 30,000
$ 40,000 $ 40,000
$ 50,000 $ 100,000
Media …………. ………….
Mediana $30.000 $30.000.
55 Moda Prof. Sebastián Auguste ………….
MFIN. Nivelación. ………….
Pro Contras
-Usa todos los datos de la -No es útil para variables discretas (cuál es la media
56
variable
MFIN. Nivelación. Prof. Sebastián Auguste entre un hombre y una mujer)
Ejemplo de análisis de datos
En los 1980s paradoja en los MBA de EE.UU., al tiempo que el
ingreso promedio de los egresados cayó de US$ 90.000 en 1980 a
US$ 88.000 en 1990, se daba un boom de matriculados.
¿Son los estudiantes de MBA irracionales? ¿Qué pudo causar esto?
n n
X w = wi X i donde 0 wi 1, wi = 1
i =1 i =1
Mediana…………mediana() o median()
Media …………..promedio() o average()
Moda……………moda() o mode()
Clickee en
summary statistics
Click OK
$2,000,000
500,000
300,000
100,000
100,000
Días de concepción de un
Ingresos, habilidad,
parto.
89 MFIN. Nivelación. Prof. Sebastián Auguste
Asimetría
Días de concepción de un
Ingresos, habilidad,
parto.
91 MFIN. Nivelación. Prof. Sebastián Auguste
Relación entre Tendencia Central y la
Simetría de la distribución
Leptocúrtica
Mesocúrtica
Platocúrtica
Distribución mesocúrtica: g2 = 0
Histogramas acampanados
Simétrico
Sin exceso de curtosis
Relación entre media y desvío estándar
60
50
Presión Tributaria Bruta (impuestos gob
central+local+seguridad social)
40
Argentina(2005)
30
20 Argentina(2000)
10
0
- 5,000 10,000 15,000 20,000 25,000 30,000 35,000 40,000 45,000 50,000
PBI per capita (ppp en US$)
108 MFIN. Nivelación. Prof. Sebastián Auguste
Europa Oceanía Países Escandinavos EE.UU. y Canadá Argentina Latam Asia Lineal
Un gráfico más complejo aún, pero más rico en el análisis es
el que se conoce como shift-share, donde se busca ver
correlación entre dos variables y a su vez importancia y
desempeño relativo.
75%
Crecimiento Anual de las Importaciones del
65%
Mercado de Destino (2001-2008)
55%
35%
United Arab Emirates
China
25% Russian Federation India
Trinidad and Tobago Brazil
Ecuador Chile
Korea Venezuela
EU Colombia Thailand
15% CAC Singapore Australia
Malaysia
Taiwan Hong Kong
Japan Jamaica
5% Mexico Región: sus mercados de
Canada
USA exportación crecieron (promedio
ponderado) menos que el
-5% mundo, y se perdió market share
en estos mercados
-15%
Mercados en Declive
-15% -5% 5% 15% 25% 35% 45% 55% 65% 75%
( X1 − X )
2
+ ... + ( X n − X )
2
1 n
(X i − X )
var( X ) = =
2
n −1 n − 1 i =1
¿Y si combinamos ambos?
111 MFIN. Nivelación. Prof. Sebastián Auguste
Técnicamente Covarianza se define como
cov( X , Y ) =
( X 1 − X )(Y1 − Y ) + ... + ( X n − X )(Y1 − Y )
n −1
n
=
1
( X i − X )(Yi − Y )
n − 1 i =1
( X i − X ) 0 (Yi − Y ) 0
Cov (X,Y)=SXY
Propiedades
Donde
•Libre de unidad
de medida
•Entre -1 y 1
En Excel: CORR(...)
115 MFIN. Nivelación. Prof. Sebastián Auguste
Propiedades del coeficiente de
correlación
Invariante al cambio de unidades (si paso de medir las ventas
de miles de USD a millones no cambia el coeficiente)
−1 1 ya que está normalizado por los desvíos
mide dependencia lineal, si los datos (Xi,Yi) ienden a caer
sobre una recta
cuantifica la fuerza de la relación, pero no la forma de la recta
(su pendiente y ordenada al origen)
Correlación no es lo mismo que Causalidad
Fuente: The Trouble with QSAR (or How I Learned To Stop Worrying and Embrace Fallacy),
Stephen R. Johnson *
Bristol-Myers Squibb, Co., Princeton, New Jersey 08543
J. Chem. Inf. Model., 2008, 48 (1), pp 25–26
DOI: 10.1021/ci700332k
Publication Date (Web): December 28, 2007
Copyright © 2008 American Chemical Society
123 MFIN. Nivelación. Prof. Sebastián Auguste
Correlación no implica causalidad
Fuente: The Trouble with QSAR (or How I Learned To Stop Worrying and Embrace Fallacy), Stephen R. Johnson *
Bristol-Myers Squibb, Co., Princeton, New Jersey 08543
J. Chem. Inf. Model., 2008, 48 (1), pp 25–26
DOI: 10.1021/ci700332k
Publication
MFIN.Date (Web): December 28, 2007
124
Nivelación. Prof.
Copyright © 2008 American Chemical Society
Sebastián Auguste
Correlación no implica causalidad
Cuantos más bomberos se envían a un incendio, más daño se hace.