Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1- ESTADÍSTICA Y UNIDADES
- Estadística Descriptiva: ordena y resume los datos para extraer las características más
relevantes.
Unidad estadística: ser vivo, cosa o hecho del que se obtienen uno o varios datos. Su
conjunto conforma la población.
Cada uno de los individuos de la población puede describirse según uno o varios caracteres.
• continuos: tienen infinitos valores. Siempre existe otro valor entre dos distintos
(peso)
∑n
i =1
i =N
ED 1
• Frecuencia absoluta acumulada (Ni): número de observaciones menores o
iguales a un valor.
Ni = n1 + n2 + … + ni−1 + ni ; Nk = N
4- TABLAS ESTADÍSTICAS
Es una forma de representar reducidamente los datos de una investigación. Aparecen los
valores con sus distintas frecuencias (dependiendo de los requerimientos aparecerán las
frecuencias absolutas y/o las relativas, y las acumuladas).
5- REPRESENTACIONES GRÁFICAS
Se trata de los métodos mediante los que las observaciones estadísticas se representan por
magnitudes o figuras geométricas, ya que aunque la tabla incluya toda la información
disponible, los gráficos ayudan a ver pautas de comportamiento en la población.
Por tanto, no son un sustitutivo de las tablas, sino un complemento.
Hay muchos tipos de gráficos, dependiendo del tipo de caracteres que se tengan:
1- ATRIBUTOS:
ED 2
b) Diagrama de sectores: en este caso es el área del sector circular la que representa
la frecuencia de cada modalidad, por lo que se reparten los 360 grados del círculo
proporcionalmente a las frecuencias.
c) Pictograma: consiste en dibujos que aluden a cada modalidad del atributo. Las
proporciones se representan bien mediante la repetición del dibujo, o bien con el
tamaño del dibujo.
d) Diagrama triangular: sólo es útil cuando el atributo tiene tres modalidades entre las
que se reparten el total de la población. Se basa en que en un triángulo equilátero,
las paralelas a los lados, trazadas desde un punto interior, tienen una longitud cuya
suma es constante e igual al lado del triángulo.
ED 3
f) Cartograma: es un mapa en el que las distintas modalidades se indican mediante un
código de colores, con los que se pintan las regiones. Es muy usado en la
representación de resultados electorales.
2- VARIABLES DISCRETAS:
a) Diagrama de barras: sobre un eje cartesiano se representa cada modalidad con una
barra, cuya altura es proporcional a la frecuencia absoluta de cada modalidad si es
un diagrama de frecuencias absolutas; o a la frecuencia relativa si es de frecuencias
relativas.
b) Polígono de frecuencias: es una línea poligonal obtenida al unir los puntos (xi , fi ) ,
donde xi es el valor i de la variable, y fi su frecuencia relativa (también puede
hacerse con las frecuencias absolutas, ni .este caso es el área del sector circular la
ED 4
que representa la frecuencia de cada modalidad, por lo que se reparten los 360
grados del círculo proporcionalmente a las frecuencias.
3- VARIABLES CONTINUAS:
ED 5
b) Polígono de frecuencias: es el mismo caso que para las variables discretas, con la
diferencia de que se combina con el histograma, uniendo las líneas los puntos
medios de las cimas de los rectángulos.
e) Diagrama de caja: tras ordenar los datos de menor a mayor, se calculan los
cuartiles 1 y 3 (estos marcan los extremos de la caja), y la mediana (divide la caja
en dos). Luego se calculan los límites admisibles fuera de los cuales los datos son
atípicos:
ED 6
LI = Q1 − 1,5 ( Q3 − Q1 ) LS = Q3 + 1,5 ( Q3 − Q1 ) .
a) Con estos límites se dibujan los “bigotes”: el izquierdo con el menor valor de la
distribución mayor o igual que el LI; y el derecho con el mayor valor menor o igual
al LS. Por último, se pintan los datos atípicos y la media.
ED 7
TEMA 2: MEDIDAS DE SÍNTESIS. LA
MEDIA
1- MEDIDAS DE POSICIÓN
Las tablas estadísticas ofrecen toda la información disponible, pero muchas veces es
demasiado extensa, así que se intenta resumir en una serie de medidas de síntesis,
representadas por unos estadísticos. Estas medidas son operativas si tienen en cuenta todos
los valores de la distribución, son calculables, y únicas para cada distribución
Las medidas de síntesis se dividen en medidas de posición, de dispersión, de forma y de
concentración.
Las medidas de posición tratan de cuantificar entorno a qué valor o valores se distribuyen
las observaciones. Se dividen en medidas de posición no central (cuantiles) y las de posición
central (media, mediana y moda).
Debido a la extrema simplificación que se lleva a cabo con las medidas de posición, todos
los valores observados se resumen en uno únicamente, se les exige una serie de
condiciones, establecidas por Yule:
1) estar definidas de manera objetiva
2) usar todas las observaciones disponibles
3) tener un significado concreto y sencillo de interpretar
4) ser sencillas de calcular
5) prestarse a cálculos algebraicos posteriores
6) ser poco sensibles a cambios en la muestra
Es prácticamente imposible encontrar estadísticos que cumplan todas estas condiciones, así
que dependiendo de lo que se busque, se elegirán unos u otros.
2- LA MEDIA ARITMÉTICA
Es la suma de todos los valores observados ponderados por sus frecuencias. Es la más
conocida y usada.
x1 − x ⋅ n1 + x2 − x ⋅ n2 + …… + x j − x ⋅ nj = x j+1 − x ⋅ nj+1 + …… + xk − x ⋅ nk
/ x1 , x2 , … , x j < x < x j+1 , … , xk
∑xn i i k
x= i=1
= ∑ x i fi
N i =1
ED 8
En el caso de variables con datos agrupadas, se usan las marcas de clase para calcular la
media.
PROPIEDADES:
k
1) Valor total de las observaciones: N ⋅ x = ∑ x i ⋅ ni
i=1
Demostración:
k
∑x i ⋅ ni k
Nx = N ⋅ i =1
= ∑ x i ⋅ ni
N i =1
∑ (x
i =1
i − x) ⋅ ni = 0
Demostración:
k
k k k ∑x i ⋅ ni
∑ (x i − x) ⋅ ni = ∑ x i ⋅ ni − x ⋅ ∑ ni = N ⋅
i =1 i =1 i =1
i =1
N
− x ⋅N = N⋅ x −N⋅ x = 0
∑y i ⋅ ni ∑ ( ax i + b ) ⋅ ni ∑ ax i ⋅ ni + ∑ bni a ⋅ ∑ x i ⋅ ni b ⋅ ∑ ni
y= i =1
= i =1
= i =1 i =1
= i =1
+ i =1
= ax + b
N N N N N
∑x i ⋅ ni ∑ ( ay i + bzi ) ⋅ ni ∑ ay i ⋅ ni + ∑ bzi ⋅ ni a ⋅ ∑ y i ⋅ ni b ⋅ ∑ zi ⋅ ni
x= i =1
= i =1
= i =1 i =1
= i =1
+ i =1
= ay + bz
N N N N N
N1 x1 + N2 x 2 + … + Nr x r
X=
N1 + N2 + … + Nr
ED 9
Demostración: sean r muestras distintas, cada una compuesta por k i caracteres o
intervalos, habiendo p en total. Entonces:
p k1 k2 kr
∑x i ⋅ ni ∑x 1i ⋅ ni + ∑ x 2i ⋅ ni + …… + ∑ x ri ⋅ ni
X= i =1
= i =1 i =1 i =1
=
N N
k1 k2 kr
∑x 1i ⋅ ni ∑x 2i ⋅ ni ∑x ri ⋅ ni
N1 i =1
+ N2 i =1
+ …… + Nr i =1
N1 N2 Nr N1 x1 + N2 x 2 + … + Nr x r
= =
N N1 + N2 + … + Nr
k
Demostración: Sea Q(a) = ∑ (x
i =1
i − a)2 ni
k k
dQ(a) k k k ∑x i ⋅ ni ∑x i ⋅ ni
1ª Condición : = −2∑ (x i − a) ⋅ ni = 0; a∑ ni = ∑ x i ⋅ ni ; a= i =1
k
= i =1
=x
da N
i =1 i =1 i =1
∑n
i =1
i
d2 Q(a) k
2ª Condición : 2
= 2∑ ni = 2N > 0 ⇒ mínimo
da i =1
xi − Ox ∑ c
⋅ ni ∑ xi ⋅ ni − Ox ∑ ni x − Ox
yi = ⇒ y = i=1 = i=1 i =1
= ⇒ x = c ⋅ y + Ox
c N N⋅c c
Entre las ventajas de la media aritmética están que se presta a cálculos posteriores; es
fácil de calcular; usa todos los valores; y es única. Además es un estimador insesgado de la
media poblacional.
En contra tiene el fuerte peso de los extremos y los datos atípicos (en ese caso es mejor
usar la mediana). Para evitarlo, en ocasiones se usa la media recortada.
3- MEDIA GEOMÉTRICA
Es la raíz N-ésima del producto de los valores elevados a su frecuencia:
k
x G = N x1n1 ⋅ x n22 ⋅ … ⋅ x knk = N
∏x
i=1
ni
i
ED 10
PROPIEDADES:
∑ ln(x ) ⋅ n i i
ln x G = i=1
N
Demostración:
k
k
n k ni k ∑ ln(x ) ⋅ n i i
ln x G = ln N ∏ x = ln ∏ x = ∑ i ln x i =
ni
i i
N i=1
i =1 i =1 i=1 N N
∏y ∏ ( ax ) = N aN ∏ x ni i = a ⋅ N ∏ x ni i = ax G
ni
yG = N
ni
i = N
i
i =1 i =1 i =1 i =1
Cn = C 0 (1 + i1 )(1 + i2 ) … (1 + in ) = C0 (1 + i )n → i = n (1 + i1 )(1 + i2 ) … (1 + in ) − 1
Entre sus ventajas se encuentra que reduce la influencia de los extremos, tiene en cuenta
todas las observaciones, y se presta a cálculos posteriores.
En contra, que es laboriosa de calcular, y si los valores están próximos a cero, tiende a
cero.
ED 11
4- MEDIA ARMÓNICA
La media armónica se define cómo:
1 N
xH = k
= k
1 1
∑
i =1 x i
ni ∑
i=1 x i
ni
PROPIEDADES:
xH N N
k
1
∑
i =1 x
ni
i
5- MEDIA CUADRÁTICA
Se define como la raíz cuadrada de la media de los cuadrados de las observaciones
ponderadas por su frecuencia:
∑x 2
i ⋅ ni
xQ = i=1
ED 12
Cumple la propiedad de homogeneidad.
( x + x2 )
2
x + x2
2º − x G ≤ x ⇒ x1 x 2 ≤ 1 ; x1 x 2 ≤ 1 ; 4x1 x 2 ≤ x12 + 2x1 x 2 + x 22 ;
2 4
0 ≤ ( x1 − x 2 )
2
0 ≤ x12 − 2x1 x 2 + x 22 ; → Se verifica siempre
( x1 + x 2 )
2
x + x2 x12 + x 22 x12 + x 22
3º − x ≤ x Q ⇒ 1 ≤ ; ≤ ; x12 + 2x1 x 2 + x 22 ≤ 2x12 + 2x 22 ;
2 2 4 2
0 ≤ ( x1 − x 2 )
2
0 ≤ x12 − 2x1 x 2 + x 22 ; → Se verifica siempre
ED 13
TEMA 3: MEDIDAS DE POSICIÓN
ROBUSTAS
Las medidas de posición robustas son las que están poco afectadas por los valores atípicos.
1- MEDIANA
Habiendo ordenado los valores observados de menor a mayor, el valor que ocupa la
posición central, es decir, que deja tantos valores por debajo como por encima, será la
mediana (Me). Lógicamente, su frecuencia absoluta es N/2.
CÁLCULO DE LA MEDIANA
• Datos agregados: cuando los datos están agrupados en clases, lo primero es identificar la
clase o intervalo mediano, que es en el que la frecuencia absoluta acumulada supera el valor
N
. Como se supone que los valores comprendidos en el intervalo mediano se distribuyen
2
uniformemente, entonces se interpola, quedando:
N
− Ni−1 0,5 − Fi−1
Me = L i−1 + 2 ⋅ c i = L i−1 + ⋅ ci
ni fi
Demostración: sea una distribución de frecuencias unitarias. Si suponemos k > Me tal que
x1 ≤ x2 ≤ … ≤ xm−1 ≤ Me ≤ xm ≤ … ≤ xa−1 ≤ k ≤ xa ≤ … ≤ xn , entonces:
m −1 a −1
n n
∑x
i =1
i −k = ∑ (k − x ) + ∑ (k − x ) + ∑ ( x
i =1
i
i=m
i
i= a
i − k)
n m −1 a −1 n Restándolas
∑ x i − Me = ∑ (Me − x i ) + ∑ ( x i − Me ) + ∑ ( x i − Me )
i =1 i =1 i=m i= a
n n m −1 a −1 n a −1
∑x
i =1
i − k − ∑ x i − Me =
i =1
∑ (k − Me ) + ∑ (k + Me − 2x ) + ∑ (Me − k )
i =1 i=m
i
i= a
Sumando y restando ∑ (k − Me )
i=m
ED 14
n n m −1 a −1 n a −1 a −1
∑x
i =1
i − k − ∑ x i − Me =
i =1
∑ (k − Me ) + ∑ (k + Me − 2x ) + ∑ (Me − k ) + ∑ (k − Me ) − ∑ (k − Me ) =
i =1 i=m
i
i= a i=m i=m
m −1 a −1 a −1 a −1
n
= ∑ ( k − Me ) + ∑ ( 2k − 2x i ) − ∑ ( k − Me ) + ∑ ( k − Me ) = ( m − 1 )( k − Me ) − ( n − m )( k − Me ) + 2∑ ( k − x i )
i =1 i=m i= a i=m = m −1
i=m
n n a −1 n n
∑x i − k − ∑ x i − Me = ∑ ( k − Me ) + ∑ ( 2x i − k − Me ) + ∑ (Me − k ) + ∑ ( k − Me ) − ∑ ( k − Me ) =
i =1 i =1 i =1 i= a i=m i= a i= a
a −1 m −1
m −1 n m −1
= ∑ ( k − Me ) + ∑ ( k − Me ) + ∑ ( 2x i − 2k ) − ∑ ( k − Me ) = ( m − 1)( k − Me ) − ( n − m )( k − Me ) + 2∑ ( x i − k )
i=1 i= a i= a i=m
= m −1
i= a
n n m −1 n n
Entre sus ventajas está la facilidad para calcularla, aunque la principal es está poco
afectada por los valores extremos de la variable (cosa que no ocurría con la media)
2- MODA
Es el valor de la variable más repetido, es decir, el de mayor frecuencia.
CÁLCULO DE LA MODA
• Datos agregados: cuando los datos están agrupados en clases, primero debe identificarse
la clase o intervalo modal, que es el que tiene mayor altura en el histograma, es decir, el
n
intervalo con mayor hi = i . Para calcular la moda, se tienen en cuenta las alturas de los
ci
intervalos anexos al modal, tendiendo hacia el más alto. De esta forma la distancia de la
ED 15
moda hacia los extremos es inversamente proporcional a las alturas de los intervalos anexos.
Así el cálculo quedaría:
hi+1
Mo = L i−1 + ⋅c
hi−1 + hi+1 i
En el caso de que todos los intervalos tuvieran igual amplitud, se podría calcular
directamente con las frecuencias (absolutas o relativas):
ni+1 fi+1
Mo = L i−1 + ⋅ c i = L i−1 + ⋅c
ni−1 + ni+1 fi−1 + fi+1 i
Entre sus desventajas está que no se presta a cálculos posteriores, y que puede no ser
única, lo que supone una falta de representatividad.
3- CUANTILES
Los cuantiles dividen la distribución de una población en “s” partes iguales, es decir, con
idéntica frecuencia, una vez ordenados de forma creciente.
Los más frecuentes son:
a) Cuartiles (Q1 , Q2 , Q3 ) : dividen la distribución en 4 partes, por lo que dejan el 25% de los
datos entre dos consecutivos.
b) Deciles (D1 ,D2 , … ,D8 ,D9 ) : dividen la distribución en 10 partes, por lo que dejan el 10%
de los datos entre dos consecutivos.
c) Percentiles (P1 ,P2 , … ,P98 ,P99 ) . dividen la distribución en 100 partes, por lo que dejan el
1% de los datos entre dos consecutivos.
• Datos desagregados: para calcular la posición o rango del cuantil j-ésimo se aplica la
expresión:
N−1
R C j (s) = j ⋅ +1
s
ED 16
Si el resultado es un número entero, el valor que coincida con esa frecuencia será el
cuantil. Si no, se calcula la media aritmética entre los valores coincidentes con la frecuencia
sin decimales y la posterior.
• Datos agregados: cuando los datos están agrupados en clases, primero se identifica el
j⋅N
intervalo del cuantil, que será en el que se supere la frecuencia absoluta acumulada . Y
s
luego sólo queda interpolar:
j⋅N j
− Ni−1 − Fi−1
C j (s) = L i−1 + s ⋅ ci = L i−1 + s ⋅ ci j = 1,2,… , s − 1
ni fi
Lógicamente hay diferentes tipos de cuantiles que coinciden, siendo el caso más
importante:
Me = Q2 = D5 = P50
4- APLICACIONES
Para describir la tendencia central y elegir qué medida usar, debe tenerse en cuenta lo que
se busca, y la clase de datos que se tienen.
La moda es la única medida posible para atributos nominales. Tampoco usa todos los
datos, ni su valor, sino sus frecuencias. Cuando no es única, pierde representatividad.
Ante distribuciones campaniformes simétricas, las tres medidas dan valores parecidos. Con
distribuciones fuertemente asimétricas, o con forma de “J” o “L”, la medida adecuada es la
mediana. Y con distr. en forma de “U”, ninguna es útil.
ED 17
TEMA 4: MEDIDAS DE DISPERSIÓN
Miden la representatividad de las medidas de posición, mayor cuanto menor sea la
dispersión.
Se dividen en absolutas (medidas en las mismas ud. que los datos), y en relativas (sin
ud.). Entre las primeras están los recorridos, la varianza, la desviación típica, las
desviaciones medias. Y entre las segundas, los coeficientes de variación, el recorrido
geométrico y el de Student,…
1- EL RECORRIDO
El recorrido más típico, también llamado rango o amplitud de variación, se define como la
diferencia entre el mayor y el menor valor:
R = x máx − x mín
Como defectos de esta medida destacan su gran sensibilidad a los datos extremos; que no
tiene en cuenta los valores intermedios; y que no es calculable cuando alguno de los
extremos es indeterminado.
2- LA VARIANZA
Es la media aritmética de los cuadrados de las desviaciones de los datos respecto a la
media. Coincide con el momento central de segundo orden (m2). Por tanto, nos queda:
k
∑ (x i − x ) ⋅ ni
S = 2
x
i =1
N
PROPIEDADES:
ED 18
2) Responde a cambios de escala, pero no de origen:
Y = a ⋅ X + b ⇒ S 2y = a2 ⋅ S2x
Demostración:
k k k
∑ (y i − y)2 ⋅ ni ∑ (ax i + b/ − ax − b)
/ 2 ⋅ ni a2 ⋅ ∑ (x i − x)2 ⋅ ni
S2y = i =1
= i =1
= i =1
= a2 ⋅ S 2x
N N N
∑(x )
k k k k k
∑ (x − x ) ⋅ ni ∑x ⋅ ni − ∑ x i ⋅ ni + x 2 ∑ ni
2
i
2
i − 2x i x + x 2 ⋅ ni 2
i
S2x = i =1
= i =1
= i =1 i =1 i =1
=
N N N
k k
∑x 2
i ⋅ ni ∑x 2
i ⋅ ni
= i =1
− 2x + x =
2 2 i =1
− x 2 = a2 − a12
N N
∑ ( x i − c ) ⋅ ni ∑ (x − x ) ⋅ ni
2 2
i
+ (x − c)
2
i=1
= i=1
N N
Demostración:
k k k
∑ (x − c ) ⋅ ni ∑ ( x − x ) − ( c − x ) ⋅ ni ∑ ( x − x ) − 2 ( x i − x )( c − x ) + ( c − x ) ⋅ ni
2 2 2 2
i i i
i =1
= i =1
= i =1
=
N N N
=0
k k k k
∑ ( xi − x ) 2 ( c − x ) ∑ ( x i − x ) ⋅ ni ( c − x ) ∑ ni ∑ ( x i − x )
2 2 2
⋅ ni ⋅ ni
+ (x − c)
2
= i =1
− i =1
+ i =1
= i =1
N N N N
Aprovechando esta última propiedad, al calcular es mucho más práctico usar esta otra
expresión:
k
∑x 2
i ⋅ ni
S = 2
x
i =1
− x2
N
∑(x i − x ) ⋅ ni
N 2
S = 2 i=1
= S
c
N −1 N −1 x
ED 19
3- LA DESVIACIÓN TÍPICA
Para corregir el que la varianza está medida en unidades al cuadrado, se usa la desviación
típica, que es la raíz cuadrada positiva de la varianza:
k
∑(x i − x ) ⋅ ni
Sx = + S = + 2
x
i =1
PROPIEDADES:
1) Nunca es negativa: Sx ≥ 0
Demostración: por definición tiene que ser así, ya que es una raíz positiva.
∑ (y i − y)2 ⋅ ni ∑ (ax i + b/ − ax − b)
/ 2 ⋅ ni a2 ⋅ ∑ (x i − x)2 ⋅ ni
Sy = i =1
= i =1
= i =1
= a2 ⋅ S 2x = a ⋅ S x
N N N
X−x
Z=
Sx
Demostración:
x−x S 2x
z= = 0 (propiedad 3 de la media aritmética) / S 2z = =1 (propiedad 2 de la varianza)
Sx S 2x
ED 20
4- OTRAS MEDIDAS
Entre las medidas absolutas aparte de las ya vistas, pueden destacarse las desviaciones:
k
∑x i − x ⋅ ni
• absoluta media respecto a la media: DM = i =1
N
k
∑x i − Me ⋅ ni
• absoluta media respecto a la mediana: DMe = i =1
Y en el grupo de las medidas relativas, las más importantes son los coeficientes de
variación, entre los que se encuentran:
Sx
• de Pearson: CV =
x
DMe
• mediano: CVMe =
Me
Q3 − Q1
• cuartílico: CVQ =
Q3 + Q1
ED 21
TEMA 5: MEDIDAS DE FORMA
1- MOMENTOS
Los momentos son unos promedios que sistematizan el estudio de las medidas de síntesis,
facilitando su cálculo y proveyéndolas de un contexto matemático.
Caracterizan hasta tal punto a una distribución, que dos distribuciones son iguales si todos
sus momentos lo son.
FACTORIALES
Se usan para variables discretas cuyos valores son números naturales:
k
xi !
∑ (x
i=1 − r)!
ni
vr = i
N
POTENCIALES
Son los más usados, y sirven tanto para variables discretas como para continuas.
∑ (x i − p)r ⋅ ni
a′r = i=1
N
Esto es para un punto cualquiera, pero hay dos puntos especialmente importantes, y de ahí
que sus momentos tengan nombre específico.
∑x r
i ⋅ ni
ar = i=1
N
∑ (x i − x)r ⋅ ni
mr = i=1
N
ED 22
RELACIÓN ENTRE MOMENTOS ORDINARIOS Y CENTRALES:
k =0 k
∑ ( −1) ⋅ x k ∑ x ri −k ⋅ ni ∑ ( −1) ⋅ x k ⋅ ar −k r
k k r
= ∑ (−1)r ar −k ⋅ a1k
k =0 i= 0 k =0
= =
N N k =0 k
Ejemplos:
• m2 = a2 − a12
• m3 = a3 − 3a2 ⋅ a1 + 2a13
• m4 = a4 − 4a3 ⋅ a1 + 6a2 ⋅ a12 − 3a14
Demostración:
n n r
n r r n
r
∑ xir ⋅ ni ∑ (x i − x + x)r ⋅ ni ∑ ∑ r −k
(x i − x) ⋅ x ⋅ ni
k
k
∑ ∑ k (x i − x)r −k ⋅ x k ⋅ ni
ar = i=1 = i=1 =
i = 0 k = 0 =
k =0 i= 0 =
N N N N
r
r k n r
r k
∑
k =0 k
⋅ x ∑ (x i − x) r −k
⋅ ni ∑ ⋅ x ⋅ mr −k
k =0 k
r
r
= ∑ mr −k ⋅ a1k
i= 0
= =
N N k =0 k
PROPIEDAD: a los momentos ordinarios les afectan los cambios de origen y escala,
mientras que a los centrales sólo los de escala.
xi − b
Demostración: y i =
a
r
x −b
∑i i a ni 1 ∑ (x − b ) ni
r
i
- Ordinarios: ar = = r i
n a n
r
xi − b X − b
∑ ∑ (x )
r
− n − X ni
i a a i 1 i
- Centrales: mr = = r i
n a n
ED 23
CORRECCIÓN DE SHEPPARD
Cuando los datos están agrupados, se incurre en un error al suponer que los valores de
cada intervalo se concentran en la marca de clase. Esto no tiene importancia en los
momentos impares, pero sí en los pares. Estas correcciones son:
a2 a2 7a4
m2 = m2 − m4 = m4 − m2 +
12 2 240
2- MEDIDAS DE ASIMETRÍA
Estas medidas dan una idea de cómo se distribuye la frecuencia alrededor de la media. En
general se aplican a distribuciones campaniformes. Una distribución puede ser:
• Simétrica (Mo = Me = x ) : los valores por encima de la media tienen igual frecuencia
que los que están por debajo, es decir, que x y Me coinciden. Además, si la
distribución es unimodal, también la moda comparte el mismo valor.
• Asimétrica por la derecha (Mo < Me < x ) : tienen mayor frecuencia los valores por
debajo de la media. Suelen presentar una cola alargada hacia la derecha.
• Asimétrica por la izquierda ( x < Me < Mo ) : los valores por encima de la media tienen
mayor frecuencia. Suelen tener una cola alargada hacia la izquierda.
Asimétrica Asimétrica
Derecha Izquierda
• g1 = 0 ⇒ simétrica
ED 24
PROPIEDAD: responde a cambios de escala pero no de origen.
xi − b
Demostración: y i =
a
m3x
3 3
m3 y a m3x a
g1y = = a3 = ⋅ = ⋅ g1x
S3y Sx
3
a3 S 3x a3
a
3(X − Me)
2) Coef. de Pearson 2: AP2 =
Sx
Q3 + Q1 − 2Me
4) Coef. de Yule: AY =
2Me
k
∑ (x i − x)3 ni
5) Momento de orden 3: m3 = i=1
N
ED 25
Leptocúrtica
Mesocúrtica
Platicúrtica
Su expresión es:
m4
g2 = −3
S 4x
• g2 > 0 ⇒ leptocúrtica
• g2 = 0 ⇒ mesocúrtica
• g2 < 0 ⇒ platicúrtica
ED 26
TEMA 6: MEDIDAS DE CONCENTRACIÓN
Tratan de cuantificar cómo se reparte la variable considerada, normalmente económica,
entre sus perceptores.
Para ello primero se ordenan las observaciones de menor a mayor, y se calculan las
siguientes frecuencias:
∑x
j =1
j ⋅ nj
• Volumen de variable acumulada: qi = k
× 100
∑x
j =1
j
⋅ nj
Ni
∑x
j =1
j ⋅ nj ∑x
j =1
j ⋅ nj ∑x
j =1
j ⋅ nj
pi < qi ; < k
; < ; x < xi
N N Ni
∑x
j =1
j ⋅ nj
Es decir, que la media de la variable es menor que la media de los i primeros intervalos, lo
que es absurdo debido a la ordenación ascendente.
Por tanto, cuanto más cerca está la curva de Lorenz de la diagonal, más equitativo es el
reparto.
ED 27
qi
q4
q3
Ac
q2
q1
p1 p2 p3 p4 pi
2- ÍNDICE DE GINI
Es el cociente entre el área de concentración ( A c , área entre la curva de Lorenz y la
diagonal) y el área del triángulo bajo la diagonal (0,5):
Ac i IG ≈ 0 → Equidad
IG = = 2 ⋅ Ac ; 0 ≤ IG ≤ 1 ; ⇒
1
2 i IG ≈ 1 → Desigualdad Total
Para hallar su expresión se calcula B, el área de los trapecios y el triángulo que quedan
bajo la curva de Lorenz:
qi
B
pi
fi
p 1 ⋅ q1 (p − p1 )( q + q1 ) + … + (p − p k −1 )( q + q k −1 ) = (pk − p i−1 ) (q + q ) = 1 k
∑ (q )
i −1
∑
2 2 k k i i
B= + i + q i−1 f i
2 2 2 i =1 2 2 i =1
donde p 0 = q 0 = 0
1 1 k
( ) ( )
k
ÍNDICE DE GINI EXACTO: IG = 2 ⋅ − B = 1 − 2/ ⋅ ∑ q i + q i−1 f i = 1 − ∑ q i + q i−1 f i
2 2/ i=1 i =1
ED 28
Normalmente a la hora de calcular este índice se usa otra expresión que aproxima su
resultado al anterior:
k −1
∑ (p i − qi )
ÍNDICE DE GINI APROXIMADO PARA CÁLCULOS: I′G = i=1
k −1
∑p
i=1
i
3- OTROS INDICADORES
MEDIALA
Es el valor de la distribución que la divide de tal forma que la suma de los valores de los
individuos que toman ese valor o menores es igual a la de los valores de los individuos con
valores mayores
0,5 − qi−1
Ml = L i−1 + ⋅ ci
qi − qi−1
COEFICIENTE DE THEIL
Sólo puede usarse con datos positivos, aunque tiene la ventaja de que no hay que ordenar
los datos.
N
xi x
T = logN + ∑ ⋅ log i
i=1 Nx Nx
xi = 0 ∀i ≠ N Nx Nx
⇒ T = logN + ⋅ log = logN
x N = Nx Nx Nx
Para poder comparar distintas distribuciones, se usa el índice de Theil relativo, que está
acotado entre 0 y 1:
T
TR =
logN
ED 29
TEMA 7: INTERPOLACIÓN
1- CONCEPTO
Es el proceso de cálculo del valor de una variable, Y, correspondiente al de otra variable, X,
comprendido entre dos consecutivos de la sucesión x1 , x 2 , … , x n , que tiene sus
correspondientes y1 , y 2 , … , y n .
Se supone que X e Y no son indep., por tanto, Y = f(X) , función a la que pertenecen todos
los pares (x i , y i ) . Puede haber varias función que lo cumplan, por lo que debe elegirse la más
sencilla, llamada función de interpolación.
Los cocientes se obtienen del sistema de n ecuaciones con n incógnitas creado con los n
puntos:
…………
y = a + a x + a x 2 + …… + a x n−1
n 0 1 n 2 n n−1 n
y1 1 x 1 x12 … x1n−1 a0
y 2 = 1 x 2 x 22 … x n2−1 a1
⋅ ⇒ Y = ∆×A
⋮ ⋮ ⋮ ⋮ … ⋮ ⋮
y
n 1 x n x n2 … x nn−1 an−1
ED 30
1 x1 x12 … x1n−1
1 x2 x 22 … x n2−1
∆ = ≠0
… … … … …
1 xn x n2 … x nn−1
INTERPOLACIÓN LINEAL
y1 = a + bx1
a)
y 2 = a + bx 2
y − y1 x − x1
b) =
y 2 − y1 x 2 − x1
x y 1
c) x1 y1 1 = 0
x2 y2 1
INTERPOLACIÓN PARABÓLICA
y − y1 x − x1 y − y1
= → y = y1 + 2 (x − x1 )
y 2 − y 1 x 2 − x1 x 2 − x1
ED 31
Sea (x 3 , y 3 ) un nuevo punto. Si se verifica la anterior ec., la interpolatriz no cambiaría, pero
si no, la nueva debería ser una parábola de 2º grado, quedando:
y 2 − y1
y = y1 + (x − x1 ) + A 2 (x − x1 )(x − x 2 )
x 2 − x1
Para (x1 , y1 ) y (x 2 , y 2 ) se anula el nuevo término, por lo que la verifican. Para calcular A 2
se sustituye para (x 3 , y 3 ) :
y 2 − y1
y 3 = y1 + (x − x1 ) + A 2 (x 3 − x1 )(x 3 − x 2 )
x 2 − x1
y = a0 + a1 x + a2 x 2 + A 3 (x − x1 )(x − x 2 )(x − x 3 )
y = b0 + b1 x + b2 x 2 + b3 x 3
4- MÉTODO DE LAGRANGE
Sean n puntos (x1 , y1 ), (x 2 , y 2 ), …… , (x n , y n ) . La fórmula de interpolación de Lagrange viene
dada por la expresión:
(x − x 2 )(x − x 3 ) …… (x − x n ) (x − x1 )(x − x 3 ) …… (x − x n )
y = y1 + y2 +…
(x1 − x 2 )(x1 − x 3 ) …… (x1 − x n ) (x 2 − x1 )(x 2 − x 3 ) …… (x 2 − x n )
n x − x
(x − x1 )(x − x 2 ) …… (x − x n−1 ) n
j
… + yn = ∑ yi ⋅ ∏
(x n − x1 )(x n − x 2 ) …… (x n − x n−1 ) i=1
j =1 x i − x j
j ≠ i
(x 2 − x1 )(x 2 − x 3 ) …… (x 2 − x n )
Para x = x 2 → y = y1 ⋅ 0 + y 2 + ……… + y n ⋅ 0 = y 2
(x 2 − x1 )(x 2 − x 3 ) …… (x 2 − x n )
ED 32
TEMA 8: DISTRIBUCIONES
BIDIMENSIONALES I
Si en una misma población se miden dos características, se obtienen dos series estadísticas
de ambas variables, X e Y. Si se consideran simultáneamente, es decir, pares de valores
(x i , y i ) , se está ante una variable estadística bidimensional.
Pueden estudiarse por separado las distribuciones de la población dependiendo del carácter
X o el Y, y resumirlas (X, S X , Y, S Y , …) ; pero es interesante considerarlas simultáneamente
para estudiar su interrelación, si existe, y su intensidad.
Y
y1 y2 … yj … yp ni·
X
x1 n11 n21 … n1j … n1p n1·
x2 n21 n22 … n2j … n2p n2·
… … … … … … …
xi ni1 ni2 … nij … nip ni·
… … … … … … …
xk nk1 nk2 … nkj … nkp nk·
n·j n·1 n·2 … n·j … n·p N
La última fila y la última columna representan las distribuciones marginales de cada una de
las variables:
p
n i• = ∑ n ij
j =1 k p
k
∑ ni• = ∑ n• j = N
n • j = ∑ n ij i =1 j =1
i =1
ni• k n• j h h k
fi• = = ∑ fij ; f• j = = ∑ fij ; ∑ fi• = ∑ f• j = 1
N j =1 N i =1 i =1 j =1
ED 33
2- REPRESENTACIONES GRÁFICAS
Al igual que en las distribuciones unimodales, dependiendo del tipo de datos, hay distintas
clases de gráficos.
ED 34
3- CARACTERES CUANTITATIVOS (X E Y):
ED 35
4- SERIES CRONOLÓGICAS:
ED 36
TEMA 9: DISTRIBUCIONES
BIDIMENSIONALES II
A lo largo de todo el tema se van a suponer dos caracteres, X e Y, con k y p modalidades
respectivamente.
p
Distribución marginal X: n i• = ∑ n ij
j =1 k p
k
∑ n i• = ∑ n • j = N
n • j = ∑ n ij
i =1 j =1
Distribución marginal Y :
i =1
A partir de las distribuciones marginales se pueden calcular los estadísticos ya vistos para
cada una de las variables.
DISTRIBUCIONES CONDICIONADAS
Describen la distribución de una variable para la subpoblación que cumple una condición en
el otro carácter. Por ejemplo, la distribución condicionada de X por la modalidad ‘j’ de Y
X
Y =y :
j
n ij
f ij = ∀i = 1,… ,k
n •j
Es análogo para Y condicionado por X = x i Y :
X = xi
n ij
fji = ∀j = 1,… ,p
n i•
ED 37
La condición puede coincidir con una modalidad de la variable condicionante, o abarcar
varias (por ejemplo usando > o <).
n i1 n i2 n ip n i• n ij n i•
= =…= = → = ∀i, j
n •1 n •2 n •p N n •j N n i• × n • j
⇔ n ij = ⇔ f ij = f i• × f • j
n 1j n 2j n kj n •j n ij n •j N
= =…= = → = ∀i, j
n 1• n 2• n k• N n i• N
Es indiferente cual de las dos formas elegir, ya que la independencia es una propiedad
recíproca, es decir, que si se demuestra que X es independiente de Y, entonces queda
demostrado que Y también lo es respecto de X.
DEPENDENCIA FUNCIONAL
A efectos prácticos, esto significa que sabiendo la modalidad de Y a la que pertenece una
observación, podemos predecir con total seguridad la modalidad para la variable X.
COEFICIENTES DE ASOCIACIÓN
Los anteriores eran los dos casos extremos. Cuando el grado de dependencia no es
expresable con una aplicación, como ocurre con la funcional, se trata de dependencia
estadística, y puede medirse su fuerza con distintos coeficientes.
ED 38
Los atributos tienen sus propias medidas:
N
6 ∑ d i2
ρ =1− i=1
donde di = x i − y i ∀i
N3 − N
−1 ≤ ρ ≤ 1 ρ = 0 ⇒ Indep.
n 1• ⋅ n •1 n 11 ⋅ n 22 − n 12 ⋅ n 21
H = n11 − =
N N
N⋅H n n − n12n21
Q= = 11 22
n11n22 + n12n21 n11n22 + n12n21
−1 ≤ Q ≤ 1 Q = 0 ⇒ Indep.
χ2 ≤ 0 χ 2 = 0 ⇒ Indep.
ϕ2 ≤ 0 ϕ 2 = 0 ⇒ Indep.
ED 39
e) COEFICIENTE DE CONTINGENCIA C DE PEARSON: corrige el defecto de los anteriores,
al estar acotado entre 0 y 1. Lo malo es que nunca llega a ser 1, excepto con infinitas
modalidades.
χ2 ϕ2
C= =
N + χ2 N + ϕ2
1
0 ≤ C ≤ 1− / min ( k,p ) ≥ 2. C = 0 ⇒ Indep.
min ( k,p )
f) COEFICIENTE T DE TSCHUPROW: una vez más es una mejora del anterior, ya que
incluye el número de filas y de columnas.
χ2 ϕ2
T2 = =
N ⋅ (k − 1)(p − 1) (k − 1)(p − 1)
0 ≤ T2 ≤ 1 T 2 = 0 ⇒ Indep.
ED 40
TEMA 10: DISTRIBUCIONES
BIDIMENSIONALES III
1- MOMENTOS
Su significado es el mismo que para las distribuciones univariables.
En general, el momento de orden (r, s) respecto a los puntos c y d se define como la media
aritmética de los productos de las diferencias entre las observaciones de X y c elevadas a r, y
las diferencias entre las observaciones de Y y d elevadas a s:
k p nij
a′rs = ∑ ∑ (x i − b)r ⋅ (y j − d)s ⋅
i =1 j=1 N
ORDINARIOS
El punto de referencia es el origen, es decir, c = d = 0 .
k p n ij
ars = ∑ ∑ x ir ⋅ y sj ⋅
i =1 j=1 N
Si uno de los órdenes se hace cero, se hallan los momentos de la distribución marginal de
la otra variable:
k p n ij k n i•
r = 1; s = 0 ⇒ a10 = ∑ ∑ x i ⋅ = ∑ xi ⋅ =x
i =1 j =1 N i =1 N
k p n ij p n •j
r = 0; s = 1 ⇒ a01 = ∑ ∑ y j ⋅ = ∑ yj ⋅ =y
i =1 j =1 N j =1 N
Otros casos particulares bastante usados son los de orden (2,0) y (0,2) para calcular las
varianzas; y el de orden (1,1), llamado momento producto, para la covarianza:
k n i• p n •j k p n ij
a20 = ∑ x i2 ⋅ a02 = ∑ y 2j ⋅ a11 = ∑ ∑ x i y j
i =1 N j =1 N i =1 j =1 N
CENTRALES
Estos se referencian respecto a las medias aritméticas de las variables.
k p n ij
mrs = ∑ ∑ (x i − x)r (y j − y)s ⋅
i =1 j=1 N
ED 41
Como en el caso ordinario, si un orden se hace cero, aparecen los momentos de la
distribución marginal de la otra variable, destacando las varianzas:
k p n ij k n i•
m10 = ∑ ∑ (x i − x) ⋅ = ∑ (x i − x) ⋅ =0
i =1 j =1 N i =1 N
k p n ij p n •j
m01 = ∑ ∑ (y j − y) ⋅ = ∑ (y j − y) ⋅ =0
i =1 j =1 N j =1 N
k p n ij k n i•
m20 = ∑ ∑ (x i − x)2 ⋅ = ∑ (x i − x)2 ⋅ = S 2x
i =1 j =1 N i =1 N
k p n ij p n •j
m02 = ∑ ∑ (y j − y)2 ⋅ = ∑ (y j − y)2 ⋅ = S 2y
i =1 j =1 N j =1 N
Demostración:
k p n ij k n i• k n i•
S2x = m20 = ∑ ∑ (x i − a10 )2 ⋅ = ∑ (x i − a10 )2 ⋅ = ∑ (x i2 − 2x i ⋅ a10 + a10
2
)⋅ =
i =1 j =1 N i =1 N i =1 N
k n i• k n i• k n i•
= ∑ x 2i ⋅ − 2a10 ⋅ ∑ x i ⋅ + a10
2
⋅∑ = a20 − 2a10 ⋅ a10 + a10
2
= a20 − a10
2
i =1 N i =1 N i =1 N
k p n ij p n •j p n •j
S2y = m02 = ∑ ∑ (y j − a01 )2 ⋅ = ∑ (y j − a01 )2 ⋅ = ∑ (y 2j − 2y j ⋅ a01 + a201 ) ⋅ =
i =1 j =1 N j =1 N j =1 N
p n •j p n •j p n •j
= ∑ y 2j ⋅ − 2a01 ⋅ ∑ y j ⋅ + a201 ⋅ ∑ = a02 − 2a01 ⋅ a01 + a201 = a02 − a201
j =1 N j =1 N j =1 N
k p n ij k p n ij k p n ij
S xy = m11 = ∑ ∑ (x i − a10 ) ⋅ (y j − a01 ) ⋅ = ∑ ∑ (x i ⋅ y j − x i ⋅ a01 − a10 ⋅ y j + a10 ⋅ a01 ) ⋅ = ∑ ∑ xi ⋅ y j ⋅ −
i =1 j =1 N i =1 j =1 N i =1 j =1 N
k n i• p n •j k p n ij
−a01 ⋅ ∑ x i ⋅ − a10 ⋅ ∑ y j ⋅ + a10 ⋅ a01 ⋅ ∑ ∑ = a11 − a10 ⋅ a01 − a10 ⋅ a01 + a10 ⋅ a01 = a11 − a10 ⋅ a01
i =1 N j =1 N i =1 j =1 N
xi − Ox
x i′ =
cx x = c x ⋅ x′ + Ox ; S2x = c 2x ⋅ S2x ′ ;
S xy = c x ⋅ c y ⋅ S x ′y ′
y j − Oy y = c y ⋅ y′ + O y ; S2y = c 2y ⋅ S2y ′ ;
y ′j =
cy
ED 42
2- COVARIANZA
Es una medida de asociación lineal entre dos variables. Coincide con el momento central de
primer orden para ambas variables. Su signo indica si la relación entre las variables es
positiva o negativa. Su expresión es:
k p
∑ ∑ (x i − x)(y j − y) ⋅ n ij
i=1 j=1
S xy = = m11
N
PROPIEDADES:
x ′ = ax ± b
⇒ S x ′y ′ = a ⋅ c ⋅ S xy
y ′ = cy ± d
Demostración:
k p n ij k p n ij
S x ′y ′ = ∑ ∑ (x i′ − x ′) ⋅ (y ′j − y ′) ⋅ = ∑ ∑ (ax i ± b/ − ax ± b)
/ ⋅ (cy j ± d/ − cy ± d)
/ ⋅ =
i =1 j =1 N i=1 j =1 N
k p n ij k p n ij
∑ ∑ a(x
i =1 j =1
i − x) ⋅ c(y j − y) ⋅
N
= a ⋅ c ⋅ ∑ ∑ (x i − x)(y j − y) ⋅
i =1 j =1 N
= a ⋅ c ⋅ S xy
Demostración: si A y B independientes
n ij n i• n • j
= ⋅ ⇒ a11 = a10 ⋅ a01 ⇒ S xy = m11 = a11 − a10 ⋅ a01 = 0
N N N
ED 43
3- CORRELACIÓN
Es el grado de dependencia existente entre dos variables. Si este grado es alto, puede
realizarse un ajuste lineal.
−1 ≤ rxy ≤ 1
Éste representa una mejora respecto a la covarianza, ya que está acotado entre -1 y 1, por
lo que muestra el grado de dependencia.
PROPIEDADES:
x ′ = ax ± b a, c > 0
⇒ rx ′y ′ = rxy /
y ′ = cy ± d a, c < 0
Demostración:
S x ′y ′ a/ ⋅ c/ ⋅ S xy S xy
rx ′y ′ = = = = rxy
Sx′ ⋅ Sy′ a/ ⋅ S x ⋅ c/ ⋅ S y Sx ⋅ Sy
2) A y B independientes ⇒ rxy = 0
Demostración: si A y B independientes
S xy 0
S xy = 0 ⇒ rxy = = =0
Sx ⋅ Sy Sx ⋅ Sy
ED 44
TEMA 11: DISTRIBUCIONES
N-DIMENSIONALES I
1- DISTRIBUCIONES N-DIMENSIONALES
Es una generalización de las distribuciones bidimensionales.
∑ ∑… ∑ n
i =1 j =1 l =1
ij…l
=N
ED 45
2- DISTRIBUCIONES MARGINALES Y CONDICIONADAS
Sean n caracteres x1 , x2 , … , xn , con k1 ,k 2 , … ,kn modalidades:
DISTRIBUCIONES MARGINALES
Cuando se trata de variables n-dimensionales, hay varias clases de distribuciones
marginales, dependiendo del subconjunto de variables que se escoja.
Existen desde las distribuciones marginales de n-1 dimensiones hasta las unidimensionales
(en las que se suman las frecuencias de todas menos una variable, por lo que en este caso
se estaría ante la distribución marginal de una variable individual):
• n-1 dimensional: sólo se suman las frecuencias de una única variable, por lo que
quedan n-1 variables. Hay n distribuciones marginales de este tamaño.
n
• n-2 dimensional: se suman las frecuencias de dos variables. Hay distribuciones
2
marginales de este tipo.
(
Distribución Marginal de x1 , … , xm−1 , xm+1 , … , xp −1 , xp +1 , … , xn : )
k m kp
ni…r •t…a•c…l
ni…r • t…a•c…l = ∑ ∑ ni…rst…abc…l ; fi…r • t…a•c…l =
s =1 b =1 N
∀i = 1, … ,k1;…… ; ∀r = 1, … ,k m−1; ∀t = 1, … ,km+1;…… ; ∀a = 1, … ,kp−1; ∀c = 1, … ,kp +1;…… ; ∀l = 1, … kn
• …………………………………………………...
n
• bidimensional: se suman las frecuencias de n-2 variables. Hay distribuciones
n − 2
marginales de esta clase.
(
Distribución Marginal de xm , xp : )
k1 km−1 km+1 kp −1 kp +1 kn
n•…•s•…•b •…•
n•…•s•…•b•…• = ∑ … ∑ ∑ … ∑ ∑ … ∑ ni…rst…abc…l ; f•…•s•…•b •…• =
i=1 r =1 t =1 a =1 c =1 l =1 N
∀s = 1, … ,k m; ∀b = 1, … ,kp
ED 46
• unidimensional: se suman las frecuencias de todas las variables excepto una. Éstas
coinciden con las distribuciones de las variables individuales. Hay n distribuciones
marginales de este tipo.
Distribución Marginal de xm :
k1 km−1 km+1 kn
n•…•s•…•
n•…•s•…• = ∑ … ∑ ∑ … ∑ ni…rst…l ; f•…•s•…• =
i =1 r =1 t =1 l =1 N
∀s = 1, … ,k m
km km kp k1 km−1 km+1 kp −1 kp +1 kn
∑ n•…•s•…• = ∑ ∑ n•…•s•…•b•…• = …… = ∑ … ∑ ∑ … ∑ ∑ … ∑ ni…r •t…a•c…l =
s =1 s =1 b =1 i=1 r =1 t =1 a=1 c =1 l =1
k1 km−1 km+1 kn k1 kn
= ∑… ∑ ∑ … ∑ ni…r • t…l = ∑ … ∑ ni…l = N
i =1 r =1 t =1 l =1 i =1 l =1
DISTRIBUCIONES CONDICIONADAS
Al igual que con las distribuciones marginales, hay distintas clases de distribuciones
condicionadas según su dimensión, es decir, dependiendo del número de variables que
condicionen.
• n-1 dimensional: sólo condiciona una variable, por lo que quedan n-1 variables en la
distribución condicionada. Hay n distribuciones condicionadas de este tamaño.
n
• n-2 dimensional: condicionan dos variables. Hay distribuciones condicionadas de
2
este tipo.
(
Distribución Condicionada de x1 , … , xm−1 , xm+1 , … , xp −1 , xp +1 , … , xn ) (
por xm , xp : )
f(x1i, …… , xnl ) n i…rst…l
i…rt…ac…l =
f s,b =
f(xms , xpb ) n •…•s•…•b•…•
∀i = 1, … ,k2 ; ……… ; ∀r = 1, … ,km−1; ∀t = 1, … ,km+1 ;…… ; ∀a = 1, … ,kp−1; ∀c = 1, … ,kp +1;…… ; ∀l = 1, … kn
• …………………………………………………...
ED 47
n
• bidimensional: son n-2 las variables condicionantes. Hay distribuciones
n − 2
marginales de esta clase.
Distribución Condicionada de xm , xp ( ) ( )
por x1 , … , xm−1 , xm+1 , … , xp −1 , xp +1 , … , xn :
∀s = 1, … ,km
ED 48
TEMA 12: DISTRIBUCIONES
N-DIMENSIONALES II
1- MOMENTOS
Para facilitar el manejo de los datos, éstos se representan mediante matrices. Cada
variables se representa en una columna, mientras que las filas se reservan a las
observaciones:
x1 x2 xj xm
↓ ↓ ↓ ↓
Para hallar los momentos ordinarios de las distribuciones marginales de cada variable no
hay más que sumar los valores de la columna correspondiente y dividirlo entre el número de
observaciones. Si se hace para todas las variables, se halla el vector columna llamado Media
o Centro de Gravedad muestral multivariante:
N
∑ x1i
i=1
N
N x1
∑ x2i x
x = i=1 = 2
N …
… x
N m
∑x
i=1 mi
N
Para calcular los momentos de 2º orden, hay que premultiplicar X por X′ (su traspuesta)
y dividir entre N:
ED 49
N 2 N N
∑ x1i ∑ x1i x 2i ∑ x1i x mi
i =1 i =1
… i =1
N N N
N N
2
N
1 ∑ x 2i x1i ∑ x 2i ∑ x 2i x mi
N
( X′ ⋅ X ) = i=1 N i =1
N
… i =1
N
… … … …
N N N
∑x x ∑ x mi x 2i ∑ x mi
2
i=1 mi 1i i =1 i =1
…
N N N
Para calcular los momentos centrales, primero se halla la matriz de las desviaciones
respecto a sus medias, Xd :
x11 − x1 x 21 − x 2 … x m1 − x m
x − x1 x 22 − x 2 … x m2 − x m
Xd = 12
… … … …
x1N − x1 x 2N − x 2 … x mN − x m
N N N
∑ (x1i − x1 ) ∑ (x1i − x1 )(x 2i − x 2 ) ∑ (x1i − x1 )(x mi − x m )
2
i=1 i=1 i=1
…
N N N
N N N
∑ (x 2i − x 2 )(x1i − x1 ) ∑ (x 2i − x 2 ) ∑ (x 2i − x 2 )(x mi − x m )
2
1
V = ( Xd ⋅ Xd ) = i=1
′ i=1
… i=1
N N N N
… … … …
N (x − x )(x − x ) N N
∑ (x mi − x m )(x 2i − x 2 ) ∑ (x mi − x m )
2
i∑
=1
mi m 1i 1
i=1 i=1
…
N N N
ED 50
S12 S12 … S1m
S S22 … S2m
V = 21
… … … …
S 2
m1 Sm2 … Sm
1
S 0 …0
1 1 r12 … r1m
1
0 … 0 r 1 … r2m
D= S2 → R = D ⋅ V ⋅ D = 21
… … … …
… … … …
rm1 rm2 … 1
0 1
0 …
Sm
k1 k 2 km
• Momentos Ordinarios: ars…t = ∑ ∑ … ∑ x1ir ⋅ x 2s j ⋅ … ⋅ x ml
t
i =1 j =1 k =1
k1 k 2 km
• Momentos Centrales: mrs…t = ∑ ∑ … ∑ (x1i − x1 )r ⋅ (x 2 j − x 2 )s ⋅ … ⋅ (x ml − x m )t
i =1 j =1 l =1
x̂1 = a1 + b13 x3
x̂2 = a2 + b23 x3
ED 51
Luego se hallan los residuos de cada una de las regresiones:
x1* = x1 − ˆ
x1 = x1 − a1 − b13x3
x*2 = x2 − ˆ
x2 = x2 − a2 − b23 x3
r12•3 = r1*2* =
(
Cov x1* , x2*) =
Cov ( x1 − a1 − b13 x3 , x2 − a2 − b23 x3 )
=
Var ( x ) ⋅ Var ( x )
*
1
*
2
Var ( x1 − a1 − b13x3 ) ⋅ Var ( x2 − a2 − b23 x3 )
(1) Cov ( x1 , x2 ) − b23Cov ( x1 , x3 ) − b13Cov ( x2 , x3 ) + b13b23 Var ( x3 )
= =
Var ( x1 ) + b13
2
Var ( x3 ) − 2b13Cov ( x1 , x3 ) ⋅ Var ( x2 ) + b223 Var ( x3 ) − 2b23Cov ( x2 , x3 )
S23 S13 S13S23
S12 − S13 − S23 + S23 S13S23
S12 −
(S )
2 2 2
S S 2
(2) 3 3
3 S23
= = =
2
S S13 S223 S23 2
S13 S223
S +
2 13
S −2
2
S13 ⋅ S + 2
S −2
2
S23 S −
2
⋅ S −
2
( ) ( )
1 3 2 3 1 2
S23
2
S23 S23
2
S23 S23 S23
S12 S S
− 13 ⋅ 23
S1S2 S1S3 S2S3 r12 − r13 ⋅ r23
= =
S2
S 2
S S 2 2
1 − r13
2
⋅ 1 − r23
2
1
2
− ⋅13
2 2
− 2
2
23
2 2
S1 SS S
1 3 SS 2 2 3
(1) Propiedad Covarianza : Cov ( aX + bY + c, dZ + eW + f ) = adCov ( X,Z ) + aeCov ( X, W ) + bdCov ( Y,Z ) + beCov ( Y, W )
Propiedad Varianza : Var ( aX + bY + c ) = a2 Var ( X ) + b2 Var ( Y ) + 2abCov ( X, Y )
S13 S23
(2) Coeficientes Regresión : b13 = b23 =
S23 S23
CORRELACIÓN MÚLTIPLE
Informa del grado de relación lineal que hay entre una variable de la distribución y la
combinación lineal del resto de variables.
2
r12 − 2 r12 r13 r23 + r13
2
R1•23 =
1 − r23
2
ED 52
Ahora se hace la regresión entre x1 y ˆ
x1 :
x̂1 = a0 + b1x1
2
S12 S23 − S12S13S23 + S13
2
S22 − S12S13S23
S22S23 − S223
= ……
(S ) (S )
2 2
S S 2
12
2
2
2
3 − 2S12S13S23S S + S S S + S 2
2
2
3
2
13
2
23
2
2
2
13
2
2 S − 2S12S13S23S S + ……
2
3
2
2
2
3
S12 ⋅
(S S )
2
2
2
2
3 −S 2
23
=
…
……
…… + S12
2
S223S23 + 2S12S13S23S22S23 − 2 S12
2
S223S23 − 2 S13
2
S223S22 + 2S12S13S323
…
S S − 2S12S13S23 + S13
2
12
2
3
2
S22
S22S23 − S223
= =
(S ) (S )
2 2
S S 2
12
2
2
2
3 +S 2
13
2
2 S − 2S12S13S23S S − S S S − S S S + 2S12S13S
2
3
2
2
2
3
2
12
2
23
2
3
2
13
2
23
2
2
3
23
S12 ⋅
S22S23 − S223
2
S12 S23 − 2S12S13S23 + S13
2
S22
S12S22S23
= =
( ) ( )
2 2
S12
2
S12 S22 S23 + S13
2
S22 S23 − 2S12S13S23S22S23 − S12
2
S223S23 − S13
2
S223S22 + 2S12 S13S323
⋅
( ) (S )
2 2 2
S 1 S12 S22 2
3
2
r12 − 2r12r13r23 + r13
2 2
r12 − 2r12r13r23 + r13
2 2
r12 − 2r12r13r23 + r13
2
= = =
(r )( ) 1 − r23
2
2
r12 + r13
2
− 2r12r13r23 − r12r23 − r13
2 2
r23 + 2r12r13r23
2 2 3 2
12 − 2r12r13r23 + r13
2
1 − r23
2
ED 53
TEMA 13: REGRESIONES I
Y = f(X, a1 , a2 ,… , an ) → y j = ϕ (x i , a1 , a2 ,… , an )
ˆ
ej = y j − ˆ
yi
El método de los mínimos cuadrados determina los parámetros ai de tal forma que la
media ponderada de los residuos sea mínima. Para evitar que se compensen residuos
negativos y positivos previamente se elevan al cuadrado:
( )
k p k p
⋅ nij = ∑ ∑ y j − ϕ ( x i , a1 , a2 ,… , an ) ⋅ nij ⇒ min Φ ( a1 , a2 ,… , an )
2 2
Φ = ∑ ∑ yj − ˆ
yj
i=1 j=1 i=1 j=1
2as Condiciones:
ED 54
TIPOS DE AJUSTE
AJUSTE LINEAL
Se ve en el tema 14.
AJUSTE PARABÓLICO
ŷ j = a + bx i + cx i2
∂Φ k p
= −2 ∑ ∑ (y j − a − bx i − cx 2i ) nij x i = 0
∂b i=1 j=1
∂Φ k p
= −2 ∑ ∑ (y j − a − bx i − cx 2i ) ⋅ nij x i2 = 0
∂c i=1 j=1
AJUSTE HIPERBÓLICO:
1
Se reduce al caso lineal con la transformación: Z= ⇒ Y = a + bZ
X
AJUSTE POTENCIAL:
Y = aXb
ED 55
También puede reducirse al caso lineal tomando logaritmos:
ln Y = ln aXb = ln a + b ⋅ ln X
Renombrando U = ln Y; A = ln a; Z = ln X ⇒ U = A +b⋅Z
AJUSTE EXPONENCIAL:
Y = a ⋅ bX
ln Y = ln ab X = ln a + X ⋅ lnb
Renombrando U = ln Y; A = ln a; B = ln b ⇒ U = A+B⋅X
2- VARIANZA RESIDUAL
Como medida de dispersión y de la bondad del ajuste, se calcula la varianza de los errores,
es decir, de las diferencias entre los datos observados y los teóricos, siendo mejor el ajuste
cuanto menor sea.
∑ ∑ ( y j − ˆy j ) n ij ∑ ( y j − ˆy j ) n • j
k p 2 p 2 p
∑ e2j n • j
i =1 j =1 j =1 j =1
S2e = = =
N N N
Casos particulares:
p p k p
∑ y2jn • j − a∑ y jn • j − b∑ ∑ xiy jn ij
j=1 j=1 i=1 j=1
• Ajuste lineal: S2e =
N
p p k p k p
∑ y2j n • j − a∑ y jn • j − b∑ ∑ xiy jn ij − c∑ ∑ xi2 y jn ij
j=1 j=1 i=1 j=1 i=1 j=1
• Ajuste parabólico: S2e =
N
DESCOMPOSICIÓN DE LA VARIANZA
La varianza total puede descomponerse como la suma de la varianza explicada por la
regresión más la varianza residual:
Demostración:
ED 56
p p p p 2
∑ e2j ⋅ n• j ∑ (y j − ˆy j )2 ⋅ n• j ∑ (y j − ˆy j + y − y)2 ⋅ n• j ∑ (y j − y) − (yˆ j − y) ⋅ n• j
j =1 j =1 j =1 j =1
S2e = = = = =
N N N N
p p
∑ (y j − y)2 ⋅ n• j ∑ (yˆ j − y)2 ⋅ n• j 2 p 2 p
j =1 j =1
= + − ∑ (y j − y)(yˆ j − y) ⋅ n• j = S2y + S2ŷ − ∑ (yˆ j + e j − y)(yˆ j − y) ⋅ n• j =
N N N j=1 N j=1
p p p
∑ ˆ j − y)2 ⋅ n• j
(y ∑ ˆy j e j ⋅ n• j ∑ ye j ⋅ n• j
2 p
= j =1 j =1
= S2y + S2ˆy − ∑ (yˆ j − y)2 + ˆ
y j e j − ye j ⋅ n• j = S2y + S 2ˆy − 2 + + =
j 1
N j =1 N N N
(1)
= S2y + S2ˆy − 2(S 2ˆy + 0 − 0) = S 2y + S 2ˆy − 2S2ˆy = S2y − S2ˆy
N N N
(1) Propiedades Residuos : ∑ ei =0 ∑ ˆy iei = ∑ ϕ (x i , a1 , … , an )ei =0
i =1 i =1 i =1
COEFICIENTE DE DETERMINACIÓN
Se define como el cociente entre la varianza explicada y la varianza total. Es decir, que
indica la proporción de variaciones de la variable dependiente explicadas por la regresión.
S2e S2Yˆ
R =1− 2 = 2
2
SY SY
0 ≤ R2 ≤ 1
ED 57
TEMA 14: REGRESIONES II
1- RECTAS DE REGRESIÓN
En el caso de detectar una relación lineal, lo que se obtiene mediante la técnica de los
mínimos cuadrados es la recta de regresión.
Se parte de:
k p
min φ1 = ∑ ∑ (y j − a − bx i )2 nij
a,b i =1 j =1
∂φ1 k p k k
=0 → ∑ ∑ xi y j n• j = a∑ x ini• + b∑ x i2ni•
∂b i =1 j =1 i =1 i =1
Si se opera:
÷N a01 = a + b ⋅ a10 ×( − a10 ) −a10 ⋅ a01 = −a ⋅ a10 − b ⋅ a10
2
sumando
→ → →
a11 = a ⋅ a10 + b ⋅ a20 a11 = a ⋅ a10 + b ⋅ a20
S xy
→ (
a11 − a10 ⋅ a01 = b ⋅ a20 − a10
2
) → m11 = b ⋅ m20 → S xy = b ⋅ S 2x ⇒ b=
S2x
S xy S xy
a01 = a + b ⋅ a10 → a = a01 − a10 ⇒ a=y− ⋅x
S2x S2x
ED 58
Los coeficientes de regresión son las pendientes de las rectas de regresión:
∂y Sxy
- de Y sobre X: = tgα = b = 2
∂x Sx
∂x Sxy
- de X sobre Y: = tgα ′ = b′ = 2
∂y Sy
El signo de b y b’ será el mismo de la cov. Si S2xy > 0 , las rectas de regresión serán crec. Si
S2xy < 0 , serán decrecientes Y si S2xy = 0 , entonces las rectas de regresión serán
perpendiculares entre sí, y paralelas a los ejes.
y
x = f’(y)
α′
y = f(x)
y α
x
x
PROPIEDADES:
N N N
1) ∑ ei = 0 ⇔ ∑ y i = ∑ ˆy i
i =1 i =1 i =1
Demostración:
N N N N N ∂φ1
∑ ei = ∑ y i − ∑ ˆyi = ∑ y i − aN − b∑ x i = =0
i=1 i =1 i=1 i=1 i=1 ∂a
N
2) ∑ ei ⋅ x i = 0
i =1
Demostración:
N N N N ∂φ1
∑ ei xi = ∑ y i x i − a∑ x i − b∑ x 2i = =0
i=1 i=1 i=1 i=1 ∂b
N
3) ∑ ei ⋅ ˆy i = 0
i =1
Demostración:
N N N
∑ eiˆyi = a∑ ei + b ∑ ei x i = 0
i=1 i=1 i =1
ED 59
2- COEFICIENTE DE CORRELACIÓN LINEAL
Mide el grado de asociación lineal entre dos variables.
S2xy
S/ 2y − S/ 2y +
S2ŷ S2x S2xy S xy
r= 1− = = ⇒ r=
S2y S 2y S2x ⋅ S2y Sx ⋅ Sy
S2xy
r2 = = R2
S2x ⋅ S2y
S xy S xy S xy tg α
r= b ⋅ b′ = ⋅ 2 = o con ángulos: r=
2
Sx Sy Sx ⋅ Sy π
tg − α ′
2
π
• si r=0 ⇒ tg α = 0 → α = 0º ; tg − α ′ → ∞ ⇒ α ′ = 0º
(recta Y/X paralela al eje X) 2
(recta X/Y paralela al eje Y)
π π
• si r ± 1 ⇒ tg α = tg − α ′ → α = − α ′ (Las dos rectas coinciden)
2 2
Sy
y−y=
(x − x)
Sx
a) r = 1: Son la misma recta, con pendiente positiva.
Sx
x−x= (y − y)
Sy
ED 60
Sy
y−y=− (x − x)
Sx
b) r = -1: Son la misma recta, con pendiente negativa.
Sx
x − x = − (y − y)
Sy
y − y = 0
c) r = 0: Cada recta paralela a un eje, y perpendiculares entre ellas.
x − x = 0
ED 61
TEMA 15: SERIES TEMPORALES I
1- INTRODUCCIÓN
Serie temporal (cronológica o histórica): sucesión de observaciones de un fenómeno
ordenadas en el tiempo. Permite analizar la evolución de una variable a lo largo de del
tiempo, tanto para construir un modelo descriptivo de la historia del fenómeno, como para
predecir sus valores futuros.
Una serie temporal puede considerarse una distribución bidimensional en la que la variable
dependiente es la que se quiere analizar, y la variable independiente es el tiempo.
La variable explicada puede ser una magnitud stock (referida a un momento concreto) o
flujo (referida a la acumulación en un periodo de tiempo).
Con el análisis gráfico de la serie temporal se pueden detectar las características más
importantes, como movimientos a L/P, amplitud de las oscilaciones, existencia de ciclos,
rupturas, datos anómalos, etc. Para esto debe tenerse especial cuidado con la elección de la
escala para evitar distorsiones.
2- COMPONENTES
1º. Tendencia (Tt ) : describe el movimiento general de la serie a L/P,
proporcionando las pautas generales de su comportamiento. Se necesita un
número grande de observaciones para poder calcularla.
2º. Estacional (E t ) : recoge las oscilaciones a C/P, que se producen regularmente
con un periodo igual o inferior al año. Suele deberse a factores climatológicos,
biológicos, culturales,…
3º. Cíclica (C t ) : refleja oscilaciones a M/P, con duración mayor de un año, no tan
regulares como las estacionales; y normalmente debidas a la alternancia de
periodos de prosperidad y depresión en la actividad económica.
4º. Irregular o residual (It ) : recoge los movimientos sin periodicidad reconocible,
de carácter esporádico o accidental.
En la práctica es complicado separar ciclo y tendencia. Por ello algunos autores las tratan
conjuntamente, hablando de la componente extraestacional.
3- MODELOS DE DESCOMPOSICIÓN
a) Aditivo: y t = Tt + C t + E t + It
b) Multiplicativo: y t = Tt × C t × E t × It
c) Mixto: y t = Tt × C t × E t + It
ED 62
Para elegir el modelo más adecuado hay varios procedimientos, que básicamente indican si
la tendencia y la componente estacional son independientes, en cuyo caso se debería escoger
el modelo aditivo; o no lo son, debiendo usar entonces unos de los otros dos modelos.
− Gráfico: si las oscilaciones estacionales tienen una amplitud similar todos los años, se
escogería el modelo aditivo. Si esa amplitud tiende a crecer o decrecer, se escogería uno
de los otros dos modelos.
N
∑ (dEt − dE )2 • si CV(d E ) > CV(k E ) ⇒
t =L +1
T −L ⇒ Modelo b) o c)
diferencia estacional: dEt = y t − y t −L → CV(dE ) =
dE
N
∑ (k Et − k E )2 • si CV(d E ) < CV(k E ) ⇒
t =L +1
yt T −L ⇒ Modelo a)
cociente estacional: k Et = → CV(k E ) =
y t −L kE
− Tendencia lineal:
Ec. Normales ∑ y t = Na + b∑ t S ty
y t = a + bt
ˆ ⇒ ⇒ ˆ
y t = y + 2
(t − t )
∑ t
y t = a ∑ t + b ∑
t 2
S t
ED 63
− Tendencia parabólica:
∑ y t = Na + b∑ t + c ∑ t 2
Ec. Normales
ŷ t = a + bt + ct 2 ⇒ ∑ y t t = a∑ t + b∑ t 2 + c ∑ t 3
∑ y t t 2 = a∑ t2 + b∑ t3 + c ∑ t 4
− Tendencia exponencial:
y t = a + bt ⇔ ln ˆ
ˆ y t = ln a + t ⋅ lnb
− Tendencia logística:
k
ŷ t = y 0 + + c ⋅ e −ht
l
2- MEDIAS MÓVILES
Consiste en promediar los valores con un cierto número de observaciones anteriores, y el
mismo número de observaciones posteriores. El tamaño idóneo debe ser múltiplo de la
componente estacional (años completos), y de la cíclica (lo que es mucho más difícil). Es un
procedimiento sencillo, pero es difícil elegir el orden, y además se pierden observaciones al
principio y al final de la serie. Otra desventaja es que no existe medida de la bondad del
S2ty
ajuste, como en el ajuste analítico, que tiene el coeficiente de determinación R 2 = rty2 = .
S2t ⋅ S2y
• Si el orden de p es impar:
y1 + y 2 + … + y p y 2 + y 3 + … + y p +1 y 3 + y 4 + … + y p +2
y p +1 = ; y p +3 = ; y p +5 = ; ……
2
p 2
p 2
p
p −1
2
y +y + … + yt + … + y +y ∑ y t +i
p −1 p −1 p −1 p −1 p −1
t− t− +1 t+ −1 t+ i=−
En general: yt = 2 2 2 2
= 2
p p
y p +1 + y p + 3 y p +3 + y p +5 y p+5 + y p +7
y p+2 = 2 2
; y p+ 4 = 2 2
; y p+6 = 2 2
; ……
2
2 2
2 2
2
p +1 p+2
Se pierden − 1 observaciones al principio y al final si p es impar, y − 1 si es par.
2 2
ED 64
3- MÉTODO DE LAS DIFERENCIAS
Es el empleado en la teoría avanzada de series temporales. Se basa en diferenciar los
valores, creando una nueva serie:
zt = y t − y t −1 = (1 − L)y t donde Ls = y t − s
w t = (1 − L)zt = z t − zt −1 = (y t − y t −1 ) − (y t −1 − y t − 2 ) = y t − 2y t −1 + y t − 2 = (1 − L)2 y t
ED 65
TEMA 16: SERIES TEMPORALES II
Desde esa fecha, Yule abrió el camino de la concepción moderna o estocástica (las
incidencias irregulares sí condicionan los movimientos futuros de la variable).
2- VARIACIONES ESTACIONALES
1- MÉTODO DE LAS RELACIONES DE MEDIAS MENSUALES RESPECTO
A LA TENDENCIA
a) Se calculan las medias anuales, y con ellas la recta de regresión por mínimos
cuadrados. Así se haya la tendencia.
y t • = a + bt
y ′•k IVEk
IVEk = × 100 → E•k = E•k = y ′•k − y ′
y′ 100
ED 66
2- MÉTODO DE LAS MEDIAS MÓVILES
En este método se suponen unidas tendencia y ciclo en la componente extraestacional.
b) Se calcula la media para cada mes o trimestre con los datos sin tendencia. De esta
forma se anula el efecto de la componente irregular.
N N y
∑ ( yik − Xik ) ∑ Xtk
i =1
Aditivo: E•k = i =1 Multiplicativo: E•k =
tk
N N
E •k
Aditivo: E•k = E•k − E Multiplicativo: E•k =
E
(1 − Lm )y t = y t − y t −m = zt
El método más usado es el X-11, del Bureau of the Census de EE. UU.
3- VARIACIONES CÍCLICAS
La obtención del ciclo es bastante difícil, debido a que no siempre existe; son necesarias
series muy largas para poder detectarlo; no siempre tienen la misma longitud; y puede darse
el caso de que se superpongan más de un ciclo de distintas longitudes de onda.
Todo ello hace que sea muy frecuente el tratamiento de las series en el que se prescinde
del estudio separado de los ciclos y, en su lugar, se trabaja con la componente mixta ciclo-
tendencia, a la que también se le conoce como extraestacional.
ED 67
y tk
Aditivo: R tk = C tk + I tk = y tk − Ttk − E tk Multiplicativo: R tk = C tk ⋅ Itk =
Ttk ⋅ E tk
B
R t = A ⋅ cos(ω t) + B ⋅ sen(ω t) = R ⋅ cos(ω t − α ); R = A 2 + B 2 , α = arctg
A
2ω π
R → amplitud, → periodo, → frecuencia, α → fase (valor R t en origen)
π 2ω
2π 2π
Si se ajusta a una expresión: R t = A 0 + A ⋅ cos t + B ⋅ sen t
p p
p
∑ Rt 2 p 2π 2 p 2π
t =1
A0 = A= ∑ R t ⋅ cos t B= ∑ R t ⋅ sen t
p p t =1 p p t =1 p
p, que es el periodo o duración del ciclo, no se conoce, por lo que se le pueden dar
distintos valores, y con los periodogramas, elegir el valor más adecuado.
ED 68
TEMA 17: NÚMEROS ÍNDICES
Es una medida estadística que compara los valores de una variable en dos situaciones
distintas, tomando una como referencia. Son una simplificación de la realidad, por lo que
deben tenerse precauciones al calcularlos, como por ejemplo al fijar la situación inicial de
referencia, ya que condiciona el resultado de las comparaciones. Éstas pueden ser
geográficas, sectoriales, temporales.
1- ÍNDICES SIMPLES
Sea X una magnitud simple, y sean x0 y xt sus valores en los periodos base (0) y corriente
(t). El número índice simple muestra la variación de dicha magnitud, y se define:
xt
I0t (X) = × 100
x0
(todos los índices están multiplicados por 100, pero por comodidad en la notación se omite)
Los índices simples más usuales son los de precios, cantidades y valor relativos:
pit qit pit × qit
p0t (i) = ; q0t (i) = ; V0t (i) = = p0t (i) × q0t (i)
pi0 qi0 pio × qio
PROPIEDADES (deseables):
1. Existencia: todo número índice debe existir, es decir, tener un valor finito.
xt 1 1
3. Inversión: I0t = = = 0
x0 x t It
x0
x t′ x t x 0 1
4. Circular: ⋅ ⋅ =1 ⇔ I0t′ × Itt′ × I0t = 1 ⇒ I0t′ × Itt′ = = I0t
x 0 x t′ x t I0t
x it′ (1 + k)x it
x it′ = x it + k ⋅ x it = (1 + k)x it → I′(i) = = = (1 + k) ⋅ I(i)
x i0 x i0
ED 69
2- ÍNDICES COMPLEJOS
Resumen en una sola serie la evolución temporal de un conjunto de variables relacionadas
entre sí. Se dividen en dos: no ponderados (se asigna el mismo peso a todas las variables), y
ponderados (se asigna distintos pesos según su importancia relativa en el conjunto).
1- NO PONDERADOS
N
N
b) Media Geométrica Simple: IGt 0 = N I0t (1) ⋅ I0t (2) ⋅ …… ⋅ I0t (N) = N ∏ I0t (i)
i =1
N N
c) Media Armónica Simple: IHt 0 = =
1 1 1 N 1
+ + …… + t ∑ t
I0t (1) I0t (2) I0 (N) i =1 I0 (i)
x1t + x 2t + …… + xNt ∑ x it
i =1
d) Media Agregada Simple: IBt 0 = =
x10 + x 20 + …… + x N0 N
(Índice de Bradstreet y Dûtot)
∑ x i0
i =1
2- PONDERADOS
N
t
∑ ωi ⋅ I0t (i)
a) Media Aritmética Ponderado: IP 0 = i =1
N
∑ ωi
i =1
1
N t ωi N
= ∏ I0 (i) ∑
G ωi
b) Media Geométrica Ponderado: IPt 0
i=1
i=1
N
∑ ωi
i =1
c) Media Armónica Ponderado: IPtH0 = N ω
∑ t
i
i =1 I0 (i)
ED 70
N
∑ ωi ⋅ x it
i =1
d) Media Agregada Ponderado: IPtA0 = N
∑ ωi ⋅ x i0
i =1
N N pit N
∑ It 0 (pi ) ⋅ ωi ∑ p/ i0 × qi0 ∑ pit × qi0
i =1 / i0
i =1 p i =1
L t 0 (p) = N
= N
= N
∑ ωi ∑ pi0 × qi0 ∑ pi0 × qi0
i =1 i =1 i =1
N
∑ pi0 × qit
i =1
Para cantidades se expresaría: L t 0 (q) = N
∑ pi0 × qi0
i =1
Al elegir el periodo base, se debe elegir un año normal, sin irregularidades. Si no existe, se
promedian varios años, habiendo tres posibilidades:
• Cantidades: q′i =
qi0 + qi1 + …… + qin
→ L t 0 (p) =
∑ pit × q′i
n ∑ pi0 × q′i
ED 71
ÍNDICE DE PAASCHE
Es la media aritmética ponderada por el valor de la cantidad del periodo corriente con
precios del periodo base:
ωi = pi0 × qit
N N pit N
∑ It 0 (pi ) ⋅ ωi ∑ p/ i0 × qit ∑ pit × qit
i =1 / i0
i =1 p i =1
Pt 0 (p) = N
= N
= N
∑ ωi ∑ pi0 × qit ∑ pi0 × qit
i =1 i =1 i =1
N
∑ pit × qit
i =1
Para cantidades quedaría: Pt 0 (q) = N
∑ pit × qi0
i =1
Este índice sólo puede compararse con el periodo base, ya que las ponderaciones varían en
cada periodo ( q it para precios, p it para cantidades). Por ello cada vez es menos utilizado.
Hasta la base 2001, el IPC basaba su cálculo en el sistema de base fija, que se
caracterizaba por mantener fijas la composición de la cesta de la compra y las ponderaciones
durante la vigencia de la base. Es decir, que sólo se cambiaban cada 8 o 9 años, que era la
periodicidad de la Encuesta Básica de Presupuestos Familiares (EBPF).
En el IPC base 2011, vigente desde enero de 2012, continúa este sistema, usando para ello
la información proporcionada por la Encuesta de Presupuestos Familiares (EPF) base 2006,
cuya principal característica es su periodicidad anual.
ÁMBITOS
ED 72
Respecto a las ponderaciones, para ciertos niveles de desagregación, su periodo de
referencia es el mes de diciembre del año anterior, ya que su ponderación se actualiza
anualmente con la información de la EPF y otras fuentes. Aparte cada cinco años se realiza
un cambio de base, con el que se actualizarán las ponderaciones para todos los niveles
funcionales y geográficos.
2- Poblacional: en el IPC base 2011 el estrato de referencia incluye toda la población que
reside en viviendas familiares en España; se excluyen por tanto los gastos de las personas
que residen en hogares colectivos o instituciones (conventos, residencias de ancianos,
prisiones, etc.) y los gastos de los no residentes.
Desagregación geográfica: en el IPC base 2011 sigue con los mismos niveles de
desagregación que el IPC 2006:
ED 73
DISEÑO MUESTRAL
a) Selección de municipios: atendiendo a criterios demográficos (como el IPC 2001) y a
representación geográfica (datos del Padrón Municipal a 1 de enero de 2010), se eligen 177
municipios, incluidas las 50 capitales de provincia y Ceuta y Melilla. En 97 se recogen precios
de toda la cesta, en 44 se recogen precios de toda la cesta de Alimentación y parte del resto,
y en 36 se recogen precios de una cesta reducida.
Debe destacarse que el porcentaje de población cubierto es superior al teórico, ya que
algunos de los establecimientos incluidos en la muestra reciben gente de fuera de sus
municipios (grandes centros comerciales por ejemplo).
Con el paso al IPC base 2006, el número de observaciones ascendió a 220.000 precios
mensuales, cantidad mantenida en el IPC base 2011.
ED 74
Hay índices simples, de los agregados elementales (un artículo en una provincia). Los
precios medios se calculan con la media geométrica sin ponderación:
nmt
i Pimt
Pi mt
= nmt
i
∏ Pi,mtj → mt
dic(t −1) Ii = × 100
j =1 Pi dic(t −1)
donde:
• Pi,mtj es el precio del agregado elemental i recogido en el establecimiento j en el m
del año t.
• nmt
i es el número de precios procesados del agregado elemental i en el m del año t.
mt
• dic(t −1) Ii es el índice referido a diciembre del año (t-1), del agregado elemental i,
en el mes m del año t.
• Pi dic(t −1) es el precio medio del agregado elemental i, en diciembre del año (t-1).
También hay índices agregados, de agregados funcionales, ‘A’, por provincia, ‘p’:
mt
dic(t −1) I A,p = i,p × dic(t −1)Wi,p
∑ dic(t −1) Imt
i∈A
donde:
mt
• dic(t −1) Ii,p es el índice referido a diciembre del año (t-1), del artículo i en la provincia
p en el mes m del año t.
• dic(t −1)Wi,p es la ponderación (en tanto por uno) referida a diciembre del año (t-1)
del artículo i en la provincia p, dentro de la agregación A, es decir:
gasto realizado en el artículo i dentro de la provincia p
dic ( t −1)Wi,p =
gasto realizado en la agregación funcional A dentro de la provincia p
donde:
mt
• dic(t −1) I A,p es el índice referido a diciembre del año (t-1), de la agregación funcional
A en la provincia p en el mes m del año t.
• dic(t −1)WA,p es la ponderación (en tanto por uno) referida a diciembre del año (t-1)
de la agregación A en la provincia p, es decir:
gasto realizado en el artículo i dentro de la provincia p
dic ( t −1)Wi,p =
gasto realizado en la agregación funcional A dentro de la provincia p
ED 75
Tasas de Variación:
• MENSUAL: es el cociente entre el índice del mes corriente, m, y el índice del mes
anterior, (m-1):
mt mt
I dic(t −1) I
Vmt (m −1)t = 11
(m −1)t
× 100 = (m −1)t
× 100
11I I
dic(t −1)
• ANUAL: se trata del cociente entre los índices del mes corriente, m, y del mismo mes del
año anterior, ambos en base 2011:
mt
mt m(t −1) I
V = 11
m(t −1)
× 100
11I
TIPOS DE ARTÍCULO
Los artículos estaciónales son aquellos que sufren fluctuaciones periódicas en sus precios y
cantidades consumidas. Por ello sus ponderaciones varían a lo largo del año.
Los artículos de recogida centralizada también tienen una metodología propia, debido a que
sus precios no se recogen en cada provincia, sino en los Servicios Centrales del INE, ya que
hay pocas empresas comercializadoras, y/o se dispone de un directorio perfectamente
definido de empresas informantes, o directamente se publican las tarifas en boletines
oficiales.
RECOGIDA DE PRECIOS
Desde el IPC, base 2001, se recogen las reducciones de los precios debidas a ofertas y
promociones, y a los periodos oficiales de rebajas.
ED 76
TRATAMIENTO DE LA INFORMACIÓN
Los cambios de calidad son un problema que debe ajustarse. Se dan cuando un artículo
integrante del IPC es sustituido por otro, y hay que determinar qué parte de la diferencia de
precios se debe a una calidad diferente. Los métodos más habituales son: ajuste total de
calidad, ajuste por calidad idéntica, regresión hedonista, precios de solapamiento.
ENLACE DE SERIES
Antes cada cambio de base suponía una ruptura en las series, teniendo que calcular unos
coeficientes de enlace. A partir de 2001, el IPC es un índice encadenado, por lo que no es
necesario calcular ningún coeficiente de enlace. Por tanto, en el IPC base 2011 sólo se
cambió el periodo de referencia o base, teniendo que calcular simplemente un coeficiente de
re-escala, que hace que la media aritmética simple de índices de 2011, en base 2006, sea
100:
100
Cre −escala = 12
1
∑
12 m=1 06 I
m11
Se ha establecido que cada cinco años se cambiará la base, realizando una revisión
completa de la metodología y la muestra, y la actualización de ponderaciones a todos los
niveles de desagregación.
El ámbito poblacional del IPI es el conjunto de las actividades industriales, es decir, las
pertenecientes a las secciones B, C y D de la CNAE 2009 (versión española de la NACE Rev.
2). Por tanto mude la evolución de la cantidad y la calidad, sin influencia de los precios.
Su ámbito temporal es el mes.
Y respecto al geográfico, se calculan datos a nivel nacional y por comunidades autónomas
sin incluir a Ceuta y Melilla.
ED 77
porcentaje significativo de cada bien seleccionado en la cesta, como más representativo de
cada clase de la CNAE 2009. La muestra está formada por unos 11.500 establecimientos
Los índices corregidos del efecto calendario eliminan la influencia del número de días
laborables y festividades de cada Comunidad Autónoma para poder hacer comparaciones.
Cálculo de índices:
ED 78
Los índices de cualquier agregación funcional a nivel más agregado, grupos, divisiones,
secciones de la CNAE 2009 o sectores económicos por destino económico de los bienes
(bienes de consumo duradero, bienes de consumo no duradero, bienes que equipo, bienes
intermedios y energía) se obtienen como agregación de los índices del nivel agregado inferior
y pertenecientes al que deseamos calcular, utilizando como pesos o ponderaciones el valor
añadido generado en esa actividad o sector en el año base, en el ámbito territorial
correspondiente (comunidad autónoma o territorio nacional), respecto al valor añadido
generado por todas las actividades o sectores incluidos en ese nivel.
N VABi,0 N
I =∑
0 t N
⋅ 0 Iit = ∑ Wi,0 ⋅ 0 Iit
i =1
∑ VAB j,0 i=1
j =1
N N
deflactar
∑ pit × qit
→ ∑ pi0 × qit
i =1 i =1
(valor no min al) (valor real)
Es lo óptimo, pero para calcularlo se necesita el índice de Paasche, que no siempre está
disponible. Por esto es más usado el deflactor con el índice de Laspeyres, aunque no da
realmente el valor de la cantidad actual a precios de periodo base.
ED 79