Está en la página 1de 166

Estadstica Empresarial I

Tema 1

Concepto de Estadstica

EE I - Carlos G. Garca Gonzlez - ULL 1


Qu es la Estadstica?
Concepto de Estadstica:

La Estadstica forma parte de los mtodos cuantitativos que utiliza la Ciencia


Econmica para describir, analizar, predecir y modelizar la realidad. El trmino
estadstica tiene su raz en la palabra estadista, que a su vez proviene del
trmino latn status.

Censo o recuento de poblacin, de los recursos naturales e industriales,


Diccionario de la del trfico o de cualquier otra manifestacin del Estado, provincia,
Lengua Espaola pueblo o clase.

Estadstica Coleccin de datos numricos ordenados.

Ejemplos: Estadsticas de empleo, del censo de un municipio, de un acontecimiento


deportivo, ...
-Diseo de experimentos
Sin embargo, la Estadstica, adems, incluye: -Reduccin y procesamiento de los datos
-Toma de decisiones
EE I 2
Para comprender mejor la Estadstica, hablaremos de la existencia de
dos tipos de fenmenos.
Son aquellos en los que se puede
CAUSALES O saber el resultado final siempre que
DETERMINISTAS se realice en las mismas condiciones.
FENMENOS Ejemplo: Medir la altura de una mesa.
Son aquellos en los que no se puede
ALEATORIOS O prever el resultado final al repetirlos
ESTADSTICOS en anlogas condiciones.
Ejemplo: Lanzar una moneda, IPC.
CON REGULARIDAD
ESTADSTICA SIN REGULARIDAD
ESTADSTICA
Se pueden repetir tantas veces como se
quiera en iguales condiciones. Si bien no se En ellos intervienen, adems del azar,
puede predecir el resultado final, las estrategias o posiciones humanas, surgiendo
frecuencias relativas de cada posible as el concepto subjetivo de probabilidad,
resultado se estabilizan alrededor de un valor que se realiza en trminos de grados de
determinado. Esa regularidad estadstica o creencia, opiniones, ..., dentro de lo que se
ley del azar es la base de la T de conoce por Estadstica Bayesiana.
Probabilidades. EE I 3
Ciencia que estudia los fenmenos (aleatorios o estadsticos), prescindiendo
de los casos aislados y considerando las regularidades y propiedades del
ESTADSTICA conjunto, infiriendo en su caso sobre la totalidad del fenmeno o poblacin, a
partir de los resultados que aporta una subpoblacin o muestra, con un grado
de certeza o fiabilidad medida probabilsticamente.

Se puede dividir la Estadstica en dos grandes ramas, unidas por la


Teora de la Probabilidad.

ESTADSTICA

ESTADSTICA INFERENCIA
PROBABILIDAD
DESCRIPTIVA ESTADSTICA

Es la encargada de la recopilacin, Es la herramienta Es la relacionada con el proceso


estudio, clasificacin e matemtica utilizada por de utilizar datos procedentes de
interpretacin de un grupo de la Estadstica para un determinado subcolectivo o
datos, sin sacar conclusiones e modelizar los fenmenos muestra, para tomar decisiones
inferencias para un grupo mayor. reales. para el grupo ms general del
que forman parte esos datos.
EE I 4
Ejemplo: Se quiere llevar a cabo un estudio sobre la edad de los estudiantes
universitarios canarios. Para ello, se obtiene una muestra representativa de
manera que se obtiene una edad media de 22 aos. Podra asegurarse que
la edad media de todos los estudiantes canarios est en torno a ese valor?

En resumen:
z Si se quiere resumir la distribucin de los caracteres observados,
usaremos la Estadstica Descriptiva.
z Si, por el contrario, se espera generalizar las caractersticas
obtenidas a la poblacin, estaremos ante la Estadstica
Inferencial.

Hoy en da, el desarrollo de la informtica ha permitido poner a


disposicin de los estadsticos nuevos y potentes instrumentos de
observacin y anlisis de la realidad multidimensional, englobadas en lo
que se conoce como Tcnicas de Anlisis Multivariante. Dichas
tcnicas permiten analizar, verificar, probar y poner a prueba ciertas
hiptesis, renovando y generalizando los mtodos de la Estadstica
Descriptiva, utilizando numerosos resultados de la Inferencia
Estadstica.
EE I 5
Evolucin histrica de los contenidos de la Estadstica:
1 ETAPA Censos de poblacin y de bienes del Estado. Eran meros
Civilizaciones recuentos ya que no se extraan conclusiones.
anteriores al s. XVI
Mejoras en el conocimiento cuantitativo de las cosas del Estado, en
las facetas de recogida de la informacin, descripcin y anlisis de
la misma, extrayendo conclusiones y realizando predicciones.
2 ETAPA
Del s. XVII a A partir de los juegos de azar, se incorpora el Clculo de
fines del s. XIX Probabilidades como instrumento para el estudio de fenmenos
econmicos y sociales.
3 ETAPA Surge la Estadstica Inferencial, gracias a la fusin de las dos
De fines del s. XIX vertientes existentes hasta ese momento: la Estadstica
a primeros del s. XX Descriptiva y la Teora de la Probabilidad.
Formalizacin rigurosa de la modelizacin matemtica y el desarrollo
terico de la T de la Probabilidad y la Inferencia Estadstica.
4 ETAPA Introduccin de la informtica en el anlisis estadstico, T de los
s. XX Procesos Estocsticos, T de la Decisin, Anlisis Multivariante,
aplicaciones de la Estadstica en la Economa (Econometra, Control de
Calidad, Simulacin y Anlisis Conjunto). EE I 6
Aplicaciones de los mtodos estadsticos a la economa y la
empresa:

Describir la realidad socioeconmica (produccin, costes, mercado, ...),


obteniendo de los mismos sus principales caractersticas.
Utilizacin del Muestreo y la Inferencia Estadstica para inferir caractersticas
de una muestra a la poblacin que representan. Es til para:
z Realizacin de auditoras, control interno y verificacin de la empresa, la
estimacin sobre el total o el importe medio de una cuenta, contrastar el
valor probable de la misma.
z El control de calidad, ya sea en los procesos de produccin, el diseo de
nuevos productos, o la calidad de los servicios pblicos o privados.
z El anlisis financiero, en la simulacin de proyectos de inversin.
Mediante las tcnicas de prediccin, cualquier organizacin puede realizar
predicciones de las actividades futuras y elegir las acciones a tomar a partir de
ellas.
Las tcnicas multivariantes son de gran utilidad en el campo comercial y de
mercados, donde ser necesario investigar el consumo de un producto en una
determinada zona, realizar sondeos sobre la aceptacin de un producto, etc.
Las tcnicas de decisin clsicas (estimacin y contraste de hiptesis), as
como las tcnicas de decisin bayesianas y deterministas, se utilizan en la toma
de decisiones para la administracin de empresas, en el sector produccin, etc.EE I 7
Estadstica Empresarial I

Tema 2

Series Estadsticas.
Tabulacin y Representacin

EE I - Carlos G. Garca Gonzlez - ULL 8


Introduccin
El estudio estadstico de cualquier fenmeno conlleva una serie de
etapas:

z Definicin de los objetivos del estudio, lo cual permitir al


investigador decidir sobre cules son los datos y la documentacin
estadstica que necesita.
z Elaboracin de los datos. Para ello, necesita realizar una serie
de observaciones sobre las cuales poder analizar e interpretar los
datos obtenidos. Se requiere que esos datos puedan ser:
z Ordenados mediante una tabulacin adecuada.
z Presentados en base a representaciones grficas.
z Utilizacin de los datos para su anlisis, interpretacin y, si es
posible, prediccin, para los que podrn ser caracterizados con
medidas que resumen la cantidad de informacin observada, con
las que interpretar posteriormente los datos.

EE I 9
Conceptos Previos
Toda investigacin estadstica empieza esencialmente por observar y anotar
las caractersticas del fenmeno que se quiere estudiar. Por ello, partiremos de
una serie de conceptos:

Unidad estadstica: Es el dato individual, objeto de la observacin, cualquiera


que sea su naturaleza. Puede ser un ser vivo, un objeto o un hecho, y debe ser
definido sin ambigedad.

Poblacin: Se entiende por poblacin estadstica un conjunto de unidades


estadsticas sobre las que se verifica un determinado criterio, de manera que
tengan alguna caracterstica en comn.
Las poblaciones pueden estar formadas por unidades estadsticas variables o
invariables a lo largo del tiempo.
Ejemplos: Grupo de alumnos de 1, municipios de Tenerife.
Segn su tamao, las poblaciones pueden ser finitas (que poseen un nmero
finito de unidades estadsticas) o infinitas (poseen un nmero infinito).
Ejemplos: Profesores de estadstica de empresariales de la ULL, bolgrafos
fabricados. EE I 10
Muestra estadstica: Se trata de un subconjunto de la poblacin elegido
de una forma representativa.

Caracteres: Son las distintas caractersticas o cualidades que poseen las


unidades estadsticas de una determinada poblacin, y que se pueden
estudiar desde el punto de vista estadstico.
CUALITATIVOS O ATRIBUTOS: No pueden describirse
numricamente, sino con letras. No son susceptibles de medidas y
son observables slo cualitativamente. Ejemplos: Profesin, sexo, nacionalidad
CARACTERES Atributos: A, B, C,... Modalidades: a1, a2,...
CUANTITATIVOS O VARIABLES ESTADSTICAS: Son
descritos numricamente, por lo que son medibles y cuantificables.
Variables: X, Y, Z,... Valores: x1, x2,... Ejemplos: Altura, edad, peso, n de hijos

DISCRETAS: Slo pueden tomar valores numricos


aislados.
VARIABLES ESTADSTICAS
CONTINUAS: Pueden tomar cualquier valor dentro
de un intervalo.

NOTA: En realidad, la distincin entre variable discreta y variable continua es en muchos


casos arbitraria, ya que todas las medidas pueden convertirse en discretas. Adems, en
el caso de muchas variables, estamos limitados por los instrumentos de medida. EE I 11
Ordenacin y Tabulacin
Al estudiar los datos de una poblacin o muestra, lo ms frecuente
es que se obtenga un gran volumen de informacin. Una vez ordenados
los valores de forma creciente o decreciente, se lleva a cabo una
reduccin de las observaciones llamada tabulacin, obteniendo as una
tabla estadstica.

La tabla estadstica debe reunir la mxima informacin posible del


objeto de estudio, lo cual requiere:
z Un ttulo que precise su contenido.

z Una indicacin sobre las unidades utilizadas.

z Una especificacin clara de los subttulos de cada columna.

z Notas aclaratorias al pie de la tabla sobre la fuente de los datos o


sobre algn trmino ambiguo.

EE I 12
Conceptos:

FRECUENCIA TOTAL (N): Es el nmero total de datos o unidades


estadsticas consideradas.
FRECUENCIA ABSOLUTA (ni): Es el nmero de veces que se repite cada
una de las modalidades de un atributo, o cada uno de los valores de una
variable.
FRECUENCIA RELATIVA (fi):
ni Refleja la proporcin, en tantos por uno, de los individuos de cada
fi = modalidad o valor
N
FRECUENCIA ABSOLUTA ACUMULADA (Ni): Es la suma acumulada de las
frecuencias absolutas una vez ordenados los valores (o modalidades) de la
variable (o atributo) de forma creciente. i
Ni = n j
j =1

FRECUENCIA RELATIVA ACUMULADA (Fi): Es el cociente entre la


frecuencia absoluta acumulada y la frecuencia total.
N
Fi = i
N
EE I 13
INTERVALOS [Li, Li+1): Cuando el nmero de valores de la variable
es muy elevado, se pueden reducir agrupndolos en intervalos. Por
convenio, se consideran los intervalos solapados y semiabiertos por la
derecha. Al agrupar en intervalos se pierde informacin.
AMPLITUD DE UN INTERVALO (ai): Es la diferencia existente entre
el lmite inferior y superior del intervalo.
MARCA DE CLASE (Xi): Es el punto medio de cada intervalo. Se
utiliza como representante del intervalo a la hora de hacer clculos.
ai = Li+1 Li Puede ser constante para todos los intervalos o variar de
uno a otro (variable).
[Li,Li+1)
Li + Li+1
Xi =
2

DENSIDAD DE FRECUENCIA (di): Es el cociente entre la frecuencia


absoluta y la amplitud del intervalo.
ni Este concepto slo se utiliza en el caso de variables
di = cuyos valores estn agrupados en intervalos de
ai
amplitud variable.
EE I 14
Ejemplo 1: Distribucin de frecuencias del nmero de hijos de 150
familias en Canarias.
N de hijos ni fi Ni Fi

0 45 0,3 45 0,3
1 60 0,4 105 0,7
2 21 0,14 126 0,84
3 15 0,1 141 0,94
4 6 0,04 147 0,98
5 3 0,02 150 1
150

Ejemplo 2: Distribucin de frecuencias de las estaturas de un grupo de


150 personas.
Intervalos ni fi Ni Fi Xi ai di

[140,160) 9 0,06 9 0,06 150 20 0,45


[160,170) 75 0,5 84 0,56 165 10 7,5
[170,175) 45 0,3 129 0,86 172,5 5 9
[175,180) 15 0,1 144 0,96 177,5 5 3
[180,200) 6 0,04 150 1 190 20 0,3
150
EE I 15
Clasificacin de las series estadsticas: Las series estadsticas
pueden clasificarse segn diversos criterios:
TEMPORALES: Las unidades estadsticas dependen del intervalo
de tiempo tomado como unidad. Se considera como una tabla
SERIES ESTADSTICAS estadstica con dos variables, siendo una de ellas el tiempo.
(segn dependencia del tiempo)
ATEMPORALES: Las unidades estadsticas se recogen en un
momento determinado, sin que interese su evolucin en el tiempo.

SIMPLES: Cuando en ellas se estudia un solo carcter. Tambin


SERIES ESTADSTICAS se denominan distribuciones de frecuencias unidimensionales.
(segn n de caracteres estudiado) MLTIPLES: Se estudian varios caracteres simultneamente. Se
conocen como distribuciones de frecuencias n-dimensionales.

DE VARIABLES: Estn constituidas por variables discretas o


continuas. Se tabula cuntas veces se repite cada valor o n-upla de
valores. Segn los tipos de frecuencias, pueden ser: distribuciones
de frecuencias unitarias, distribuciones de frecuencias no
SERIES ESTADSTICAS agrupadas en intervalos o distribuciones de frecuencias agrupadas.
(segn su constitucin) DE ATRIBUTOS: Se tabula cuntas veces se repite cada
modalidad o combinacin de modalidades.
MIXTAS: Dentro de la tabla aparecen las veces que se repiten las
combinaciones de valores y modalidades. EE I 16
Representaciones grficas
Constituyen un conjunto de herramientas que permiten representar las
observaciones estadsticas mediante magnitudes o figuras geomtricas. El
objetivo de la representacin grfica es proporcionar una imagen de los datos
numricos que complemente a la tabla estadstica.

Ventajas:
- Permiten realizar una labor de sntesis buscando las regularidades y periodos.
- Constituyen un mtodo de control ya que descubren las variaciones anormales debidas a alguna razn o
a un error.
- Se pueden descubrir errores de imprenta o de clculo.
- En un nico grfico se pueden representar varias tablas estadsticas, lo que permitir el estudio y
comparacin de fenmenos relacionados entre s o contrapuestos.
Inconvenientes:
- No sustituyen a la tabla estadstica, sino que la completan.
- Deben rotularse con un ttulo adecuado, en el que estn perfectamente delimitados los hechos
observados en el espacio y en el tiempo.
- La lectura de un grfico es menos precisa que la de una tabla estadstica, ya que se basa en
impresiones visuales de longitud, reas o diversas tonalidades cromticas.
- Las unidades de las escalas de los grficos pueden ampliarse o reducirse, exagerando hechos
insignificantes o atenuando los importantes.
EE I 17
Ejemplo: Las exportaciones en miles de millones de ptas en Espaa entre
el ao 1981 y 1992 fueron las que se presentan a continuacin.

Analizando los datos adjuntos, se obtiene que


las exportaciones en Espaa se incrementaron
en un 24952 %, entre 1981 y 1992. Por qu
en el segundo grfico no se aprecia que
aumenten tanto?

7000

6000
8000
Exportaciones

5000

Exportaciones
6000
4000
4000
3000
2000
2000
0
1000
1980 1982 1984 1986 1988 1990 1992 1994
0 Aos
1980 1982 1984 1986 1988 1990 1992 1994
Aos

EE I 18
Distribuciones de frecuencias unidimensionales: variables no
agrupadas en intervalos:
Diagrama de barras Polgono de frecuencias

70 70
Nmero de familias

Nmero de familias
60 60
50 50
40 40
30 30
20 20
10 10
0 0
0 1 2 3 4 5 -1 0 1 2 3 4 5 6
Nmero de hijos Nmero de hijos

DIAGRAMA DE BARRAS: Para cada valor xi


de la variable, se levanta una barra de altura ni o fi. POLGONO DE FRECUENCIAS: Se obtiene
uniendo los extremos superiores de cada barra del
diagrama de barras.

DIAGRAMA ACUMULATIVO: Se representan


los valores de la variable frente a las Ni o Fi. El
grfico se confecciona mediante escalones entre un
valor de la variable y el siguiente.

EE I 19
Distribuciones de frecuencias unidimensionales: variable agrupada
en intervalos.
Polgono de frecuencias
Histograma
10
10
8
8

Densidades
Densidades

6
6

4 4

2 2

0 0
[140,160) [160,170) [170,175) [175,180) [180,200) [140,160) [160,170) [170,175) [175,180) [180,200)
Estaturas
Estaturas

HISTOGRAMA: Para cada intervalo, se levanta una POLGONO DE FRECUENCIAS: Se


barra de altura ni o fi si los intervalos son de amplitud construye sobre el histograma uniendo los
constante. Si la amplitud es variable, se usa di. puntos medios superiores a cada barra.
Polgono acumulativo

160
140
120 POLGONO ACUMULATIVO: Se
100
construye trazando, sobre cada intervalo,
Ni

80
60 lneas hasta la altura Ni o Fi de cada uno.
40
20
0
140 150 160 170 180 190 200
Estaturas
EE I 20
Distribuciones de frecuencias bidimensionales:

Nube de puntos

1600
1400
Renta nacional

1200
1000
800
600
400
200
0
25 30 35 40 45 50
Produccin elctrica

DEONDOGRAMA: Se realiza en un espacio


NUBE DE PUNTOS O DIAGRAMA DE tridimensional, de forma que en dos de los ejes
DISPERSIN: Se representa mediante un se representan los valores de la variable
punto cada uno de los pares de valores de bidimensional, y en el tercer eje, los nij o fij (si
las variables. los datos no estn agrupados en intervalos) o
dij (si estn agrupados). Asociado a cada par
de valores se levanta un paraleleppedo.
EE I 21
Representaciones grficas de series temporales:

7000

6000
Exportaciones

5000

4000

3000

2000

1000

0
1980 1982 1984 1986 1988 1990 1992 1994
COORDENADAS POLARES: Se utilizan para
Aos fenmenos que presentan movimientos
peridicos de 1 ao.

COORDENADAS CARTESIANAS: Se
representan los periodos de tiempo frente a DIAGRAMAS DE
los valores de la variable a estudiar. Oeste
Norte
SECTORES: Se
trata de un crculo
Otras representaciones: Este
dividido en tantos
sectores como
PIRMIDES DE EDADES: Son histogramas modalidades del
Sur
de frecuencias, pero con los ejes cambiados. Se atributo.
usan mucho para estudiar la distribucin de los ni
N de grados = .360
habitantes segn su edad y sexo. N EE I 22
Estadstica Empresarial I

Tema 3

Distribuciones de frecuencias
unidimensionales

EE I - Carlos G. Garca Gonzlez - ULL 23


Introduccin
La tabla estadstica obtenida mediante la clasificacin de los datos
nos ofrece toda la informacin disponible y su estructura fundamental.

Sin embargo, en muchas ocasiones resulta complicado interpretar


toda esa extensa informacin, por lo que se intentar resumir mediante
una serie de medidas obtenidas a partir de las distribuciones de
frecuencias.
Medidas de posicin: Sintetizan la informacin obtenida
reducindola a un solo valor.

Medidas de dispersin: Determinan si las medidas de posicin


TIPOS DE MEDIDAS son representativas o no del conjunto de datos.

Medidas de forma: Establecen una distincin de las


distribuciones segn la forma de su representacin grfica.

Medidas de concentracin: Hacen referencia al mayor o menor


grado de equidad en el reparto total de los valores de la variable. EE I 24
Medidas de posicin
Para tener un valor que represente un fenmeno, en lugar de manejar
todos los datos, la distribucin de frecuencias se puede caracterizar
mediante las medidas de posicin, alrededor de las cuales, se
encuentran distribuidos los valores de la variable.

Las medidas de posicin incluyen a las medidas de tendencia


central o promedios (media aritmtica, geomtrica, armnica, mediana y
moda) y a las medidas no centrales (cuantiles).

Con respecto a las medidas de tendencia central, stas deben reunir


las siguientes caractersticas:
z La caracterstica del valor central debe ser definida objetivamente, a partir de los
datos de la distribucin de frecuencias.
z Debe basarse en todas las observaciones de la serie, para que represente a la
distribucin.
z No debe tener un carcter matemtico muy abstracto, debe ser concreta y sencilla.
z Debe ser fcil de calcular.
z Ha de adaptarse con facilidad a clculos algebraicos posteriores. EE I 25
Media aritmtica: Es la suma de todas las observaciones dividida entre
el tamao de la poblacin o muestra.
x1.n1 + x2 .n2 + ... + xk .nk k
x .n
x= = i i
N i =1 N

Nota: Para distribuciones de frecuencias agrupadas en intervalos, se


utilizarn las marcas de clase Xi en lugar de los valores de la variable.
PROPIEDADES:
Ejemplo:
1) La suma de las desviaciones de los valores
xi ni xi.ni respecto a su media es cero.
k

2 3 6 ( x x ).n
i =1
i i =0

3 4 12 2) Si sumamos o restamos a todos los valores una


constante k, la media aumentar o se reducir en esa
5 2 10 constante. Luego, la media aritmtica queda afectada
6 1 6 por los cambios de origen.

10 34 3) Multiplicando o dividiendo los valores de X por


una constante k, la media quedar multiplicada o
x = 3'4 dividida por dicha constante. Por tanto, tambin le
afectan los cambios de escala. EE I 26
Ejercicio: Sea X una variable de media x y sea X a
Z= (a y b
constantes). Demostrar que: x = a + b.z b

Ventajas Inconvenientes
- Es fcil de calcular. - Es bastante sensible a valores
- Intervienen todos los valores de la extremos, lo cual puede distorsionar
variable su valor y su representatividad.

Ejercicio: Sean las calificaciones (entre 0 y 50) obtenidas para 5 alumnos


las siguientes: 0.4, 0.8, 1.0, 1.4, 50. Obtener la media aritmtica y
estudiar la representatividad de la misma.
x = 10.72

Media geomtrica: Es la raz N-sima del producto de los valores de la


variable elevados a sus respectivas frecuencias absolutas. Es de utilidad
en problemas relativos a nmeros ndices. k
ni . log xi
Es la media aritmtica de
k los logaritmos de los
G = N x . x ... x
n1
1
n2
2
nk
k = N xini log G = i =1
valores de la variable
i =1 N EE I 27
Ventajas Inconvenientes
- Es menos sensible que la media - Su significado estadstico es menos
aritmtica a valores extremos. intuitivo que el de la media aritmtica.
- Intervienen todos los valores de la variable - Su cmputo es ms difcil que el de la
media aritmtica.
- Si un valor de la variable es 0, la media
geomtrica no ser representativa.

NOTA: Qu ocurrir si alguno de los valores de la variable es negativo?


Se podr determinar?
Ejemplo:
xi ni log xi ni. log xi
2 3 0.30103 0.90309
3 4 0.47712 1.90848
5 2 0.69897 1.39794
6 1 0.77815 0.77815
10 4.98766

log G = 0.498766 G = anti log 0.498766 = 3.1533


EE I 28
Media armnica: Es la inversa de la media aritmtica de los inversos de
los valores de la variable. Su aplicacin resulta adecuada cuando se
promedian velocidades y tasas de tiempo.
N N
H= k
=
ni n1 n2 nk

i =1 xi
+
x1 x2
+ ... +
xk

Ventajas Inconvenientes
- Intervienen todos los valores de la -Influencia de los valores pequeos de la
variable. variable, destacando su no determinacin
- En algunos casos, es ms representativa cuando alguno de los valores de la variable
que la media aritmtica. es igual a 0.

Ejemplo: Un coche recorre 60 Km a 50 Km/h y 40 Km a 70 Km/h. Obtener


la velocidad media. Velocidad media
50 + 70 s 100
Usando la media aritmtica: = 60 Km / h v= = = 56.4 Km / h
2 t 60 + 40
50 70
s 60 40 60 40
v= t1 =
50
horas t 2 =
70
horas Tiempo total : t = t1 + t 2 = +
50 70
Usando la media armnica:
t H=
N
=
100
= 56.4 Km / h
n1 n2 60 40
+ +
x1 x2 50 70
RELACIN ENTRE LOS TRES PROMEDIOS: H G x EE I 29
Moda: Es el valor de la variable que ms veces se repite, luego ser el
que tenga una mayor frecuencia absoluta asociada (o mayor densidad de
frecuencia) en la distribucin de frecuencias.

DISTRIBUCIONES NO AGRUPADAS EN INTERVALOS:

Mo = x j / n j = max ni
i

Ejemplos: Determinar la moda de cada una de las distribuciones de


frecuencias siguientes:

xi ni xi ni
1 3 0 2
2 4 2 9
8 8 3 9
15 10 8 8
21 1 9 6
26 34

EE I 30
DISTRIBUCIN AGRUPADA EN INTERVALOS: En este caso, primero
se determinar el intervalo modal, que ser aquel que tenga asociado
una mayor frecuencia absoluta (si la amplitud es constante) o densidad
de frecuencia (si la amplitud es variable).

INTERVALO MODAL
[ Lj,Lj+1)

Distribucin de frecuencias agrupada Distribucin de frecuencias agrupada


en intervalos de amplitud constante en intervalos de amplitud variable
[ L j , L j +1 ) / n j = max ni [ L j , L j +1 ) / d j = max d i
i =1,..., k i =1,..., k

Una vez determinado el intervalo modal, habr que darle a la moda


un valor puntual dentro de ese intervalo. Para ello, usaremos dos
mtodos basados en el principio de que la moda estar ms cerca del de
aquel intervalo contiguo que posea una frecuencia absoluta o densidad
de frecuencia mayor, segn sean los intervalos de amplitud constante o
variable.
EE I 31
Ejemplo: Determinar el intervalo modal para la siguiente distribucin de
frecuencias.

Qu extremo del intervalo modal


est ms cercano a la moda?

EE I 32
di

di+1

di-1
h

Li Li+1

Los mtodos utilizados para obtener la moda son los siguientes:

(a) Mtodo de las frecuencias: Las distancias de la moda a los


intervalos contiguos son inversamente proporcionales a las frecuencias (o
densidades de frecuencias) contiguas.
h d d i +1 d i +1
= i +1 h = ai Mo = Li + ai
ai h d i 1 d i 1 + d i +1 d i 1 + d i +1
EE I 33
(b) Mtodo de la diferencia de frecuencias: Las distancias de la moda
a los intervalos contiguos son directamente proporcionales a las
diferencias contiguas de frecuencias (o densidades de frecuencia).

h h hi 1 hi 1
= i 1 h = ai Mo = Li + ai
ai h hi +1 hi 1 + hi +1 hi 1 + hi +1
con hi 1 = d i d i 1 y hi +1 = d i d i +1
NOTAS:
- El valor de la moda no coincide por ambos mtodos, ya que son ambos mtodos aproximados.
- Si la amplitud de los intervalos es constante, las densidades de frecuencia se sustituyen por las
frecuencias absolutas.

Ejemplo: Para el ejemplo de la distribucin de edades se obtiene el


siguiente valor de la moda en cada caso..

3
Mo = 1 + 2 = 1,857
4+3
54 1
Mo = 1 + 2 = 1+ 2 = 1,666
(5 4) + (5 3) 1+ 2
EE I 34
Mediana: Es aquel valor tal que, una vez ordenados los valores de la
variable en orden creciente, deja a su izquierda y a su derecha igual
nmero de frecuencias.

DISTRIBUCIONES NO AGRUPADAS EN INTERVALOS:


N impar La mediana ser el dato que ocupa la posicin (N+1)/2

La mediana ser la media aritmtica de los datos que ocupan las


N par
posiciones N / 2 y N / 2 + 1.
Ejemplos: Obtener la mediana en cada distribucin de frecuencias.
xi ni Ni xi ni Ni
1 25 25 2 2 2
2 10 35 3 3 5
3 15 50 4 1 6
4 2 52 5 5 11
5 3 55 6 1 12
55 12
EE I 35
DISTRIBUCIONES AGRUPADAS EN INTERVALOS:

Usando el polgono acumulativo de frecuencias, determinaremos el


intervalo mediano, buscando el valor en el eje de las abscisas al que le
corresponde una valor de N / 2 en el polgono acumulativo.
Distribucin de las edades de 12 jvenes.

[Li ,Li+1) ni Ni
[2,4) 2 2
[4,7) 3 5
[7,9) 2 7
[9,12) 1 8
Ni=
[12,20) 4 12
12
Ni-1=
Teorema de Tales
h sobre ABC
a c h N / 2 N i 1
= =
b d ai ni
N / 2 N i 1
h= ai
Li= =Li+1
ni EE I 36
Por tanto, para obtener la mediana, usaremos la expresin:
N
N i 1
Me = Li + 2 ai
ni

Ejemplo: Obtener la mediana asociada a la distribucin de frecuencias del


ejemplo anterior.
65
Me = 7 + 2=8
2

Ventajas Inconvenientes
- Facilidad de clculo. - En su determinacin no intervienen todos
- No es sensible a valores extremos, ya que los valores de la variable, por lo que no
no los tiene en cuenta. utiliza toda la informacin disponible.

NOTA: Las ventajas e inconvenientes coinciden tambin para el caso de la moda.

EE I 37
RELACIONES ENTRE LAS MEDIDAS DE TENDENCIA CENTRAL:

La media aritmtica da mucha importancia a los valores extremos de la


distribucin, mientras que la media geomtrica y la armnica destacan la
influencia de los valores pequeos y reducen la de los grandes.

En las distribuciones unimodales la mediana siempre est comprendida entre


la media aritmtica y la moda, pudiendo llega a coincidir con alguna o con
ambas.

La conveniencia de una u otra medida depender del tipo de variable analizada


y de los fines de la investigacin. As, en el caso de los atributos, slo tendr
sentido el clculo de la moda, que ser la modalidad ms frecuente.
Ejemplo: Supongamos una
distribucin sobre los Km en
los que estn situados los
barrios de un municipio.
Dnde localizaras el
EE I 38
ayuntamiento y el hospital?
Cuantiles: Son los valores de la distribucin que la dividen en partes
iguales. Dentro de ellos tenemos los cuartiles, deciles y percentiles.

CUARTILES: Son 3 valores de la distribucin que la dividen en 4 partes, de modo que


cada una engloba el 25 % de los datos.

DECILES: Son 9 valores de la distribucin que la dividen en 10 partes, de modo que


cada una engloba el 10 % de los datos.
PERCENTILES: Son 99 valores de la distribucin que la dividen en 100 partes, de
modo que cada una engloba el 1 % de los datos.
En el caso de distribuciones no agrupadas en intervalos, para obtener Qk, Dk y Pk, se
proceder de manera similar al caso de la mediana, pero ahora con k.N/4, k.N/10 y
k.N/100, respectivamente. Para las distribuciones agrupadas, se usarn las expresiones:

Ejemplo: Obtener, para la distribucin de edades anterior, Q1, D6 y P73.EE I 39


Medidas de dispersin
Las medidas de posicin permitan sintetizar la informacin proporcionada
por la distribucin de frecuencias, sin embargo conviene estudiar el grado de
representatividad que poseen como sntesis de toda la informacin. Medir la
representatividad de estas medidas equivale a cuantificar la separacin de los
valores de la distribucin respecto a esa medida (dispersin o variabilidad). De
esta forma se introducen las medidas de dispersin, con el fin de mostrar el
grado de representatividad de las medidas de posicin.

Ejemplo: Supongamos dos


situaciones distintas en las
que la edad media del
fallecimiento en carretera
es de 40 aos. En cul de
los dos casos ser la
media aritmtica ms
representativa?
EE I 40
ABSOLUTAS: Son aquellas que vienen
expresadas en unas determinadas unidades.
MEDIDAS DE DISPERSIN
RELATIVAS: Son aquellas que carecen de
unidades (son adimensionales).

Medidas de dispersin absolutas:

Existen algunas medidas que hacen referencia a la dispersin de la


distribucin, pero que no indican nada sobre la representatividad de
las medidas de posicin.
Ejemplo: Obtener el rango y el recorrido
Rango o recorrido intercuartlico de la siguiente distribucin de
frecuencias:
R = xk x1 R = 5 2 = 3 RI = 4 2 = 2 xi ni
2 3
Recorrido intercuartlico 3 4
RI = Q3 Q1 4 2
5 1 EE I 41
Para medir la representatividad de una medida de tendencia central P
parece lgico emplear las distancias de todas la observaciones
respecto de ella.

k
( xi P).ni
( xi P).ni
i =1 N
(Media de las desviaciones respecto a P)

Sin embargo, algunas desviaciones (xi-P) sern positivas y otras


negativas, con lo que se compensarn, obtenindose una dispersin
inferior a la real. Para evitar esto, se consideran desviaciones
absolutas y cuadrticas.
Sustituyendo P por medidas
| x P | .ni
k k
2 de posicin concretas, se
D= i
( x P ) .ni
D2 = i obtendrn varias medidas de
i =1 N i =1 N dispersin.
EE I 42
Desviacin media Desviacin media Desviacin media
respecto a la media respecto a la mediana respecto a la moda
k
| x x | ni k
| x Me | ni k
| x Mo | ni
Dx = i DMe = i DMo = i
i =1 N i =1 N i =1 N

NOTA: Estas tres medidas de dispersin vienen expresadas en las


mismas unidades de los valores de la variable.
Ejemplo: Determinar las medidas de dispersin anteriores para la
siguiente distribucin de frecuencias:

xi ni xini |xi-x|.ni |xi-Me|.ni |xi-Mo|.ni


2 3 6 3.3 3 3
3 4 12 0.4 0 0
4 2 8 1.8 2 2
5 1 5 1.9 2 2
10 31 7.4 7 7

x = 3.1 Me = 3 Mo = 3 Dx = 0.74 DMe = 0.7 DMo = 0.7 EE I 43


Varianza
xi2 ni
k
k
( xi x ) ni
2
S =
2
x2
S2 = i =1 N
i =1 N

Ejemplo: Obtener la varianza de la siguiente distribucin de frecuencias:


xi ni xini xi2.ni
2 3 6 12
3 4 12 36 105
S x2 = 3.12 = 0.89 unidades 2
4 2 8 32 10
5 1 5 25
10 31 105

Ventajas Inconvenientes
-Es una buena medida de dispersin - Viene expresada en una unidad distinta a
cuando se ha utilizado la media como la de la variable, concretamente, en las
medida de posicin. unidades de la variable al cuadrado.
EE I 44
PROPIEDADES DE LA VARIANZA:

(1) La varianza nunca puede ser negativa, es decir, 0 S2 < +


.
(2) A mayor varianza, mayor dispersin de los valores en torno a la
media.
(3) Si a todos los valores de la variable le sumamos una constante h, la
varianza permanece inalterada.
Sea X una v.a., y definimos Z = X + h. Entonces SZ2 = SX2.

Intuitivamente, las desviaciones en


torno a la media se mantienen.

(4) Si multiplicamos todos los valores de la variable por una constante h,


la varianza se multiplicar por el cuadrado de dicha constante.
Sea X una v.a., y definimos Z = X . h. Entonces SZ2 = h2. SX2.
EE I 45
Desviacin tpica
o estndar Al considerar la raz cuadrada de la varianza, se
obtiene una medida que viene expresada en las
S X = + S X2 mismas unidades que los valores de la variable.

Ejemplo: Calcular la desviacin tpica de la distribucin de frecuencias del


ejemplo anterior.

S X = 0.89 = 0.943

EE I 46
Medidas de dispersin relativas:

Estas medidas se caracterizan por su adimensionalidad (ausencia de unidades),


lo que permite comparar la representatividad de las medidas de posicin en dos
distribuciones de frecuencias, an cuando vengan expresadas en diferentes
unidades de medida.
Ejemplo: El dinero que gasta diariamente en mquinas tragaperras un rico ludpata
tiene por media 40.000 ptas y por desviacin tpica 5.000 ptas, mientras que la
distribucin del dinero gastado por otro vicioso ms moderado tiene por media 800 ptas
y por desviacin tpica 500 ptas. Cul presentar una mayor dispersin?

Las medidas de dispersin relativas son el cociente entre una medida de


dispersin absoluta y su correspondiente medida de posicin.

Coeficiente de variacin Este coeficiente mide el nmero de veces en tantos por


de Pearson uno o en porcentaje, segn se exprese, que la desviacin
tpica SX, contiene a la media aritmtica. Por tanto, cuanto
S S
CVP = CVP = 100 mayor sea CVP, ms dispersos estarn los datos y por
|x| |x| tanto menos representativa ser la media aritmtica.
EE I 47
Ejemplo: Para comparar la dispersin en el ejemplo anterior, utilizaremos
el CVP.
5000 500
CVPX = = 0'125 CVPY = = 0'625
40000 800

Luego, la dispersin del dinero gastado por el vicioso moderado es mayor


que la del ludpata rico. As, el ludpata rico es ms constante en su
gasto, estando sus gastos diarios ms prximos al gasto medio.

Coeficiente de variacin Coeficiente de variacin Coeficiente de variacin


respecto a la media respecto a la mediana respecto a la moda
Dx DMe DMo
CVM ( x ) = CVM ( Me) = CVM ( Mo) =
|x| | Me | | Mo |
D D D
CVM ( x ) = x .100 CVM ( Me) = Me .100 CVM ( Mo) = Mo .100
|x| | Me | | Mo |

Este ndice mide el nmero de veces (o porcentaje) que la desviacin media


respecto a cada medida de posicin P contiene a dicha medida P. Cuanto mayor
sea CVM, menos representativa ser la medida de posicin P.
EE I 48
Momentos
Los momentos son valores que caracterizan a una distribucin, de
manera que dos distribuciones son iguales si todos sus momentos lo
son.
Momento de orden r respecto a P
( xi P) r ni
k
M r ( P) =
i =1 N
P=0 P= x

Momentos respecto al origen Momentos centrales o respecto


a la media
k
xir ni
ar = k
( xi x ) r ni
i =1 N
mr =
i =1 N
Casos particulares: Casos particulares:
k
xn k
xi2 ni k
( xi x ) 3 ni
a0 = 1 a1 = i i = x a2 = m0 = 1 m1 = 0 m2 = S 2
m3 =
i =1 N i =1 N i =1 N EE I 49
Relaciones entre los momentos:

m2 = a2 a12

EE I 50
Medidas de forma
Las medidas de forma establecen una tipologa de las distribuciones
segn la forma de su representacin grfica. Se van a clasificar en:
medidas de asimetra y medidas de curtosis o apuntamiento.

MEDIDAS DE ASIMETRA: Su finalidad es elaborar un indicador que


permita establecer el grado de asimetra de los valores de la variable en
la distribucin sin necesidad de llevar a cabo su representacin grfica.
Se dice que la distribucin de Distribucin simtrica unimodal
frecuencias es simtrica si
existen pares de valores P = x = Me = Mo
equidistantes a la media
aritmtica y los valores de
cada par tienen las mismas
frecuencias. Entonces, si la
distribucin es unimodal, se
verificar que:
x = Me = Mo EE I 51
Distribucin simtrica bimodal: Puede ser campaniforme o en forma de U.

CAMPANIFORME

P = x = Me

EN FORMA DE U

P = x = Me

EE I 52
Distribucin asimtrica : Puede serlo a la derecha o a la izquierda.

Una distribucin es
asimtrica a la derecha o
positiva si la distribucin
se orienta ms hacia la
derecha que a la izquierda
de la media aritmtica (los
datos estn ms dispersos
a la derecha de la media).

Una distribucin es
asimtrica a la izquierda
o negativa si la
distribucin se orienta ms
hacia la izquierda que a la
derecha de la media
aritmtica (los datos estn
ms dispersos a la
izquierda de la media).
EE I 53
Si la distribucin es asimtrica a la derecha, de las dos ramas de la curva que
separa la media, la de la derecha es ms larga que la de la izquierda. Si es
asimtrica a la izquierda, ocurrir lo contrario.

Para medir el grado de asimetra de una distribucin o compararlo con el de


otra, podemos utilizar el coeficiente de asimetra de Pearson y el de Fisher.

COEFICIENTE DE ASIMETRA COEFICIENTE DE ASIMETRA


DE PEARSON DE FISHER
x Mo m3 a3 3a1a2 + 2a13
Ap = g1 = 3 =
S S S3
A p < 0 Asimtrica a la izquierda g 1 < 0 Asimtrica a la izquierda
A p = 0 Simtrica g 1 = 0 Simtrica
g 1 > 0 Asimtrica a la derecha
A p > 0 Asimtrica a la derecha
EE I 54
Coeficiente de asimetra de Pearson Coeficiente de asimetra de Fisher
VENTAJAS VENTAJAS
- Facilidad de clculo - Es ms preciso que el de Pearson,
pudiendo aplicarse en cualquier caso.
INCONVENIENTES INCONVENIENTES
- Slo se puede utilizar si la distribucin - Su clculo no es tan inmediato como
es unimodal y campaniforme. el de Pearson.
- Al basarse slo en la distancia entre
la media y la moda, no es muy precisa.

Ejemplo: Indicar el grado de asimetra xi ni xi.ni xi2.ni xi3.ni xi4.ni


que presenta la siguiente distribucin
1 2 2 2 2 2
de frecuencias:
2 3 6 12 24 48
x Mo 3 3
Ap = = =0 3 5 15 45 135 405
S 1'211
3 4 3 12 48 192 768
603 45 157 45
3 + 2
a3 3a1a2 + 2a13 15 15 15 15 = 0 5 2 10 50 250 1250
g1 = 3
= 3
S 1'211 15 45 157 603 2473 EE I 55
MEDIDAS DE CURTOSIS O APUNTAMIENTO:

Existe un tipo de distribucin campaniforme


y simtrica, de manera que la mayora de los
valores estn cerca de la media, y a medida
que nos alejamos de sta, las frecuencias
disminuyen. Es la distribucin normal.

Las medidas de apuntamiento comparan


cualquier distribucin de forma campaniforme
y simtrica con la distribucin normal.
(mesocrtica)

(ms apuntada que la normal) (menos apuntada que la normal)


EE I 56
Para medir el apuntamiento y comparar ste con el de otra
distribucin se utiliza el coeficiente de apuntamiento de Fisher.

COEFICIENTE DE APUNTAMIENTO
DE FISHER
m4 a4 4a1a3 + 6a12 a2 3a14
g2 = 4 =
S S4
g 2 < 3 Platicrtica
g 2 = 3 Mesocrtica
g 2 > 3 Leptocrtica

El coeficiente de apuntamiento de Fisher tambin nos permite


determinar, sin necesidad de la representacin grfica, si la distribucin
es campaniforme o en forma de U. La frontera entre ambos tipos de
distribuciones es la distribucin uniforme, para la que g2 = 18. As:
g 2 < 1'8 En forma de U
g 2 = 1'8 Uniforme
g 2 > 1'8 Campaniforme
Ejemplo: Para el ejemplo anterior se obtiene un valor g2 = 217, qu
podras comentar acerca de su apuntamiento y forma?
EE I 57
Medidas de concentracin
Las medidas de concentracin reflejan el mayor o menor grado de
igualdad o equidad en el reparto total de los valores de la variable.

Ejemplo: En una distribucin estadstica de rentas, desde el punto de vista de la


equidad econmica, ni la media ni la varianza son significativas. Lo que
verdaderamente interesa es la mayor o menor igualdad en su reparto entre los
componentes de la poblacin.
Sean h individuos cuyos salarios son x1, x2, ..., xh.
h
P = xi = " Dinero total repartido entre los h individuos ".
i =1
Las situaciones que se pueden presentar estn entre dos situaciones
extremas:
Concentracin mxima o Concentracin mnima o
menor equidad en el reparto mayor equidad en el reparto
0 para i = 1, 2, ..., h 1 P
xi = xi = i = 1, 2, ..., h.
P para i = h h
EE I 58
Para medir la concentracin se utilizan dos tipos de medidas: una de
tipo grfico (curva de Lorenz) y otra en forma de coeficiente (ndice de
Gini).

CURVA DE LORENZ:

Sea la distribucin de frecuencias (xi,ni), i=1,...,k, cuyos valores estn


ordenados de menor a mayor, x1 < x2 < ... < xn, donde X representa los
niveles de salarios percibidos por N individuos. Se definen los pares
(pi,qi), i=1,...,k, como:
Ni
pi = Fi = 100 pi = " porcentaje que representanlos N i primeros individuos"
N
i
ui
qi = 100, donde u i = x j n j qi = " porcentaje que representa el salario ui sobre el total de salarios u k "
un j =1

0 pi , qi 100

El par (pi,qi) informa del porcentaje de individuos, pi, que percibe un


porcentaje de salarios, qi, del salario total.

EE I 59
xi ni xi.ni Ni ui pi=(Ni/N).100 qi=(ui/uk).100

x1 n1 x1.n1 N1 u1 p1 q1
x2 n2 x2.n2 N2 u2 p2 q2
: : : : : : :
: : : : : : :
xk nk xk.nk Nk uk pk=100 qk=100
N uk

Esta distribucin de rentas se puede


materializar grficamente mediante la curva
de concentracin o curva de Lorenz. Para
obtenerla se dibuja un cuadrado cuyos lados
estn divididos en una escala de 0 a 100. En
el eje de abscisas se representa pi y en el de
ordenadas qi. A continuacin, representamos
los puntos (pi, qi), que al unirlos darn lugar
a la curva de Lorenz.
EE I 60
PROPIEDADES: CASOS EXTREMOS

Si los valores de la
variable estn ordenados
de menor a mayor, se
verifica que pi qi.
La curva de Lorenz se
situar entre los dos
casos extremos que se
consideran.

Ejemplo: Distribucin de los sueldos percibidos por los 300 trabajadores


de una empresa.
Sueldos Xi ni xi.ni Ni ui pi qi
(miles de ptas)
0 70 35 56 1960 56 1960 1867 539
70 100 85 84 7140 140 9100 4667 2502
100 150 125 96 12000 236 21100 7867 5801
150 300 225 59 13275 295 34375 9833 9450
300 500 400 5 2000 300 36375 100 100
300 36375 EE I 61
Para el ejemplo anterior, la curva de Lorenz obtenida ser:

EE I 62
NDICE DE GINI:

Con el ndice de Gini se pretende obtener un indicador que exprese el


grado de concentracin manifestado, desde el punto de vista grfico, con
la curva de Lorenz.

k 1

(p q ) i i
CASOS EXTREMOS
IG = i =1
k 1
, 0 IG 1 Concentracin mnima: Concentracin mxima:
p
i =1
i pi = qi , i = 1, ..., k. qi = 0 , i = 1, ..., k-1.
k 1 k 1 k 1
(p q ) i i
0 (p q ) p i i i

Cuanto ms prximo est el IG = i =1


k 1
= k 1
=0 IG = i =1
k 1
= i =1
k 1
=1
ndice de Gini a 0, menor p
i =1
i p
i =1
i p i p i
i =1 i =1
concentracin existir, por lo
que habr una mayor equidad
en el reparto de salarios.

Ejemplo: Obtener el ndice de Gini para la distribucin de frecuencias


anterior.
EE I 63
pi qi pi - qi k 1

1867 539 1328


(p q ) i i
59'42
IG = i =1
k 1
= = 0'24
p
4667 2502 2165 242'32
i
7867 5801 2066 i =1

k-1 9833 9450 383 Por tanto, podemos concluir que la distribucin est poco
24232 5942 concentrada, estando los salarios bastante bien repartidos.
Si bien el ndice de Gini tiene la ventaja de resumir en una sola cifra las
complejas informaciones expresadas en la curva de Lorenz, puede
darse el caso de que dos distribuciones de frecuencias diferentes
presenten el mismo valor del ndice de Gini, an siendo la estructura del
reparto de los valores de cada variable diferentes.
Ejemplo: Las distribuciones de
frecuencias A y B generan las curvas
de Lorenz siguientes, que muestran
una estructura de reparto distinta. Sin
embargo, puede comprobarse que: .

I GA = I GB
EE I 64
Estadstica Empresarial I

Tema 4

Distribuciones de frecuencias
q-dimensionales

EE I - Carlos G. Garca Gonzlez - ULL 65


Introduccin
En el tema anterior estudiamos las caractersticas ms importantes que
presentaba una variable X considerada de forma aislada. Sin embargo, para una
poblacin o muestra determinada, se pueden estudiar simultneamente dos o
ms caracteres diferentes.

Ejemplo: Sobre un grupo de empresas podemos observar sus ingresos (X) y sus gastos (Y),
o bien, su nmero de trabajadores (X), los salarios que perciben (Y) y las horas de trabajo
que realizan (Z). Sobre un grupo de personas estudiamos su altura (X) y su peso (Y).

El objetivo de este anlisis simultneo de 2 o ms caracteres es estudiar las


posibles relaciones entre ellos para detectar algn tipo de dependencia o
variacin conjunta (covariacin).

En este tema vamos a estudiar cuestiones generales como son la tabulacin,


representacin grfica, distribuciones marginales y condicionadas, as como
los momentos, tanto para el caso bidimensional como para el q-dimensional.

Independencia Dependencia estadstica Dependencia funcional


Ausencia de relacin Existe relacin aunque no funcional Funcin matemtica que los relacina EE I 66
Distribuciones bidimensionales: Tabulacin
Una distribucin bidimensional est formada por el conjunto de
pares de valores de dos caracteres (xi,yj), dispuestos mediante una tabla
de doble entrada llamada tabla de correlacin.

X\Y y1 y2 .. yj .. yk ni. Frecuencia absoluta conjunta nij:


N de veces que se presenta el par (xi,yj).
x1 n11 n12 .. n1j .. n1k n1. n ij
x2 n21 n22 .. n2j .. n2k n2. Frecuencia relativa conjunta: f ij =
N
: : : .. : .. : : Frecuencia absoluta marginal:
k h
xi ni1 ni1 .. nij .. nik ni. n i. = n ij n . j = n ij
: : : .. : .. : : j=1 i =1

Frecuencia relativa marginal


xh nh1 nh2 .. nhj .. nhk nh. n i. n. j
n.j n.1 n.2 .. n.j .. n.k N f i. = f. j =
N N
h k h k h k

n
i =1 j=1
ij =N f
i =1 j=1
ij =1 n
i =1
i. =N n j=1
.j =N
EE I 67
Ejemplo: En una determinada oposicin se quiere estudiar la relacin
entre la edad de los 15 aspirantes (X) y la calificacin que han obtenido
(Y). A partir de las observaciones obtener la tabla de correlacin.

X 23 25 26 26 25 21 28 23 28 22 26 26 22 26 26
Y 3 3 4 3 8 4 5 5 5 4 3 3 6 3 4

Cuando la distribucin tenga pocas observaciones, aunque la tabla de


correlacin siga siendo vlida, resulta ms cmodo tabular tabular los
datos en columnas de la siguiente forma:

xi yj ni Ejemplo: A continuacin se muestran las edades (X)


x1 y1 n1 y nmero de hijos (Y) de un grupo de mujeres.
x2 y2 n2
X 28 29 29 29 30 32
: : :
Y 2 1 1 3 4 1
xk yk nk
N Tabular los datos de manera adecuada.
EE I 68
Distribuciones marginales y condicionadas
DISTRIBUCIONES MARGINALES DISTRIBUCIONES CONDICIONADAS
Partiendo de una distribucin Partiendo de una distribucin
bidimensional, nos puede interesar estudiar bidimensional, podemos determinar otro
aisladamente cada una de las variables sin tipo de distribuciones unidimensionales,
hacer referencia alguna a los valores de la fijando una determinada condicin. As,
otra. De esta manera, obtenemos dos obtendremos la distribucin de X
distribuciones marginales, una respecto condicionada a que Y = yj, as como la de
de X y otra respecto de Y. Y condicionada a que X = xi.

X Y X Y
n ij
xi ni. yj n.j xi / Y=yj ni/j yj / X=xi nj/i n ij f
fi / j = = N = ij
x1 n1. y1 n.1 x1 n1j y1 ni1 n . j n . j f. j
N
x2 n2. y2 n.2 x2 n2j y2 ni2 n ij
: : : : : : : : f j/ i
n
= ij = N = ij
f
n i. n i. f i.
xh nh. yk n.k xh nhj yk nik N
N N n.j ni.
EE I 69
Ejemplo: Para el ejemplo anterior de la oposicin, obtener:

X (edad) 23 25 26 26 25 21 28 23 28 22 26 26 22 26 26
Y (nota) 3 3 4 3 8 4 5 5 5 4 3 3 6 3 4

(a) Distribuciones marginales respecto de X y de Y.


(b) Distribucin de las edades de los aspirantes que obtuvieron un 4 de
puntuacin.
(c) Distribucin de las puntuaciones para los aspirantes de 22 aos.
(d) Son X e Y independientes?
INDEPENDENCIA ESTADSTICA:

n i. n . jn ij
X e Y son independientes f ij = = = f i.f. j , i, j
N N N
Si X e Y son independientes estadsticamente, entonces fi/j = fi. y fj/i = f.j
nij ni. n. j nij ni. n. j
n n n n
fi / j = ij = N = N N = i. = f i. f j /i = ij = N = N N = . j = f. j
n. j n. j indep n. j N ni. ni. indep ni. N
N N N N EE I 70
Distribuciones Q-dimensionales
Habitualmente, en los problemas reales intervienen ms de dos
caractersticas, por lo que se hace necesario el estudio de las distribuciones Q-
dimensionales.

Dada una variable Q-dimensional (X1, X2, ..., XQ), el conjunto de observaciones
de esta variable acompaadas de sus correspondientes frecuencias absolutas
conjuntas, constituye la distribucin conjunta Q-dimensional, que se tabula de
la siguiente forma:
X1 X2 ... XQ n ( X1 ,X 2 ,...,X Q ) X Y Z n ( X ,Y , Z)
x11 x21 ... xQ1 n1 x1 y1 z1 n1
x12 x22 ... xQ2 n2 x2 y2 z2 n2
... ... ... ... ... ... ... ... ...
Q=3
x1i x2i ... xQi ni xi yi zi ni
... ... ... ... ... ... ... ... ...
x1h x2h ... xQh nh xh yh zh nh
N N EE I 71
DISTRIBUCIONES MARGINALES Y CONDICIONADAS DE (X,Y,Z)

Unidimensionales: Marginales respecto de X, de Y y


de Z. Se obtienen considerando individualmente cada
Distribuciones variable, prescindiendo de los valores de las otras dos.
marginales
Bidimensionales: Marginales respecto de (X,Y), de
(X,Z) y de (Y,Z). Se obtienen prescindiendo de los
valores de una de las tres componentes y
considerando la distribucin conjunta de las otras dos.
Anlogamente, las distribuciones condicionadas podrn ser
unidimensionales y bidimensionales.
X Y Z n ( X ,Y , Z)
Ejemplo: Para la siguiente distribucin de frecuencias 1 2 3 2
tridimensional, obtener: 2 3 1 1
(a) Distribucin marginal respecto de X. 3 1 2 3
(b) Distribucin respecto de (X,Y). 2 3 4 2
(c) Distribucin de Z condicionada a que X=2 e Y=3. 4 1 1 1
(d) Distribucin de (X,Y) condicionada a que Z=1. 3 4 2 4
1 4 3 2 EE I 72
Momentos bidimensionales. Independencia.
Momentos de rdenes r y s respecto
a los parmetros P y Q
h k ( x i P) r ( y j Q) s n ij
M r s (P, Q) =
i =1 j=1 N
P = 0, Q = 0 P = x, Q = y

Momentos de rdenes r y s Momentos de rdenes r y s respecto


respecto al origen a la media (o centrales)
h k x ir y sj n ij ( x i x ) r ( y j y) s n ij
a r s =
h k
m r s =
i =1 j=1 N i =1 j=1 N

Casos particulares: Casos particulares:


a 10 = x a 01 = y m10 = 0 m 01 = 0
h
( x i x ) 2 n i. k ( y j y) 2 n . j
y 2j n . j = m02 =
h 2 k
a 20 =
x n i.
i
a 02 = m 20 = S2X = S2Y
N N i =1 N j=1 N
i =1 j=1

EE I 73
COVARIANZA Se trata de una medida que hace referencia a
la dependencia lineal existente entre ambas
h k ( x i x ) ( y j y) n ij variables. Si la covarianza es positiva, las
m11 = = SX Y dos variables varan en el mismo sentido, y si
i =1 j=1 N
es negativa, lo harn en sentido opuesto.

Relaciones entre los momentos centrales


y los momentos respecto al origen
m 2 0 = a 2 0 a 120 m 0 2 = a 0 2 a 021 m11 = a 11 a10 . a 01

Ejercicio: Sea una distribucin bidimensional (X,Y), y otra (Z,W)


construida a partir de la anterior de manera que: Z = X P y W = Y Q
a b
S
Comprobar que: X Y = a . b. S ZW

INDEPENDENCIA Y COVARIACIN:

Si X e Y son independientes SXY = 0 Comprobar que a11 = a10.a01

Nota: El recproco, en general, no es cierto.


EE I 74
Momentos Q-dimensionales.
Matriz de covarianzas.
Momentos de rdenes r1, r2, ..., rQ respecto
a los parmetros P1, P2, ..., PQ
( x1i P1 ) 1 ( x 2i P2 ) 2 ...( x Qi PQ ) Q n i
k r r r

M r1 r 2 ...r Q (P1 , P2 ,..., PQ ) =


i =1 N

Momentos de rdenes r1, r2, ..., rQ Momentos de rdenes r1, r2, ..., rQ
respecto al origen respecto a la media
(x1i x1) 1 (x2i x2 ) 2 ...(xQi xQ ) Q ni
r r r k r r r
x 11i x 22i ...x QiQ n i
mr1 r2...rQ =
k
a r1 r 2 ...r Q =
i =1 N i=1 N

MATRIZ DE COVARIANZAS
Casos particulares:
a100...0 = x1 a 010...0 = x 2 L a 00...01 = x Q S11 S12 L S1Q

S21 S22 L S2 Q
m 200...0 = S11 m 020...0 = S22 L m 00...02 = SQQ S=
M M M M
m1100...0 = S12 m10100...0 = S13 L m 00...011 = SQ 1Q S EE I 75
Q1 SQ 2 L SQQ
Estadstica Empresarial I

Tema 5

Regresin y correlacin
bidimensional y mltiple

EE I - Carlos G. Garca Gonzlez - ULL 76


Introduccin
A partir de una distribucin de frecuencias bidimensional (X,Y)
podemos determinar el grado de dependencia estadstica que existe
entre las distribuciones marginales X e Y, y analizar la relacin existente
entre ellas. Esto se llevar a cabo en dos procedimientos:

Explicar los valores que toma una de las variables (variable


dependiente) en funcin de los valores de la otra (variable
independiente). De esto se encargar la regresin.
Medir el grado de dependencia existente entre las variables, para lo
que se estudiar la correlacin.

Las tcnicas estadsticas de regresin y correlacin deben aplicarse


sobre variables entre las que se sepa que existe algn tipo de influencia,
ya que podra ocurrir que la dependencia estadstica fuera debida al azar
o bien fuera indirecta (existe una tercera variable que influye sobre
ambas).
Ejemplos: Nmero de nacimientos y nmero de aprobados en EE I; el gasto en vacaciones
y el gasto en electrodomsticos pueden moverse en la misma direccin debido a la renta. EE I 77
La regresin de Y sobre X consistir en encontrar una funcin que
explique el comportamiento de la variable Y a partir de los valores que
toma la variable X. De anloga forma, la regresin de X sobre Y
explicar el comportamiento de X a partir de los valores de Y.
Y = f (X)
Variable dependiente Variable independiente

Para encontrar estas funciones se suelen aplicar distintos mtodos de


ajuste. Por tanto, el ajuste consistir en encontrar la ecuacin de la curva
que ms se aproxime a las observaciones.

Elegir el tipo de funcin que mejor se adapte a los datos representados en la


nube de puntos.

Qu tipo de ajuste
plantearas en cada
caso?

Calcular los parmetros que caracterizan la funcin ajustada, mediante el


mtodo de los mnimos cuadrados (es el ms representativo). EE I 78
Ajuste mnimo-cuadrtico
Sean N observaciones (xi,yi), i = 1, ..., N, con frecuencia unitaria
(podemos suponerlo sin prdida de generalidad), de manera que al
representar su correspondiente diagrama de dispersin o nube de puntos,
decidimos ajustarle una funcin que depende de R parmetros.

Y = f ( X, a1, a2, ..., aR )

yi: valor observado


Dado xi
yti: valor terico o ajustado

yti = f ( xi, a1, a2, ..., aR )


RESIDUO: di = yi yti = yi - f ( xi, a1, a2, ..., aR )

La funcin de ajuste o curva de regresin de


Y sobre X ser aquella que minimice:
N
H = d i2
i =1 EE I 79
N N
min H = min d = min ( y i f ( x i , a1 ,..., a R )) 2
2
i
i =1 i =1

H H H
=0 =0 L =0
a1 a2 aR

AJUSTE LINEAL: H N N

a = 0 yi = N a + b x i
i =1 i =1
yti = f (xi, a, b) = a + b xi
H = 0 x y = a x + b x2
N N N

b
i =1
i i
i =1
i
i =1
i

AJUSTE PARABLICO: H N N N

a = 0 y i = N a + b x i + c x 2
i
i =1 i =1 i =1

H N N N N

yti = f (xi, a, b, c) = a + b x + c xi2 = 0 x i y i = a x i + b x i + c x 3i2

b i =1 i =1 i =1 i =1
H N N N N
= 0 x i y i = a x i + b x i + c x i4
2 2 3

c i =1 i =1 i =1 i =1

EE I 80
AJUSTE EXPONENCIAL:
N N

ln y i = N ln a + ln b x i
xi i =1 i =1
yti = f (xi, a, b) = a b N N N
x ln y = ln a x + ln b x 2
ln yti = ln a + xi ln b
i =1
i i
i =1
i
i =1
i

AJUSTE POTENCIAL:
N N

ln y i = N ln a + b ln x i
b i =1 i =1
yti = f (xi, a, b) = a x i N N N
ln x ln y = ln a ln x + b (ln x ) 2
ln yti = ln a + b ln xi
i =1
i i i =1
i
i =1
i

AJUSTE HIPERBLICO: N N
1
i y = N a + b
1 i =1 i =1 x i
yti = f (xi, a, b) = a + b N
xi 1 y =a
N
1 N
1

i + b 2
i =1 x i i =1 x i i =1 x i
EE I 81
TIPOS DE AJUSTES

EE I 82
Ejemplo 1: Ajustar a las siguientes Ejemplo 2: Ajustar a las siguientes
observaciones la funcin que mejor observaciones la funcin que
explique Y a partir de X. Los datos mejor explique Y a partir de X. Los
son: (1,2), (2,2), (3,5), (4,6), (5,8). datos son: (1,2), (2,18), (3,36),
(4,12), (5,1).

Y = - 02 + 16 X

Ejercicio: Ajustar a las siguientes


observaciones la funcin que mejor
explique Y a partir de X. Los datos son:
(1,05), (15,17), (2,4), (25,8), (3,135). Y = - 33 + 412 X 7 X2 EE I 83
Regresin Lineal. Coeficientes de regresin.
A partir de las ecuaciones del ajuste lineal por mnimos cuadrados
se van a obtener las rectas de regresin de Y sobre X y de X sobre Y:
N N
SXY

i =1
yi = N a + b x i
i =1


b =
S 2

N N N
X

2 SXY

i =1
x i yi = a x i + b x i
i =1 i =1


a = y 2 x
SX

Recta de regresin de Y sobre X


SXY
yy = 2
(x x)
SX

Recta de regresin de X sobre Y


SXY
xx = 2
( y y)
SY
EE I 84
Condicin suficiente de minimizacin:
Ajuste lineal
H
2
H
2

2 H 2 H
a2 ab = 2.N > 0
>0 y H= 2 >0 a 2
a 2
H H
2

ba b2 H = 2.N.S2X > 0

COEFICIENTES DE REGRESIN: Indican la pendiente de la recta de


regresin correspondiente.
SXY Recta de regresin SXY
Recta de regresin
b= 2 b' =
de Y sobre X de X sobre Y S2Y
SX
Ejercicio: Indicar cmo
se comportan las
pendientes de la rectas
de regresin segn el
signo de la covarianza.

EE I 85
Coeficiente de determinacin y de correlacin lineal
Una vez que se ha realizado un ajuste para tratar de explicar una
variable Y en funcin de otra variable X, necesitaremos obtener un
indicador de la bondad del ajuste planteado.

Varianza total (VT) Varianza residual (VR) Varianza explicada (VE)


( y i y) 2
N N N

VT = S =
2 d 2
i (y i yt i )2
VT = VE + VR
Y
i =1 N VR = S2ry = i =1
= i =1
EE I 86
N N
Para medir la bondad del ajuste planteado podra considerarse la
proporcin de la varianza total que queda explicada por la regresin.

2
VE VT VR VR S
Coeficiente de determinacin R2 = = = 1 = 1 r2y
VT VT VT SY
As, cuanto mayor sea el valor de R2, mejor ser el ajuste realizado, ya
que la varianza residual sera pequea.
R2 = 0 S2ry = S2Y (Ajuste psimo)
0 R2 1
R2 = 1 S2ry = 0 (Ajuste perfecto)
Para el caso de la regresin lineal, la varianza residual tomar el valor
2
siguiente: S2 = S2 SXY
ry Y
S2X
2 S2XY
SY SY 2
2

Coeficiente de S 2
S 2
S 2
S X S 2
r2 = 1 2 =
r y Y r y
= = XY
determinacin lineal SY S2Y S2Y S2X S2Y

NOTA: En el caso lineal, el coeficiente de determinacin R2 coincide para ambas


rectas de regresin. EE I 87
Coeficiente de SXY
r=
correlacin lineal simple r= r 2
SX SY

Este coeficiente est directamente relacionado con los coeficientes


de regresin lineal, b y b, ya que:
SY SX
r = b . b' b = r.
2
b' = r.
SX SY
Usando estas relaciones, las rectas de regresin pueden expresarse
de la siguiente forma:
Recta de regresin de Y sobre X Recta de regresin de X sobre Y
SY SX
yy = r (x x) xx =r ( y y)
SX SY

El signo de r vendr dado por el de la covarianza SXY, por lo que,


-1 r 1 si X e Y varan en el mismo sentido, r ser positivo, y si lo hacen
en sentido opuesto, r ser negativo.

EE I 88
CASOS POSIBLES:

Coinciden las dos


rectas de regresin

r = 1 CORRELACIN LINEAL r = -1 CORRELACIN LINEAL


PERFECTA POSITIVA PERFECTA NEGATIVA

r = 1 CORRELACIN LINEAL -1 < r < 0 CORRELACIN 0 < r < 1 CORRELACIN


NULA (No existe relacin lineal) LINEAL POSITIVA LINEAL NEGATIVA EE I 89
Cuanto ms se aleje r de 0, mejor ser el ajuste lineal planteado entre
ambas variables. El signo de r slo nos indicar el sentido de la variacin
entre X e Y.

En resumen:

A efectos de interpretar la bondad del ajuste lineal entre dos variables,


se suele utilizar con ms frecuencia el coeficiente de determinacin
lineal r2 en lugar del coeficiente de correlacin lineal r.
Si queremos obtener el sentido de variacin de ambas variables, s que
debemos recurrir a r (o bien a SXY).

Cuando se plantea un ajuste no lineal entre dos variables, debemos


obtener el coeficiente de determinacin general R2 para poder analizar
la bondad de dicho ajuste.
En este caso, no tiene mucho sentido hablar de coeficiente de
correlacin general R, ya que el signo carece de interpretacin.
EE I 90
Prediccin
La aplicacin ms interesante de la tcnica de regresin es la de
predecir valores de la variable dependiente para determinados valores de
la variable independiente, que no aparezcan en la distribucin de
frecuencias.

Cuando la prediccin se realiza para valores de la variable


independiente que pertenecen al intervalo de variacin de los datos
observados, de denomina interpolacin. Si la prediccin se hace para
valores de la variable independiente situados fuera de dicho intervalo,
recibe el nombre de extrapolacin.

EE I 91
Ejemplo: Supongamos que hemos obtenido una recta de regresin que
nos explica el gasto mensual por individuo en bebidas alcohlicas (Y) en
funcin del sueldo mensual (X). Predecir el gasto en bebidas alcohlicas
para un individuo que gana mensualmente 300000 ptas, y para otro que
gana 700000 ptas.

Y = - 20000 + 022 . X

A continuacin, comparar los valores


obtenidos con los obtenidos a partir
del grfico siguiente, al que se le han
aadido ms observaciones.
EE I 92
Algunas consideraciones que hay que tener en cuenta a la hora de
realizar predicciones son:

La fiabilidad de la prediccin ser mayor cuanto mejor sea el ajuste, es


decir, cuanto mayor sea el R2.

La fiabilidad de la prediccin disminuye a medida que nos alejamos de


los datos de partida.

Al ir ms all de los datos originales, la prediccin debe contemplarse


desde una perspectiva inferencial para abordarla correctamente,
quedando encuadrado fuera del marco de la Estadstica Descriptiva.

EE I 93
Estadstica Empresarial I

Tema 7

Nmeros ndices

EE I - Carlos G. Garca Gonzlez - ULL 94


Introduccin
Los nmeros ndices tratan de establecer una comparacin de una
serie de observaciones de una variable estadstica (normalmente
econmica) respecto a una situacin inicial fijada arbitrariamente.
Ejemplos: Para la variable precio de un artculo determinado:
-Cunto se ha incrementado el precio con respecto al ao 1995?
- Segn el nivel de vida de cada ao, cundo es ms caro, ahora o en 1995?

Habr que tener en cuenta dos aspectos:


Fijacin arbitraria del periodo inicial al que se referirn las
comparaciones, lo ms adecuada posible a los objetivos perseguidos.
Comparacin de magnitudes simples y complejas, lo que supone en
muchos casos la agregacin de magnitudes.
En definitiva, un nmero ndice es una medida estadstica abstracta
que muestra los cambios de una variable en un periodo actual respecto a
un periodo base o de referencia, temporal o espacial. La magnitud o
variable que se estudia suele ser el precio p, la cantidad q o el valor
v=p.q.
EE I 95
ndices Simples
Los ndices simples son aquellos que hacen referencia a una
magnitud medible. Dada una magnitud X y su evolucin temporal
(espacial):
T 0 1 2 ... t
X x0 x1 x2 ... xt

ndice simple de la magnitud X en el periodo actual t xt


I (X) =
t
100
respecto al periodo base 0. 0
x0
El ndice simple recoge el porcentaje de incremento o disminucin de
la magnitud de un solo bien o servicio. Segn el tipo de magnitud con la
que se trabaje, se obtiene:
ndice de precios ndice cuntico ndice de valor
pt qt vt pq
I 0t (P) = 100 I 0t (Q) = 100 I 0t (V) = 100 = t t 100 = I 0t (P). I 0t (Q)
p0 q0 v0 p0q 0
NOTA: Los nmeros ndices pueden expresarse en tanto por ciento, pero a la
EE I 96
hora de trabajar con ellos se hace en tantos por uno.
PROPIEDADES DE LOS NDICES SIMPLES:

Existencia: Todo nmero ndice simple debe existir y tomar un valor


finito no nulo.
Identidad: I 00 ( X) = I tt (X ) = 1
Inversin: I 0 (X) = 1
t
I 0t (X)
Circularidad: I t (X ). I t ' (X ). I t '' (X ) = 1
t' t '' t

Cambio de base: Podemos obtener los ndices respecto a otro


periodo base o de referencia t:
I 0t (X)
I t ' (X) = t '
t

I 0 (X)
ndice de producto de magnitudes: I 0 (X .Y) = I 0 (X ) I 0 (Y)
t t t

ndice de cociente de magnitudes: t X I ot (X)


I0 = t
Y I o (Y)
Proporcionalidad: Si xt = (1+k) xt , entonces I'0t (X) = (1 + k ) I 0t (X )
Homogeneidad: A un nmero ndice no le afectan las unidades de
medida. EE I 97
Ejemplo: A continuacin se muestran los precios en miles de ptas de un
determinado artculo en varios aos diferentes:
T 1998 1999 2000 2001

X 107 110 116 119

(a) Indicar canto ha variado el precio de dicho artculo para cada ao


con respecto al ao 1998.
(b) Calcular los ndices de precios para cada ao considerando como
periodo base el ao 1999.

Para cada uno de los artculos que integran un determinado sector, se


puede calcular un nmero ndice simple que indique la evolucin de su
precio, cantidad o valor; pero puede ser interesante obtener un nmero
ndice nico que represente de manera conjunta a todos los artculos, a
partir de los nmeros ndices simples calculados. A esos nmero ndices
que representan a un conjunto de magnitudes se les llama nmeros
ndices complejos.
EE I 98
ndices Complejos
Los ndices complejos son los que hacen referencia a una magnitud
compleja. Se van a obtener a partir de un conjunto de ndices simples,
resumindolos de manera que refleje el comportamiento global de la
magnitud.

Sea la magnitud X referida a N artculos:

Artculo/Periodo 0 t ndices simples

1 x10 x1t I1 = x1t / x10


2 x20 x2t I2 = x2t / x20
: : : :
N xN0 xNt IN = xNt / xN0

Los ndices complejos pueden ser no ponderados o ponderados.


La ponderacin recoge la importancia relativa de cada magnitud simple
dentro del conjunto de todas ellas.
EE I 99
NDICES COMPLEJOS NO PONDERADOS:

ndice media aritmtica ndice media geomtrica ndice media armnica


I1 + ... + I N N N 1
= i
I N
IH = =
I= I G = N I1...I N = N I i 1 1 N
1
N i =1 N i =1 I1
+ ... +
IN
i =1 I i

ndice media agregativa No es un ndice obtenido a partir de los nmeros ndices


N
simples, tiene sentido en aquellos casos en que alguno de los
x + ... + x Nt x it
ndices simples no est definido (da un valor 0 o ).
I A = 1t = i =1
x10 + ... + x N 0 N
Slo puede emplearse si las magnitudes vienen expresadas en
x
i =1
i0
la mismas unidades.

NDICES COMPLEJOS PONDERADOS: Tienen en cuenta la


importancia relativa de cada magnitud simple dentro del conjunto de ellas.
ndice media aritmtica ndice media geomtrica ndice media armnica
ponderado ponderado ponderado
N N

w w
N

I1w1 + ... + I N wN I w N N N i i

I
i i wi wi I =
* i =1
= i =1
I =
*
= i =1
I =
* i =1 w1
I ...I wN
= i=1 wi H
1 1 N
1
N

w i w
N

i
G 1 N
i =1
i
I1
w1 + ... +
IN
wN I
i =1
wi
i
i =1 i =1
EE I 100
ndice media agregativa
ponderado
N

x w + ... + x Nt wN x w it i
I A* = 1t 1 = i =1
x10 w1 + ... + x N 0 wN N

x
i =1
i0 wi

Si la magnitud X considerada es el precio, se han considerado cuatro


sistemas de ponderacin:
(1) wi = pi0 qi0 valor de la cantidad del bien i-simo en el periodo base, a precios de dicho periodo.
(2) wi = pit qit valor de la cantidad del bien i-simo en el periodo actual, a precios de dicho periodo.
(3) wi = pi0 qit valor de la cantidad del bien i-simo en el periodo actual, a precios del periodo base.
(4) wi = pit qi0 valor de la cantidad del bien i-simo en el periodo base, a precios del periodo actual.

NOTAS:
Los sistemas (1) y (2) corresponden a situaciones reales, mientras que (3) y (4) no.
Los sistemas (2) y (3) tienen el gran inconveniente de que necesitan conocer las
cantidades consumidas en el periodo actual, lo cual no es simple posible.
Los sistemas ms utilizados son el (1) y (3).
Si la magnitud X es la cantidad, se utilizan los mismos sistemas de ponderacin,
cambiando precios (p) por cantidades (q).
EE I 101
ndice de precios de Laspeyres: Se trata de un ndice media aritmtica
ponderado obtenido usando el sistema de ponderacin (1): wi = pi0 qi0
N N N
p it
I w i i
i =1 p
pi0q i0 p q it i0
Determina el incremento de valor que experimenta un
conjunto de artculos o bienes entre los periodos 0 y t,
L p = I ( P) = i =1
N
= i0
N
= i =1
N suponiendo que las cantidades consumidas son las
w
i =1
i p i =1
i0 qi0 p i =1
i0 qi0 mismas para ambos periodos e iguales a qi0.

ndice de cuntico de Laspeyres: Se trata de un ndice media aritmtica


ponderado obtenido usando el sistema de ponderacin (1): wi = qi0 pi0
N N N
q it
I w i i
i =1 q
q i0 pi0 q it pi0 Determina el incremento de valor que experimenta un
conjunto de artculos o bienes entre los periodos 0 y t,
L q = I (Q) = i =1
N
= i0
N
= i =1
N suponiendo que los precios son las mismos para
wi =1
i q i =1
i0 pi0 qi =1
i0 pi0 ambos periodos e iguales al del periodo 0, pi0.

ndice de precios de Paasche: Se trata de un ndice media aritmtica


ponderado obtenido usando el sistema de ponderacin (3): wi = pi0 qit
N N N
p it
I w i i
i =1 p
p i 0 q it p q it it
Determina el incremento de valor que experimenta un
conjunto de artculos o bienes entre los periodos 0 y t,
Pp = I(P) = i =1
N
= i0
N
= i =1
N suponiendo que las cantidades consumidas son las
w
i =1
i p
i =1
i0 q it p
i =1
i0 q it mismas para ambos periodos e iguales a qit.
EE I 102
ndice de cuntico de Paasche: Se trata de un ndice media aritmtica
ponderado obtenido usando el sistema de ponderacin (3): wi = qi0 pit
N N N
q it
I w i i
i =1 q i 0
q i 0 p it q it p it Determina el incremento de valor que experimenta un
conjunto de artculos o bienes entre los periodos 0 y t,
Pq = I(Q) = i =1
= = i =1
N N N suponiendo que los precios son las mismos para
w i =1
i qi =1
i0 p it q
i =1
i0 p it ambos periodos e iguales al del periodo t, pit.

DEFLACTACIN:

A partir del ndice de precios de Paasche Pp se puede estimar el


valor de los bienes y servicios del periodo actual en unidades monetarias
del periodo base.
N

N p it q it A esta propiedad se le conoce como deflactacin, y permite


p i0 q it = i =1

Pp 0
t
corregir el efecto de la prdida del valor del dinero y hacer
i =1 comparaciones en una unidad comn.

Cuando se valoran los bienes y servicios a precios de un mismo periodo, hablaremos de


precios constantes o reales.
Cuando se valoran los bienes y servicios a precios de cada periodo, hablaremos de
precios constantes o reales. EE I 103
En la prctica, se presenta el problema de que el ndice de Paasche
no se suele obtener, ya que necesita las cantidades consumidas en el
periodo actual (qit). Por ello, se suele utilizar como deflactor el ndice de
Laspeyres o el ndice de Precios al Consumo (IPC).

Valor monetario o corriente


DEFLACTACIN Valor real o cons tan te =
Deflactor

Ejemplo: El precio del kilogramo de pltanos t Precio (kg) IPC


entre los aos 1995 y 1998 y el IPC de cada 1995 50 100
ao (con respecto al ao 1995) aparecen en 1996 55 110
la tabla adjunta. En qu ao estuvo ms 1997 60 116
barato y ms caro el Kg de pltanos? 1998 62 125

Ejemplo: Conocidos los


Artculo A Artculo B
precios y cantidades de 2
Aos
artculos de consumo Precio Cantidad Precio Cantidad
correspondientes a tres 1998 2 10 5 12
aos, determinar los ndices
1999 3 15 6 10
de precios y de cantidades
2000 4 20 7 6
de Laspeyres y Paasche
con base 1998. EE I 104
ndice de Precios de Consumo
El IPC es un ndice de precios que se obtiene en Espaa por parte del
INE, a nivel nacional, por comunidades autnomas y por provincias, con
una periodicidad mensual, recogiendo el incremento de valor de un grupo
representativo de los productos y servicios consumidos por todas las
familias del pas, que forman la cesta de la compra.

Hasta el ao 1997, se utilizaba un ndice de Laspeyres con periodo


base fijo. El principal problema que presenta es que la estructura de
ponderaciones pierde vigencia con el paso del tiempo.

A partir del segundo trimestre de 1997 se implant la Encuesta


Continua de Presupuestos Familiares (ECPF), que permite disponer de
informacin sobre el gasto de las familias de forma ms detallada y con
una periodicidad menor que antes. Este nuevo sistema es ms dinmico,
al permitir:
Actualizar las ponderaciones en periodos cortos de tiempo.
Incluir nuevos productos cuando su consumo comience a ser
significativo, as como eliminar los que sean poco significativos. EE I 105
De esta forma, se crea un sistema de actualizacin continua de la
estructura de consumo, basado en un flujo de informacin entre el IPC y
el ECPF. Esta actualizacin se materializa en:
Una revisin anual de las ponderaciones.
Un completo cambio de base cada 5 aos: composicin de la cesta de
la compra, revisin profunda de las ponderaciones y de la definicin del
IPC.

Para obtener el IPC base 2001, se utilizar una cesta de la compra


que clasifica los productos y servicios en 12 grupos:
1. Alimentos y bebidas no 5. Menaje. 9. Ocio y cultura.
alcohlicas. 6. Medicina. 10. Enseanza.
2. Bebidas alcohlicas y tabaco. 7. Transporte. 11. Hoteles, caf y restaurantes.
3. Vestido y calzado. 8. Comunicaciones. 12. Otros.
4. Vivienda.

Para calcular el nuevo IPC se utilizar un N pi t


p
N

ndice de Laspeyres encadenado, que I wi p i t 1 q i t 1


01 = I 03 .C 01
I 04
i 04 03
i =1 i t 1
IPC t
t 1 = i =1
N
= N
consiste en referir los precios del periodo
wi p i t 1 q i t 1
corriente a los precios del ao anterior, i =1 i =1

actualizndose las ponderaciones con Estos ndices se enlazan a travs de


informacin de la ECPF. un coeficiente de enlace C. EE I 106
Estadstica Empresarial I

Tema 8

Series Temporales

EE I - Carlos G. Garca Gonzlez - ULL 107


Introduccin
Hasta ahora, se han estudiado las observaciones de una determinada
variable estadstica, organizadas mediante una distribucin de
frecuencias, sin tener en cuenta el instante en el tiempo en que fueron
tomadas. Sin embargo, en muchos problemas econmicos, interesa
disponer de datos registrados en intervalos de tiempo sucesivos, que
constituyen una serie temporal.

Un hecho que distingue las observaciones ordenadas en el tiempo del


resto es que las diferentes observaciones que forman una serie temporal
no son independientes una de otras.

Ejemplo: El nmero de automviles fabricados en enero de 1989 no es


independiente de los que se fabricaron en diciembre de 1988.

Por tanto, las variables que se estudian en las ciencias sociales y


econmicas estn sujetas a cambios a lo largo del tiempo.
EE I 108
Anlisis de Series Temporales
Una serie temporal es una sucesin de observaciones numricas
referidas a un fenmeno, mediante una variable o conjunto de variables,
dispuestas en orden cronolgico de ocurrencia.

As, la serie temporal describe la variacin de los valores de la


variable en el tiempo, como resultado del comportamiento sistemtico
o aleatorio de dicha variable. Si una serie muestra alguna tendencia en
su variacin durante un periodo de tiempo prolongado del pasado, parece
lgico suponer que tales regularidades seguirn existiendo en el futuro, y
podrn establecerse as predicciones sobre valores futuros.

Las observaciones pueden obtenerse:


z En un momento dado. Ejemplos: n de coches en la cola de una
gasolinera, precio de un producto, etc.
z Como suma de cantidades asociadas a un periodo. Ejemplos:
produccin anual de energa, n de nacimientos al mes, etc.
z Como promedio de un periodo. Ejemplos: Media mensual de
trabajadores afiliados a la S.S., tasa trimestral de actividad, etc.EE I 109
Las publicaciones de datos estadsticos contienen en su mayor parte
series temporales que vienen expresadas en cifras absolutas y en cifras
relativas.

Aunque los datos de las series temporales requieren una menor


organizacin preliminar que los datos asociados a una distribucin de
frecuencias, conviene tomar ciertas precauciones:
z Las fechas a las que se aplican las cifras debern entenderse
claramente y estar definidas de forma precisa.
z Los datos correspondientes a los distintos periodos considerados
deben ser comparables entre s, y obtenidos en las mismas
condiciones y unidades.
EE I 110
Cuando se dispone de datos correspondientes a una serie temporal,
conviene comenzar su anlisis mediante una representacin grfica,
siendo la ms utilizada el grfico en coordenadas cartesianas,
considerando en el eje de las abscisas la variable tiempo y en el de
ordenadas la variable estudiada.

EE I 111
Naturaleza de las Series Temporales
Una serie temporal est formada por varias componentes, que son
las encargadas de explicar los cambios observados en la variable a lo
largo del tiempo. La descomposicin ms comn es la que distingue las
componentes tendencial, estacional, cclica y aleatoria, propuesta por
el enfoque clsico de las series temporales.

1. Tendencia regular o secular: Es el comportamiento a largo plazo que


presenta la serie, ignorando las fluctuaciones a corto y medio plazo. Esta
componente tendencial puede presentar pautas de crecimiento,
decrecimiento o estabilidad.

EE I 112
2. Variaciones estacionales: Son las oscilaciones a corto plazo que se
reproducen de forma peridica ms o menos regular con periodo
constante igual o inferior al ao, debidas principalmente a las influencias
de las estaciones del ao, causas climatolgicas, costumbres, etc.
Ejemplos: Las temperaturas medias mensuales
tienen cada ao un mximo en verano y un mnimo
en invierno, por lo que presentan periodicidad anual;
el volumen de compras diarias que se realiza en un
supermercado presenta mximos y mnimos a
principios y a finales de mes, respectivamente, luego
presenta periodicidad mensual,...
En la grfica siguiente se representa la serie del
IPI (ndice de Produccin Industrial) y se observa la
cada del mes de agosto, comportamiento que se
repite de forma regular y peridica.
3. Movimientos cclicos: Son movimientos a medio plazo que se
reproducen de manera peridica, pero no tan regular como los de la
componente estacional. Con un periodo no constante y ms amplio que
los periodos estacionales, los ciclos observados en series econmicas
estn asociados principalmente a la alternancia de etapas de prosperidad
y depresin de la actividad econmica. EE I 113
4. Variaciones irregulares o aleatorias: Son comportamientos que no
muestran carcter peridico ni regular y que se deben a fenmenos
catastrficos o fortuitos que afectan de manera casual a la variable, como
pueden ser inundaciones, terremotos, incendios, accidentes, huelgas,...

Dada una serie temporal, el objetivo ser descomponerla en cada


una de las cuatro componentes consideradas.

Generalmente, las componentes de la serie temporal se pueden


combinar mediante tres esquemas o modelos:
MODELO ADITIVO: MODELO MULTIPLICATIVO I: MODELO MULTIPLICATIVO II:
Yi = Ti + E i + Ci + I i Yi = Ti . E i . Ci . I i Yi = Ti . E i . Ci + I i EE I 114
Un supuesto fundamental en el anlisis clsico de las series
temporales es la independencia de las variaciones residuales respecto a
las dems componentes. Este supuesto se verifica en el modelo aditivo
y en el multiplicativo II.

De los dos citados, se utiliza ms en la prctica el modelo


multiplicativo, ya que las variaciones relativas o porcentuales
representan mejor las situaciones que las variaciones absolutas. En l,
slo la componente tendencial viene expresada en trminos absolutos,
mientras que las dems componentes vienen expresadas en forma de
nmeros ndice.

EE I 115
Anlisis de la Tendencia Secular
Los procedimientos estadsticos que se utilizan para estimar la
componente tendencial (responsable del comportamiento a largo plazo
de la serie) se dividen en analticos y no analticos.

MTODOS NO ANALTICOS:

1. Ajuste grfico: Consiste en trazar una lnea, ajustada a las


observaciones, que refleje el comportamiento a largo plazo de la serie,
ignorando fluctuaciones a corto y medio plazo.

EE I 116
2. Ajuste por medias mviles: Consiste en hallar las medias de cada
grupo de R observaciones consecutivas, siendo R generalmente el
nmero de observaciones anuales de las que se dispone.
MEDIAS MVILES DE ORDEN R

R IMPAR R PAR
y R +1 + y R +3
y1 + y 2 + ... + y p
y R +1 = y R +2 = 2 2

2
R 2 2
y 2 + y 3 + ... + y p +1 y R +3 + y R +5
y R +3 = y R +4 = 2 2
R
2 2 2
y 3 + y 4 + ... + y p + 2 y R +5 + y R +7
y R +5 =
2
R y R +6 = 2 2
2 2
M
M

Si R es par, las medias mviles quedan descentradas, por lo que


habr que calcular de nuevo las medias mviles de orden 2.
EE I 117
Ejemplos: Consideremos las dos series siguientes, una cuatrimestral y
otra trimestral.

Con este mtodo se suaviza la serie, ya que se consiguen eliminar las


oscilaciones estacionales. Sin embargo, cuanto mayor sea el orden R,
ms observaciones se pierden. EE I 118
MTODOS ANALTICOS:

En muchos casos, la tendencia puede representarse mejor mediante


una funcin matemtica Y = f(t) que mediante la poligonal de las medias
mviles.

Para obtener dicha funcin, primero habr que representar


grficamente la serie temporal, y decidir qu tipo de ajuste es el ms
adecuado para la regresin de Y sobre t. A continuacin, se obtienen los
coeficientes de la curva de regresin a travs del mtodo de los
mnimos cuadrados, pudindose medir la bondad del ajuste planteado
mediante el coeficiente de determinacin R2.

Es interesante sealar que si la serie temporal presenta un cambio


brusco en su tendencia, es aconsejable ajustar diferentes funciones a
cada conjunto de datos que presenten una tendencia homognea.

Ejemplo: La siguiente serie refleja la evolucin de las importaciones del


extranjero en Canarias en miles de millones de ptas entre 1980 y 1992.
EE I 119
Ajuste de una recta: Y = a + b . t
N N

Y = N .a + b t
i =1
i
i =1
i

N N N
Y = 31992 + 985 t
t Y =a t
i =1
i i
i =1
i + b t i2
i =1

Con el fin de simplificar los clculos, se


considera como ao 0 el ao 1986, ya
que es el ao central entre los trece. Si
hubiera un n par de aos, se escoge uno
de los dos aos centrales como ao 0.
EE I 120
Variaciones Estacionales
Las variaciones estacionales son oscilaciones peridicas de periodo
fijo igual o inferior al ao, debidas principalmente a las influencias de las
estaciones del ao, causas climatolgicas, costumbres, etc.

En su estudio se presentan dos problemas fundamentales:

Cmo medir las variaciones estacionales? Existen muchas formas


de medir las variaciones estacionales, aunque todas tienen como objetivo
bsico la obtencin de un ndice que pueda utilizarse para ajustar los
datos originales a las variaciones estacionales. Dichos ndices permiten
interpretar el comportamiento de la variable estudiada en los periodos
considerados respecto a la media del ao, comparando de forma relativa.

Cmo eliminar la influencia de las variaciones estacionales en el


anlisis de la tendencia? Se realiza mediante el proceso de la
desestacionalizacin, que consiste en dividir cada valor de la serie
original entre el ndice de variacin estacional correspondiente. EE I 121
Clculo de los ndices de variacin estacional:

Uno de los mtodos ms utilizados para la obtencin de los ndices


de variacin estacional es el mtodo de la medias mviles. Se trata
de obtener una medida generalizada y en trminos relativos del
comportamiento de la serie en cada uno de los periodos considerados. El
mtodo consiste en:

(1) Obtener las medias mviles, utilizando tantos valores R como


periodos considerados dentro del ao. Si el nmero de periodos R es par,
las medias mviles obtenidas no estarn centradas, por lo que habr que
centrarlas utilizando la semisuma de cada par de las anteriores.

(2) A partir de las medias mviles centradas, se obtienen las razones


de las medias mviles, que relacionan los valores reales de la variable
con las medias mviles centradas. Valor original
Razn medias mviles =
Media mvil centrada
(3) Ordenando las razones de las medias mviles por periodos, se
obtendrn los ndices generales de variacin estacional, calculando la
media asociada a cada periodo. EE I 122
La media de los ndices generales de variacin estacional (IGVE)
en el ao deber ser igual a 100 (o 1 en tantos por uno), por lo que la
suma de todos ellos ser igual a R.100 (R, en tantos por uno), siendo R el
nmero de periodos considerados en el ao. Si por razones de redondeo,
dicha suma no alcanzara el valor citado, se podran conseguir los IGVE
mediante simples reglas de tres.

Si las RMM no tienen un comportamiento similar en igual periodo en la


mayora de los aos considerados, no tiene sentido obtener los IGVE, ya
que significara que su influencia dentro de la tendencia de la serie no es
grande. En tal caso, nos conformaramos con las RMM, que actuaran
como ndices estacionales definitivos.

EE I 123
Ejemplo: Se cuenta con una serie temporal de los precios medios por
trimestre de un determinado producto, entre los aos 1995 y 1998.

EE I 124
Los IGVE miden el nivel porcentual
del componente estacional con
respecto al nivel medio o tendencia.
La media de los IGVE debe ser
igual a 100 (o a 1), indicando que en
un periodo anual las fluctuaciones
estacionales se deben compensar; al
no poder existir fluctuaciones
estacionales superiores al ao.
La magnitud en estudio sufre un
incremento de un 512 % respecto al
valor de la tendencia, debido a la
estacionalidad observada en el 1er
trimestre. Se produce, tambin, una
disminucin del 1625 % respecto al
valor tendencial, debido a la
estacionalidad del 2. Se obtiene una
disminucin del 255 % respecto al
valor tendencial, causada por la
estacionalidad del 3; y, por ltimo,
se produjo un incremento del 1275
% respecto a la tendencia, debido a
la estacionalidad del 4 trimestre.
EE I 125
Desestacionalizacin:

El proceso de desestacionalizacin consiste en suprimir la influencia


de las variaciones estacionales en una serie temporal. Para ello, se
divide cada valor de la serie original entre el correspondiente IGVE
expresado en tantos por uno.

Yi Y
Yd i = = i
I.G.V.E. E i

Una vez desestacionalizada la serie temporal, se debe obtener la


tendencia, ya que en la serie resultante Yd i se ha eliminado la influencia
de las variaciones estacionales. Para ello, se plantear un ajuste Yd = f(t),
obtenido aplicando el mtodo de los mnimos cuadrados.

A continuacin, habr que determinar los valores de la tendencia, que


sern los valores desestacionalizados tericos obtenidos a partir del
modelo de regresin considerados.
Ti = f ( t i )
EE I 126
Serie de los precios m edios por trim estre de Serie desestacionalizada de los precios
un producto m edios por trim estre de un producto

30 30

25 25

Ydi
Yi

20 20
15 15
10 10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Tiem po (t) Tiem po (t)

Yd = 19'39 + 0'24 t ' r 2 = 0'88 EE I 127


Los valores de la tendencia se obtendrn a partir del ajuste lineal:
Ti = 19'39 + 0'24 t i' , i = 1, ..., 16

Supongamos que se quiere


predecir cul va a ser el
comportamiento de los
precios del producto en los
cuatro trimestres de 1999. EE I 128
Movimientos Cclicos
Son movimientos a medio plazo que se reproducen de manera
peridica, con un periodo no constante y ms amplio que los periodos
estacionales.

Puesto que la componente cclica no siempre presenta un carcter


tan sistemtico como en el caso de las componentes tendencial y
estacional, no existen muchos mtodos que permitan su obtencin. Un
mtodo que puede ser vlido es el siguiente:

A partir de un esquema multiplicativo I, se despeja C.I.

Yi Yd i
Yi = Ti . E i . Ci . Ii Ci . Ii = =
Ti . E i Ti

Los ndices de los movimientos cclicos se obtendrn a travs de las


medias mviles de orden 3 de los valores Ci.Ii.
EE I 129
Los valores de la componente cclica del ejemplo se muestran a
continuacin:

EE I 130
Movimientos Irregulares
Son comportamientos que no muestran carcter peridico ni regular y
que se deben a fenmenos catastrficos o fortuitos que afectan de
manera casual a la variable.

Para la estimacin de la componente irregular se dividirn los


valores de C.I entre los ndices obtenidos para la componente cclica:

Ci . Ii
Ii =
Ci

Cuanto ms cerca est cada valor Ii a 100 (o a 1, en tantos por uno),


menor ser el residuo asociado a esa observacin.

EE I 131
Los valores obtenidos para la componente irregular son los siguientes:

EE I 132
COMPONENTES OBTENIDAS PARA LA SERIE TEMPORAL DEL EJEMPLO

EE I 133
Estadstica Empresarial I

Tema 9

Teora de la probabilidad

EE I - Carlos G. Garca Gonzlez - ULL 134


Introduccin
Se entiende por fenmeno o experimento cualquier situacin u
operacin en la que se puede presentar un conjunto de posibles
resultados.
La Estadstica estudia dos tipos de fenmenos o experimentos:

Son aquellos en los que se puede


CAUSALES O saber el resultado final siempre que
DETERMINISTAS se realice en las mismas condiciones.
FENMENOS Ejemplo: Medir la altura de una mesa.
Son aquellos en los que no se puede
ALEATORIOS O prever el resultado final al repetirlos
ESTOCSTICOS en anlogas condiciones. Son el
objeto de estudio de la Teora de la
Probabilidad.
Ejemplo: Lanzar una moneda.

En el campo de la economa y de la empresa, los fenmenos o


experimentos aleatorios son los ms comunes, y sus principales
caractersticas son las siguientes: EE I 135
Se conocen previamente los posibles resultados del experimento.
Es imposible predecir el resultado del experimento antes de realizarlo.
En sucesivas realizaciones del experimento en las mismas condiciones
iniciales, se pueden obtener resultados diferentes.

La Teora de la Probabilidad sirve de enlace entre las dos principales


ramas de la Estadstica:

ESTADSTICA

ESTADSTICA INFERENCIA
PROBABILIDAD
DESCRIPTIVA ESTADSTICA

Es la encargada de la recopilacin, Es la herramienta Es la relacionada con el proceso


estudio, clasificacin e matemtica utilizada por de utilizar datos procedentes de
interpretacin de un grupo de la Estadstica para un determinado subcolectivo o
datos, sin sacar conclusiones e modelizar los fenmenos muestra, para tomar decisiones
inferencias para un grupo mayor. reales. para el grupo ms general del
que forman parte esos datos.
EE I 136
Espacio muestral y sucesos
Espacio muestral E: Es el conjunto de todos los posibles resultados de
un experimento aleatorio.

Ejemplos: Determinar el espacio muestral de los siguientes experimentos


aleatorios:
(a) Lanzamiento de un dado. (b) Lanzamiento de dos dados.
(c) N de coches que entran diariamente en un garaje.
(d) Tiempo de vida de una bombilla. (e) Temperatura diaria de un lugar.

En funcin del nmero de resultados posibles, podemos distinguir


varios tipos de espacios muestrales:
FINITO Contiene un conjunto finito de resultados.

ESPACIO Contiene infinitos resultados que se


NUMERABLE pueden poner en biyeccin con los
MUESTRAL nmeros naturales.
INFINITO
NO NUMERABLE Contiene infinitos resultados que
forman un intervalo.
O CONTINUO EE I 137
Un suceso es un subconjunto del espacio muestral E, que ser
elemental si slo contiene un nico elemento de E, o ser compuesto si
contiene varios.

Ejemplo: Para el experimento del lanzamiento de un dado, indicar cules


de los siguientes sucesos son elementales y cules compuestos:
(a) Salir un 2 (b) Salir un nmero par
(c) Salir un nmero mayor que 3 (d) Salir un 5

OPERACIONES CON SUCESOS:


Dados dos sucesos A y B asociados a u experimento aleatorio:
Se llama unin de A y B, A B, al suceso que ocurre si alguno de los
dos ocurre.
Se llama interseccin de A y B, A B, al suceso que ocurre siempre
que A y B ocurran a la vez.
Se llama suceso complementario de A, A , a aquel suceso que ocurre
si no ocurre A.
Se llama diferencia de A y B, A B, al suceso que ocurre s y solo s
ocurre A y no ocurre B. Se verifica que: A B = A I B EE I 138
TIPOS DE SUCESOS: Existen distintos tipos de sucesos:

Suceso seguro E: Es aquel suceso que ocurre siempre, coincidiendo


con el espacio muestral. Dado un suceso A, siempre se cumple que:A U A = E
Suceso imposible : Es aquel suceso que no ocurre nunca. Se
cumplir que: = E E =
Dados dos sucesos A y B asociados a un experimento aleatorio.

Se dicen que son incompatibles o mutuamente excluyentes si no


pueden ocurrir simultneamente, luego se verificar que: A I B =
Se dice que A est contenido o incluido en B si cada vez que ocurre
A, tambin ocurre B, denotndose por A B.
Se define el suceso A condicionado a B, denotado por A / B, como
aquel suceso que consiste en que ocurre A sabiendo que B ha ocurrido.
Ejemplo: Sea el experimento consistente en el lanzamiento de un dado, y
sean los sucesos A = sale un nmero par, B = sale un nmero mayor o
igual que 3 y C = sale un 1 un 5. Determinar los siguientes sucesos:
A, C, A U B, B U C, A I B, A I C, B C, C / B EE I 139
PROPIEDADES DE LA UNIN Y LA INTERSECCIN DE SUCESOS:

(a) Asociativa: A U (B U C) = (A U B) U C A I (B I C) = (A I B) I C
(b) Conmutativa: A U B = B U A AIB = BIA
(c) Elemento neutro: A U = A AIE = A
(d) Distributiva: A U (B I C) = (A U B) I (A U C) A I (B U C) = (A I B) U (A I C)
(e) Leyes de Morgan: A U B = A I B AIB= AUB

Ejercicios: Simplificar las siguientes expresiones:

(1) A U (B I A )

(2) (A U (A U B)) I B

EE I 140
La probabilidad y sus enfoques
Ya se ha indicado que en cualquier experimento aleatorio es
imposible predecir el resultado de antemano. Sin embargo, la
Probabilidad intenta explicar la aparicin de los distintos resultados.

El concepto de probabilidad se puede interpretar de varias maneras:

Interpretacin objetiva, clsica o de Laplace: La probabilidad de un


suceso se obtiene como el cociente entre los casos favorables al suceso
y los casos posibles totales del experimento, suponiendo que todos los
sucesos elementales de E son equiprobables.

N de casos favorables
Pr obabilidad =
N de casos posibles
Ejemplo: Para el experimento que consiste en extraer una carta de la
baraja espaola, determinar la probabilidad de los siguientes sucesos:
(a) Salir una copa (b) Salir un rey (c) Salir una figura EE I 141
Interpretacin frecuentalista: Se basa en la posibilidad de repetir un
experimento bajo las mismas condiciones. Al aumentar el nmero de
pruebas realizadas n, la frecuencia relativa f de un suceso A tiende a
estabilizarse en torno a un valor fijo. Se entiende por frecuencia relativa
asociada a un suceso el cociente entre el nmero de veces que ocurre,
m, y el nmero de pruebas realizadas, n.
m n (A)
f (A) = = = P (A)
n n
Ejemplo: Sea el experimento que consiste en lanzar un clavo al aire,
pudiendo caer de punta o de lado (no equiprobables). Suponiendo que se
repite el experimento 1000 veces y que en 12 de ellas cay el clavo de
punta, determinar la probabilidad de que el clavo caiga de punta.

Propiedades de las frecuencias:


n (A) m n (E) n n () 0
(1) 0 f (A) = = 1 (2) f (E) = = = 1 f () = = =0
n n n n n n
(3) Si A y B son sucesos incompatibles :
n (A U B) n (A) + n (B) m + m' m m'
f (A U B) = = = = + = f (A) + f (B) EE I 142
n n n n n
Interpretacin subjetiva o personalista: En este caso, la probabilidad
se considera como una medida de opinin personal sobre la ocurrencia
de un suceso, de manera que dos personas pueden plantear diferentes
valores.

Esta interpretacin se basa en la experiencia del decisor, sus


creencias, su aversin al riesgo, etc.

Ejemplo: Cul es la probabilidad de que el Tenerife se mantenga en 1?

EE I 143
Definicin axiomtica de probabilidad
Esta definicin se basa en un conjunto de axiomas que permitirn
construir un modelo matemtico de la probabilidad que sea capaz de
explicar las regularidades observadas en los sucesos asociados a un
experimento aleatorio.

Dado un espacio muestral E y una -lgebra , diremos que la


siguiente funcin P es una probabilidad si verifica los tres axiomas de
Kolmogorov.
Una coleccin de sucesos es una -
P: [0,1] lgebra si verifica:
A P(A) (1) A se verifica que A
(2) Dada una sucesin infinita de
Nota 1: Este modelo matemtico debe sucesos de : A1, A2, ..., se verifica que:
englobar tanto la interpretacin clsica

como la frecuentalista de la U Ai
i =1
probabilidad.
Nota 2: A la terna (E, , P) se le
denomina espacio probabilstico. EE I 144
AXIOMAS DE KOLMOGOROV

Axioma 1 : A : 0 P (A) 1
Axioma 2 : P (E ) = 1
Axioma 3 : Sea A1 , A 2 ,..., A k una sucesin de sucesos
incompatibles dos a dos (A i A j = , i j)
k k
Entonces : P U A i = P (A i )
i =1 i =1
Nota: Estos tres axiomas son equivalentes a las propiedades de las frecuencias
relativas.
CONSECUENCIAS DE LOS AXIOMAS:
()
(a ) A : P A = 1 P (A) (b) P () = 0
(c.1) A, B : P (A B) = P (A) + P (B) P (A B)
(c.2) A, B, C : P (A B C) = P (A ) + P (B) + P (C) P (A B)
P ( A C ) P ( B C) + P ( A B C) EE I 145
A B = (A B) (A B) (B A)
R = P (A) + P (B) + P (C)
A = (A B) (A B)
S = P (A B) + P (A C) + P (B C)
B = (B A) (A B)
T = P ( A B C)

(d ) A, B : A B P (A ) P (B) y P (B A) = P (B) P (A)

Ejemplo 1: Sean A y B dos sucesos tales que A B= E, P (A) = 08 y


P(B) = 05. Calcular:
(a ) P (A B) (b) P (A B) (c) P (A B) (d ) P (A B)
Ejemplo 2: Es posible una asignacin de probabilidad con P (A) = 1/2,
P(B) = 1/3, P (A B) = 2/3? EE I 146
Probabilidad condicionada
Anteriormente hemos introducido el concepto de probabilidad
considerando que la nica informacin disponible sobre el experimento
era el espacio muestral E. Sin embargo, hay situaciones en las que se
cuenta con informacin adicional sobre dicho experimento, lo que puede
hacer cambiar la probabilidad de ocurrencia de un suceso (aumentndola
o disminuyndola) o bien no modificarla.

Ejemplo 1: Para el experimento del lanzamiento de un dado,


consideramos el suceso A = salir un 2 y B = salir n par. Calcular P (A)
y P (A/B).

Ejemplo 2: Para el ejemplo anterior, considerando B = salir n impar,


determinar P (A/B).

Ejemplo 3: Para el experimento consistente en lanzar dos veces un dado,


se consideran los sucesos A = salir un 2 en el 2 lanzamiento y A =
salir un 3 en el 1. Calcular P (A) y P (A/B). EE I 147
Sea E el espacio muestral asociado a un experimento aleatorio y sean
A y B , tales que P (B) > 0. Se define la probabilidad de A
condicionada al suceso B como:

P (A B)
P (A / B) =
P (B)
Esta definicin se aceptar si verifica los tres axiomas de
Kolmogorov, es decir, si verifica que:

Axioma 1 : A : 0 P (A/B) 1
Axioma 2 : P (E / B) = 1
Axioma 3 : Sea A1 , A 2 ,..., A k una sucesin de sucesos
incompatibles dos a dos (A i A j = , i j)
k k
Entonces : P U A i / B = P (A i / B)
i =1 i =1
EE I 148
Sea un espacio probabilstico (E, , P), y dos sucesos cualesquiera A y
B de . Se dice que A y B son estocsticamente independientes
cuando la ocurrencia de B no influye en la de A, y viceversa. En este
caso, se verificar que:

P (A / B) = P (A) P (B / A) = P (B)

P (A B) = P (A) . P (B)

Dados tres sucesos A, B y C, diremos que son globalmente


independientes si se cumple que:

P (A B) = P (A) . P (B) P (A C) = P (A) . P (C) P (B C) = P (B) . P (C)


P (A B C) = P (A) . P (B) . P (C)

EE I 149
En general, n sucesos A1, A2, ..., An son globalmente independientes
si se verifica que:
P (A i A j ) = P (A i ) . P (A j ) , i j
P (A i A j A k ) = P (A i ) . P (A j ) . P (A k ) , i j k
LLLLLLLLLLLLLLLLLLLLL
P ( A1 A 2 L A n ) = P ( A1 ) . P ( A 2 ) L P ( A n )
Diremos que los sucesos A1, A2, ..., An son independientes dos a dos
si cualquier par de dichos sucesos son estocsticamente independientes.
Nota: Si A1, A2, ..., An son globalmente independientes son
independientes dos a dos.

Ejemplo: Tenemos un experimento consistente en observar la


descendencia de una familia seleccionada al azar. Consideremos los
sucesos A = la familia tiene como mucho una hija y B = la familia tiene
hijos de ambos sexos. Determinar si A y B son independientes en cada
una de las siguientes situaciones:
(a) La familia tiene 2 descendientes. (b) La familia tiene 3 descendientes.
EE I 150
Teoremas de la Interseccin,
Probabilidad total y de Bayes
TEOREMA DE LA INTERSECCIN:
P (A B) = P (B) . P (A / B)
Dados dos sucesos A y B, se verifica que:
P (A B) = P (A) . P (B / A)
Dados n sucesos A1, A2, ..., An, se verificar que:
P ( A1 A 2 L A n ) = P ( A 1 ) . P ( A 2 / A 1 ) . P ( A 3 / A 1 A 2 ) L P ( A n / A 1 A 2 K A n )

Sistema completo de sucesos: Un conjunto de n sucesos A1, A2, ..., An


se dice que forman un sistema completo de sucesos si cumplen las dos
n
condiciones siguientes:
(a ) U A i = E ( b) A i A j = , i j
i =1

TEOREMA DE LA PROBABILIDAD TOTAL:

Dado un sistema completo de sucesos A1, A2, ..., An, y un suceso B,


entonces se verifica que: n
P (B) = P (A i ) . P (B / A i )
i =1
EE I 151
n
B = B E = B U A i
i =1

Ejemplo: Tres mquinas de funcionamiento independiente elaboran toda la


produccin de una empresa: la primera, la mitad; la segunda, una quinta parte; y
la tercera, el resto. Estas mquinas vienen produciendo un 2 %, 4 % y 3 % de
unidades defectuosas, respectivamente.
(a) Qu porcentaje de piezas defectuosas produce la empresa?
(b) Calcular la probabilidad de que, elegida una pieza al azar, haya sido producida
por la primera mquina o no sea defectuosa.

Probabilidades a priori y a posteriori:


Los sucesos Ai de un sistema completo de sucesos pueden
interpretarse como causas que influyen en un suceso cualquiera B, por lo
que las P (Ai) reciben el nombre de probabilidades a priori.
Sin embargo, estas probabilidades P (Ai) pueden verse modificadas por
la ocurrencia del suceso B, obteniendo las probabilidades a posteriori,
P(Ai / B). EE I 152
TEOREMA DE BAYES:

Sea A1, A2, ..., An un sistema completo de sucesos y sea B un suceso


cualquiera. Entonces:

P (A j ) . P (B / A j )
P (A j / B) = n

P (A ) . P (B / A )
i =1
i i

Ejemplo: Tenemos dos urnas, una con 3 bolas blancas y 2 negras, y la


otra con 2 bolas blancas y 3 negras. Se selecciona una urna al azar y
extraemos una bola.

(a) Cul es la probabilidad de que la bola sea blanca?


(b) Determinar la probabilidad de que la bola seleccionada proceda de la
2 urna, sabiendo que fue blanca.

EE I 153
Estadstica Empresarial I

Tema 6

Estadstica de Atributos

EE I - Carlos G. Garca Gonzlez - ULL 154


Introduccin
Este tema se va a centrar en el estudio de los caracteres de los
individuos de la poblacin que no pueden medirse numricamente,
denominados cualitativos o atributos.
Atributos: A, B, C, ... Modalidades: a1, a2, ...; b1, b2, ...; c1, c2, ...
Ejemplos: Sexo, profesin o nacionalidad.

El estudio de los atributos es de gran inters en campos como el


Marketing o el Diseo de Encuestas, ya que en muchas ocasiones no es
aconsejable hacer preguntas en las que el encuestado tenga que
cuantificar.
ai ni fi
Ejemplo: A = Tipo de mercanca Bienes de consumo 6 06
exportada por cada empresa Bienes de capital 3 03
Bienes intermedios 1 01
Tienen sentido las frecuencias acumuladas? 10
Y las principales medidas de posicin: media,
mediana y moda? EE I 155
Tabla de contingencia
En el caso bidimensional (A, B), podremos plantearnos el estudio del
grado de asociacin existente entre ambos atributos. Para ello, habr
que disponer los datos en una tabla de doble entrada denominada
tabla de contingencia.

A\B b1 b2 ... bj ... bk ni. Distribuciones marginales


a1 n11 n12 ... n1j ... n1k n1.
a2 n21 n22 ... n2j ... n2k n2. ai ni. bj n.j

: : : : : : : : a1 n1. b1 n.1

ai ni1 ni2 ... nij ... nik ni. a2 n2. b2 n.2

: : : : : : : : : : : :

ah nh1 nh2 ... nhj ... nhk nh. ah nh. bk n.k

n.j n.1 n.2 ... n.j ... n.k N N N

h k h k

n = n
i =1
i.
j=1
.j = n ij = N
i =1 j=1

EE I 156
Independencia
De anloga forma al caso de las variables, podemos decir que, dados
dos atributos A y B:
n ij
n i. n . j n i. n . j
A y B son independientes = i, j n ij = i, j
N N N N

Frecuencia observada Frecuencia terica


n i. n . j
F.O. = n ij F.T. = n 'ij =
N

As: A y B son independientes F.O. = F.T. i, j


h k

Se verifica, adems, que: n '


i =1 j=1
ij =N

EE I 157
Tablas de contingencia 2x2
A continuacin, vamos a tratar de obtener un coeficiente que
cuantifique el grado de asociacin entre dos atributos, en el caso en que
los dos atributos presenten dos modalidades.

Q de Yule: Coeficiente que permite medir


A\B b1 b2 ni.
la asociacin entre dos modalidades de
a1 n11 n12 n1. diferentes atributos, ai y bj.

a2 N . H ij
n21 n22 n2.
Q ij = i = 1, 2 ; j = 1, 2
n11 n 22 + n12 n 21
n.j n.1 n.2 N
siendo H = F.O. F.T.

Qij = 0 (Hij = 0) Independencia entre ai y bj.


Qij > 0 (Hij > 0) Existe atraccin o asociacin positiva entre ai y bj
Qij < 0 (Hij < 0) Existe repulsin o asociacin negativa entre ai y bj
EE I 158
Para medir el grado de asociacin, se suele utilizar ms el coeficiente
Q de Yule que H, debido a que este ltimo no se encuentra acotado y el
primero s.
1 Q 1
Repulsin completa entre Atraccin completa entre
ambas modalidades ambas modalidades

Adems, se va a verificar que:


(1) La atraccin entre a1 y b1 implica una atraccin entre a2 y b2 y una
repulsin entre a1 y b2, y a2 y b1.
(2) La repulsin entre a1 y b1 implica una repulsin entre a2 y b2 y una
atraccin entre a1 y b2, y a2 y b1.

Ejercicio: Comprobar que H11 = H22 = - H12 = - H21.


Ejemplo: A continuacin se indica la distribucin de 50 personas segn sexo y su
condicin de fumador/no fumador. Determinar el grado de asociacin entre:
Fuma/Sexo H M ni. (a) mujer y no fumador.
S 20 12 32 (b) hombre y no fumador.
No 6 12 18 (c) hombre y fumador.
n.j 26 24 50 (d) mujer y fumador. EE I 159
Tablas de contingencia hxk
En este apartado se tratar de obtener algn coeficiente que permita
medir el grado de asociacin entre dos atributos A y B, con h y k
modalidades, respectivamente.

Coeficiente de contingencia 2 de Pearson


h k (n ij n 'ij ) 2 h k n ij2 h k
F.O.2
=
2
= N = N
i =1 j=1 n 'ij i =1 j=1 n 'ij i =1 j=1 F.T.

Propiedades: (1) 2 0 (2) 2 no est acotado superiormente.


Propiedades:
Coeficiente de contingencia
C de Pearson (1) 0 C 1
(2) C = 0 Independencia entre los atributos.
2 (3) C = 1 Perfecta asociacin entre los atributos
C= (Slo se logra si los atributos tienen infinitas
2 + N
modalidades). EE I 160
Coeficiente de contingencia
T2 de Tschuprow

2
T =
2

N (h 1) (k 1)

Propiedades:
(1) 0 T2 1, sea cual sea el nmero de modalidades de cada atributo (h y k).
(2) T2 = 0 Independencia entre los atributos.
(3) T2 = 1 Perfecta asociacin entre los atributos.
Ejemplo: La siguiente tabla recoge la distribucin de las calificaciones del primer
parcial de EEI del curso 91/92 para los 398 alumnos matriculados, teniendo en
cuenta el grupo al que pertenecen.
Curso / Nota Susp. Aprob. Notab. Sobre. Total
Discutir la asociacin
1 A 86 21 8 3 118
entre el grupo de
1 B 73 27 7 0 107
cada alumno y la
1 C 44 19 2 0 65 calificacin obtenida.
1 D 61 34 9 4 108
Total 264 101 26 7 398 EE I 161
Correlacin ordinal
Existe un tipo de atributos que, aunque no se puedan medir
numricamente, son susceptibles de algn tipo de ordenacin.
Estaremos, pues, ante un atributo jerarquizado, que se caracteriza
porque entre sus modalidades se puede establecer una ordenacin o
clasificacin, segn dos criterios diferentes de ordenacin.

La correlacin ordinal parte de un atributo A cuyas modalidades


estn jerarquizadas, y se centra en el estudio del grado de concordancia
existente entre los dos criterios de ordenacin (X e Y) establecidos sobre
las modalidades de dicho atributo.

Ejemplo: rdenes de preferencia de dos jueces X e Y sobre 5 candidatas


en un concurso de belleza.
PEPA MARY LOLA PACA ROSA

X 1 2 3 4 5

Y 3 1 4 2 5
EE I 162
Correlacin por rangos de Spearman
Sea A el atributo jerarquizado segn los criterios X e Y.
N

Coeficiente de correlacin ordinal 6 d i2


d i = x i yi
o por rangos de Spearman = 1 i =1
N N
3

Nota: La expresin de se puede deducir a partir de la definicin del


coeficiente de correlacin lineal r.

As pues: - 1 1

= 1 d i = 0 , i = 1, 2, ..., N x i = y i , i = 1, 2, ..., N Concordancia perfecta

= 1 Disconcordancia perfecta x1 = yN, x2 = yN-1, ..., xN-1 = y2, xN = y1

=0 Independencia

EE I 163
Correlacin por rangos de Kendall
Sea A el atributo jerarquizado segn los criterios X e Y.

S Se basa en el concepto de
Coeficiente de correlacin por = N .( N 1) inversin de los rangos
rangos de Kendall 2 respecto al orden natural.

Para determinar el valor de S, procedemos como sigue:

(1) Se ordena uno de los criterios de forma creciente, X por ejemplo,


dando lugar a X* y obteniendo, a la vez, un determinado orden para el
otro criterio, Y*.
(2) Se compara cada rango Yi* con cada rango posterior Yj*, obteniendo
un valor fij de una funcin que asigna el valor +1 si Yi* < Yj* y un -1 si
Yi* > Yj*.
N ( N 1)
(3) Finalmente: S = fij
max S = ( N 1) + ( N 2) +K+ 2 +1 =
i< j 2
As pues, -1 1. Existe concordancia si >0 y discordancia si <0.
Ejemplo: Para el ejemplo anterior, hallar el coeficiente e interpretarlo.
EE I 164
Informacin real del IPC
Ponderaciones empleadas para determinar el IPC nacional y el IPC de
Canarias en el ao 2003.
(1) Alimentos y bebidas no
219,31 224,36
alcohlicas

(2) Bebidas alcohlicas y


31,82 29,93
tabaco Ponderaciones empleadas para el IPC
(3) Vestido y calzado 98,99 83,64
250,00
(4) Vivienda 106,84 100,45 200,00

150,00
(5) Menaje 64,10 67,08
100,00
(6) Medicina 27,53 34,76
50,00
(7) Transporte 153,23 163,89 0,00
1 2 3 4 5 6 7 8 9 10 11 12
(8) Comunicaciones 27,35 27,41
IPC Nacional IPC Canarias
(9) Ocio y cultura 68,34 77,62

(10) Enseanza 16,75 19,18

(11) Hoteles, caf y restaurante 111,81 106,17

(12) Otros 73,93 65,53

1000 1000 EE I 165


IPC Nacional con base 2001
01/02 02/02 03/02 04/02 05/02 06/02 07/02 08/02 09/02 10/02 11/02 12/02

101,3 101,4 102,2 103,6 103,9 104 103,2 103,5 103,9 104,9 105,1 105,5

01/03 02/03 03/03 04/03 05/03 06/03 07/03 08/03 09/03 10/03

105 105,2 106 106,8 106,7 106,8 106,1 106,6 106,9 107,7

Grfico de evolucin del IPC entre ENE 02 y OCT 03

109
ndice con base 2001

108
107
106
105
104
103
102
101
100
nov-01 feb-02 may-02 sep-02 dic-02 mar-03 jun-03 oct-03 ene-04
Meses

IPC Nacional IPC Canarias


EE I 166

También podría gustarte