Está en la página 1de 12

Distribucin

Antecedentes

Como parte de los criterios usados en la UNGS en las becas de docencia y de


investigacin y doncencia, tanto para estudiantes como para graduados, en la
asignacin de 40 puntos correspondientes a los antecedentes de los postulantes,
y como se hace una lista nica para todas las disciplinas y reas, se aplica la
siguiente frmula para normalizar la disparidad entre ellas, la misma tiene en
cuenta el promedio histrico (creo que sin tener en cuenta los aplazos) de la
carrera del postulante, le asigna 0 puntos si su promedio personal (sin aplazos)
es de 6; se mueve linealmente para que se le asigne 20 puntos si el promedio
del postulante es el histrico de la carrera y desde ese punto tambin se mueve
linealmente para que la asignacin de puntaje sea de 40 puntos para un promedio
de 10:Resulta la siguiente frmula
8
x 6
si 6 x p
< 20 p 6
P (x) =
:
x p
20 10
x 10
p + 20 si p
siendo p el promedio histrico de la carrera del postulante, y x es el promedio
personal del postulante.
Cabe destacar que parece ser que el promedio histrico p es mayor que 6 en
todas las carreras (de ahi es que deduzco que no se tienen en cuenta los aplazos)
y que en todos los casos, salvo en el caso p = 8; la frmula de asignacin de
puntaje tiene por grco una lnea quebrada, con pendientes diferentes a ambos
lados.
Algunos ejemplos para que se visualice esto.
1. Si 6 < p < 8 (para el ejemplo muestro con p = 7) se tiene

40

30

20

10

0
6

10

2. Si 8 < p < 10 (para el ejemplo muestro con p = 9) se tiene

40

30

20

10

0
6

10

Problema detectado

Esta frmula ha sido usado por varios aos en el proceso de otorgamiento de


estos tipos de becas en la UNGS. No tengo datos de distintos aos pero en
por lo menos los cinco ltimos aos siempre o protestas que los estudiantes
y graduados de las carreras correspondientes a las ciencias exactas tenan en
proporcin menos becas respectos a los postulantes de carreras humansticas.
Estas quejas podran ser desestimadas por presuponer que siempre el que no
es beneciado tiende a pensar que hay un "complot" en su contra, o podemos
tomar las quejas como un "saber popular" e intentar si hay algn asidero en la
realidad y tienen algn sostn en los datos.
El primer paso que dimos no fue estudiar la serie de tiempo de los datos de
todos los aos en que se otorgaron las becas sino que intentamos ver en primer
lugar en qu sector de la asignacin de puntos hubo mayor diferencia entre los
postulantes de unas y de otras disciplinas, mirando slo los resultados de la
ltima convocatoria. Detectamos que el nico tem con mayor diferencia era el
que corresponde a la asignacin de los 40 puntos de antecedentes, que, paradjimante en apariencias, es una asignacin absolutamente "objetiva" reglada por
la frmula antes descripta.
Ante esto, nos preguntamos porque esta asignacin es tan dispar entre los
postulantes de las diferentes rea si, supuestamente, tiene ya una correccin
includa. La percepcin que tuvimos es que quizs el problema radica en que
en esta frmula subyace el presupuesto que la distribucin de los promedios
es uniforme o al menos simtrica entorno de su media, es decir que, en pocas
palabras, el promedio histrico y da el valor que deja al 50% de los estudiantes
de un lado y al otro 50% del otro, lo que no es cierto.
La distribucin de probabilidad a la que responden los promedios es una
distribucin beta que tiene densidad asimtrica y por lo tanto su valor esperado

no coincide con la mediana de la poblacin (valor que deja el 50% de cada lado).
En este sentido, voy a presentar un somero paneo sobre esta distribucin
y propondr al nal una correccin a la frmula usada que tiene en cuenta
este enfoque estadstico (podemos decir que es una correccin estadstica de la
frmula).

Revisin de la distribucin Beta

Usualmente la distribucin beta se usa cuando los valores que toma la variable
aleatorea es un porcentaje, es decir que debe estar en el intervalo [0; 1] ; pero
por un cambio de escala se lo puedo llevar a cualquier intervalo nito [a; b] : Esta
distribucin se la dene a dos parmetros, pero hay una versin ms sencilla a
un parmetro que es la que vamos a usar.
La densidad de probabilidad del caso normalizado [0; 1] ; para > 0; es:
f (x) = ( + 1) ( + 2) x (1

x)

(1)

que tiene los posibles siguientes grcos

1.5

1.0

1.0

0.5

0.5

0.0

y2

1.5

0.0
0.0

0.2

0.4

0.6

0.8

1.0

0
0.0

0.2

0.4

0< <1

0.6

0.8

1.0

0.0

0.2

=1

0.4
>1

Donde se dibuj:
1. Si p
0 <
15
x (1
4
2. Si

decir f (x) =
< 1: como ejemplos en trazo negro
= 12 (es
p
1
4
x)) y en trazo rojo = 4 (es decir f (x) = 45
x
(1 x))
16

= 1 : es decir f (x) = 6x (1

x))

3. Si > 1 : como ejemplo en trazo rojo = 2 (es decir f (x) = 12x2 (1


y en trazo negro = 4 (es decir f (x) = 30x4 (1 x)):
Llevado a un intervalo genrico [a; b] ; la densidad, para
f (x) =

( + 1) ( + 2)
(b

a)

+2

(x

a) (b

siendo los grcos parecidos a los recin visto en [0; 1] :

x)

x))

> 0; es:
(2)

0.6

0.8

1.0

Esta funcinR dene una distribucin de probabilidad, denida por F (x0 ) =


x
P (X x0 ) = a 0 f (x) dx; de donde, usando (2) podemos calcular explcitamente el valor de la probabilidad acumulada:
Z x0
Z x0
( + 1) ( + 2)
F (x0 ) =
f (x) dx =
(x a) (b x) dx
+2
(b a)
a
a
= ( + 2)

x0 a
b a

+1

+ 1 x0 a
+2 b a

(3)

Por otro lado el valor esperado, o esperanza, de esta distribucin es


E (X) =

xf (x) dx = b

2 (b a)
+3

(4)

y tambin podemos calcular el valor de la mediana de esta distribucin, que


es el valor x0 2 [a; b] que deja al 50% de los casos de un lado y del otro, es decir
P (X x0 ) = 12
Z x0
1
(b a) ( + 2) (x0 a) ( + 1)
+1
(x0 a)
=
f (x) dx =
+2
2
(b a)
a
de donde el valor x0 es una solucin de la ecuacin implcita
(x0

a)

+2

(b

+2

a) ( + 2)
(x0
+1

a)

+1

(b a)
=0
2 ( + 1)

(5)

Otra manera de calcular la esperanza y la varianza de esta distribucin es la


siguiente. Es fcil hacer la cuenta de los momentos si la densidad est soportada
en [0; 1] (es decir con la densidad (1)):
E X k = ( + 1) ( + 2)

xk x (1

x) dx

1
+k+2

1
+k+1
( + 1) ( + 2)
=
( + k + 1) ( + k + 2)
= ( + 1) ( + 2)

y usando que Var (X) = E X 2

(E (X)) ; tenemos entonces que, en [0; 1]

E (X) =

+1
+3

Var (X) =

+1
+3

+2
+4

+1
+3

Tomando la variable aleatorea Y = (b a) X + a; transforma linealmente la


variable X y lo lleva al intervalo [a; b], y por propiedades de la linealidad de la
4

esperanza y de la bilinealidad de la varianza, podemos calcular directamente la


E (Y ) y Var (Y ) desde lo recin calculado
E (Y ) = (b
Var (Y ) = (b

a) E (X) + a = (b
2

a)
2

a) Var (X) = (b

a)

"

+1
+a
+3
+1
+3

(6)

+2
+4

+1
+3

Si igualamos p = E (Y ) (promedio muestral), podemos hallar


p = (b

+1
+a)
+3

a)

2 (b a)
b p

(7)

en funcin de p
(8)

de donde podemos dar explcitamente la expresin (7) de la Var (Y ) en funcin


de p :
b 2a + p
p a
Var (Y ) = (b a) (p a)
(9)
3b 2a p b a

Nueva frmula propuesta

En nuestro caso el intervalo en que estn todas las notas de los alumnos de cada
carrera es [4; 10] (estimo que no se tiene en cuenta los aplazos), es decir que
a = 4 y b = 10:
Para estimar el parmetro que corresponda a la distribucin de notas de
cada carrera, podemos igualar la esperanza (4) con el promedio histrico p de
la carrera, y esto nos permitir calcular explcitamente el de esa carrera: si
12
p = 10
+3 entonces
12
=
3
(10)
10 p
y la varianza (9) es
Var (Y ) = 6 (p

4)

2+p
22 p

4
6

2.0
1.5
1.0
0.5
0.0
4

Varianza y dispersin
5

10

De este modo podemos ahora aplicar las frmulas explcitas (3):


F (x0 ) =

x0

x0

f (x) dx = ( + 2)

+1

+ 1 x0 4
+2 6

(11)

La nueva frmula que proponemos es asignar a un estudiante o a un graduado


con promedio x0 y que est en una carrera con puntaje histrico p; el siguiente
puntaje
x0

P (x0 ) = 40F (x0 ) = 40 ( + 2)

+1

+ 1 x0 4
+2 6

donde es el valor que corresponde al promedio histrico p dado por (10).


Podemos dar una frmula explcita que omita el parmetro
y que slo
quede en funcin del promedio histrico p :
p+2
P (x) = 40
10 p

p
2 10

4
p

p 4x 4
p+2 3

(12)

Ejemplos

En todos los casos la lnea negra slida es la vieja frmula y lnea punteada roja
es la nueva

40

30

20

10

0
6

8
p=6;5

10

40

30

20

10

0
6

10

p=7

40

30

20

10

0
6

p=7;5

10

40

30

20

10

0
6

10

p=8

40

30

20

10

0
6

p=8;5

10

40

30

20

10

0
6

10

p=9

40

30

20

10

0
6

10

p=9;2

Distribucin beta a dos parmetros

La distribucin beta en realidad consta de dos parmetros.

6.1

Densidad

Su densidad en [0; 1] es
f

(x) =

( + )
x
( ) ( )
9

(1

x)

R +1
donde ( ) = 0 x 1 e
densidad de probabilidad:
( ) ( )=

dx (funcin gamma). Veriquemos que es una

+1
1

du

+1

dv

+1

+1

con el cambio de variables


u
x = u+v
)
y =u+v

u = xy
v = (1 x) y

la regin de integracin pasa a ser la franja D = f(x; y) ; 0 x 1; y > 0g ;


el jacobiano de la transformacin inversa es J = y; por lo tanto
Z 1 Z +1
1
1
( ) ( )=
(xy)
(1 x)
y 1 y dy dx
0

+1

(1

x)

(1

x)

dx

y
Z

dy dx

+1

dy

(1

x)

dx

( + )

de donde sale lo buscado.

6.2

Momentos

Los distintos momentos son


Z 1
E Xk =
xk f ; (x) dx =

Z 1
( + )
x +k
( ) ( ) 0
0
( + ) ( + k) ( )
=
( ) ( ) ( +k+ )
( + 1) : : : ( + k 1)
=
( + ) ( + + 1) : : : ( + + k 1)

(1

x)

dx

de donde, tomando k = 1 y k = 2 tenemos


E (X) =
Var (X) =

+
2

( + 1)
( + ) ( + + 1)

( + ) ( +

+ 1)

y dese aqu, igualando el promedio poblacional p = E (X) y el estimador poblacional de la varianza 2 = Var (X) ; podemos despejar y en funcin de p y
10

(u+v)

du dv

:
=p

p (1

= (1

6.3

p)

p (1

p)

(13)

p)
2

(14)

Cambio de intervalo

Pasar a un intervalo cualquiera [a; b] hace que la densidad sea


f

(x) =

( + )
( ) ( ) (b

a)

(x

y sea la acumulada de la probabilidad


Z x0
( + )
P (Y
x0 ) =
f ; (x) dx =
( ) ( ) (b a)
a

a)

(b

x)

(x

a)

x0

(b

x)

Para hacer el cculo de E (Y ) y de Var (Y ) podemos recordar que al ser Y =


(b a) X + a; y usando la linealidad de la esperanza y la bilinealidad de la
2
varianza, tenemos que E (Y ) = (b a) E (X) + a y Var (Y ) = (b a) Var (X) :
Por lo tanto, podemos recalcular la expresin de y de en funcin de p =
E (Y ) y 2 = Var (Y ) ; donde hacemos los reemplazos p ! pb aa y ! b a en
las frmulas anteriores, y de este modo obtenemos:
0
1
p a
p a
1
b a
p a@b a
p a (p a) (b p)
=
1A =
1
(15)
2
2
b a
b a
(b a)2
0
1
p a
p a
p a @b a 1 b a
b p (p a) (b p)
1 (16)
= 1
1A =
2
2
b a
b
a
2
(b a)

6.3.1

Frmula prctica

A los efectos del clculo de los valores en el intervalo [a; b] ; no es necesario usar
explcitamente la densidad en ese intervalo sino que se puede calcularlo con la
"tabla" de la distribucin beta en el [0; 1] : Para esto usamos justamente al revs
la transformacin lineal anterior: Si Y
Be ( ; ; a; b) entonces X = Yb aa
Be ( ; ; 0; 1) y as, si a x0 b :
F (x0 ) = P (Y

x0 ) = P

Y
b

a
a

x0 a
b a

=P

x0 a
b a

siendo este el valor entregado por tabla.


En realidad, la planilla cualquier planilla de clculo (por ej el Excel o el
Open O ce) tiene la funcin Distrbeta donde se le puede dar el intervalo [a; b]
de modo que se evita todo este problema.
11

dx

Ejemplos: Veamos casos posibles con a = 4 y b = 10; por lo tanto en


general la expresin de y de en funcin de p y de 2 es:
=

6
10 p
=
6

(p

4) (10

p)

(p

4) (10

p)

y la asignacin de puntaje ser para un postulante con promedio personal 4


x 10 siendo estudiante de una carrera con promedio histrico p
F (x) = P
siendo X

Be

p 4
6

(p 4)(10 p)
2

1 ; 106

12

4
6

(p 4)(10 p)
2

1 ; 0; 1

También podría gustarte