Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1-20
Universidad de Sevilla
Resumen
El estudio de la variabilidad en caracteres categóricos rara vez es abordado. A partir de un
enfoque menos usado de la variabilidad en variables cuantitativas, el de la disparidad, distinto al
de la dispersión que, por ejemplo, proporciona la varianza, se propone la construcción de dos
coeficientes de medida de la variabilidad en variables cualitativas o categóricas a los que
llamamos coeficientes de disparidad. La sencillez y proximidad de los mismos permiten que sean
abordados en un curso introductorio de estadística descriptiva. Ejemplos sencillos son ofrecidos
para introducir las medidas y para, también, que el profesor constate la idea que el alumno tiene
sobre variabilidad, dispersión y disparidad.
Abstract
The study of variability in categorical characteristics is rarely discussed. From a less used
viewpoint of variability in quantitative variables, as it is the one of dissimilarity, which is different
from the dispersion that, for example, the variance provides, we propose the construction of two
coefficients that measure the variability in qualitative or categorical variables, which we call
1
Departamento de Economía Aplicada I. Facultad de Ciencias Económicas y Empresariales,
Universidad de Sevilla, Avda. Ramón y Cajal, 1, 41018-Sevilla.
Pecvnia, Monográfico (2012), 1-20
J. Basulto, J.A. Camúñez, F.J. Ortega y M.D. Pérez
coefficients of dissimilarity. Simple examples are provided to introduce the measures, so that the
teacher can also evaluate the idea students have about variability, dispersion and dissimilarity.
1. INTRODUCCIÓN 1. INTRODUCTION
medidas no existe. Es claro que esa idea de measures does not exist. It is clear that the
variabilidad alrededor de la media, signifi- idea of variability around the mean, which
cado habitual que damos a varianza o is the usual meaning given to the variance
desviación típica, no tiene sentido. Se suele or standard deviation, makes no sense in
usar el término “dispersión” para esta the case of categorical variables. For this
forma de variabilidad. kind of variability, the term ‘dispersion” is
generally used.
Pero hay otra manera de entender la
variabilidad, la que se detiene en el análisis However, there is another way of
comparativo de respuestas donde la understanding variability, which is the one
comparación se reduce a igualdad o that focuses on the comparative analysis of
desigualdad de las mismas, sin pararse en responses, where the comparison is
medir la magnitud de esa desigualdad. reduced to their similarity or disparity, but it
Podemos usar en este caso el término does not deal with measuring the amount
“disparidad” (desemejanza, desigualdad y of disparity. In this case, the term
diferencia de unas cosas respecto de otras, ‘dissimilarity’ can be used (which is defined
según el diccionario de la Real Academia as disparity, inequality or difference of
Española). Estas medidas, que se emplean some things with regard to others by the
aunque con menos frecuencia en variables Academy of Spanish Language). These
cuantitativas, pueden extenderse a las cua- measures, which are used for quantitative
litativas, pues la disparidad existe siempre variables but less frequently, can be spread
que se manifiesten opiniones distintas. O to the qualitative ones, since dissimilarity
sea, la variabilidad existe en las categóricas exists as long as there are different options.
(no tendría sentido cualquier estudio That is, variability exists in the case of
estadístico si no fuese así). Creemos que es categorical variables (otherwise, any
algo que debemos inculcar a nuestros statistical analysis would make no sense).
alumnos y que, si es posible, construir We think this is something we must instil in
medidas o indicadores de dicha variabi- our students and, if possible, construct
lidad. measures or indicators of the above-
mentioned variability.
En este trabajo presentamos un par de
medidas sencillas para casos categóricos In this paper we present a couple of simple
(aunque en concepto podríamos hablar de measures for categorical cases (although
una sola, dado que la diferencia entre strictly speaking we could talk about only
ambas es la misma que la existente entre one, since the difference between them is
varianza y cuasivarianza), a las que the same as the one between variance and
proponemos llamar “coeficientes de quasivariance), which are proposed to be
disparidad”, y las aplicamos a ejemplos named as ‘dissimilarity coefficients’ and we
sencillos que nos permiten observar, en el apply them in simple examples which allow
aula, si la percepción de variabilidad que us to observe in the classroom if the
tienen nuestros estudiantes es coherente perception of variability our students have
con la que mide estos coeficientes. is coherent with the one these coefficients
measure.
En algunos trabajos hemos comprobado la
utilidad de estas medidas que, acompa- We have checked in some papers the
ñada de lo intuitivas que resultan, creemos, usefulness of these measures, which,
deben ser medidas que engrosen el together with the fact of being so
contenido de una asignatura dedicada a intuitive, must widen the contents of a
3
2. VARIABILITY IN QUANTITATIVE:
2. VARIABILIDAD EN CUANTITATIVAS: DISPERSION AND DISSIMILARITY
DISPERSIÓN Y DISPARIDAD
In quantitative variables, the first measures
En variables cuantitativas nos of dispersion are variance and quasi-
encontramos como primeras medidas de variance, whose expressions are reminded:
dispersión la varianza y la cuasivarianza,
( x − X ) ( x − X )
2 2
i i
cuyas definiciones recordamos: and S 2 = i ,
S2 = i
(x ) (x −X)
c
i −X
2
i
2
n n −1
S2 = i y S2 = i , respectively. When Gini (1912) studies
c
n n −1 variability in quantitative variables, he
respectivamente. Gini (1912), cuando distinguishes between two types of
estudia la variabilidad entre las variables: those which are defined as an
cuantitativas distingue dos tipos de only real value, μ, but when this is
variables: las que se definen como un measured there are different measu-
sólo valor real, μ, pero que al ser medido rements due to mistakes associated to the
se producen diferentes mediciones former, so the observed values or
debido a los errores asociados a las observations are in the form of xi = μ + ε i
mismas, por lo que los valores (actually, he talks about variables related to
observados u observaciones efectuadas the measurement in astronomy); and those
son de la forma xi = μ + ε i (habla de which present different qualitative
variables relacionadas con la medición en categories that arise with the repeated
astronomía), y las que presentan distintas observations of the variables. In this
modalidades cuantitativas que van context, for the first type, Gini (1912)
surgiendo con las repetidas observaciones proposes measures which are similar to the
de las variables. Pues bien, para el primer ones we have mentioned above, that is,
tipo, Gini (1912) propone medidas del tipo measures of dispersion around the mean
de las citadas anteriormente, o sea, (which is the real value of the variable),
medidas de dispersión alrededor de la whereas for the second group he
media (siendo ésta el valor real de la formulates measures that include all the
variable), mientras que para las del possible pairwise differences among
segundo formula medidas que recojan observed values. They would be, therefore,
todas las posibles diferencias, por parejas, measures that would be constructed from
entre los valores observados. Serían, pues, the following expressions:
medidas construidas a partir de los siguien-
4
Midiendo la variabilidad en caracteres cualitativos
Measuring variability in qualitative characteristics
( x − x ) , ( x − x ) ,
2 2
tes agregados: i
xi − xj , j i
xi − xj , (the distances
j
i j i j i j i j
x − x i j Δ=
i j
.
Δ=
i j
. n ( n − 1)
n ( n − 1)
For the first expression it is easy to prove
Para el primer agregado es fácil the following equality:
demostrar la siguiente igualdad:
( x − x ) = 2n xi − X( )
2 2
i j
( x − x ) = 2n xi − X . ( )
2 2
i j i
i j
i j i
Podemos construir dos nuevas medidas We can construct two new measures
usando el agregado del primer miembro de using the first side in the previous
la igualdad anterior, a los que podemos equality, which can be called, for
llamar, por ejemplo, “promedios example, ‘squared means of pairwise
cuadráticos de diferencias por pares” y que differences” and which are defined as
definimos a continuación: follow:
( x − x )
2
( x − x )
2
i j i j
y Vc2 = ( x − x )
2
( x − x )
i j i j 2
V2 = i j
n ( n −1)
i j
n
2
i j and Vc2 = i j
.
V2 =
n2 n ( n −1)
La igualdad de arriba nos permite The above equality allows us to write the
escribir: V 2 = 2 ⋅ S 2 , V c2 = 2 ⋅ S 2 . c
expressions as: V 2 = 2 ⋅ S 2 , V c2 = 2 ⋅ S 2 . c
En todas las medidas citadas hasta ahora In all the aforementioned measures,
la variabilidad depende de dos factores, variability depends on two factors: on the
del número de valores diferentes que nos number of different values that can be
encontremos y de la distancia entre los found and on the distance among them
mismos (influida por la magnitud de los
correspondientes valores).
5
Pecvnia, Monográfico (2012), 1-20
J. Basulto, J.A. Camúñez, F.J. Ortega y M.D. Pérez
c(x , x ) i j c ( x , x )
i j
1, si xi ≠ x j
c ( xi , x j ) =
i j
D1 = y/and D2 = i j
, con/being .
n n ( n −1) 0, si xi = x j
2
de posibles parejas que se pueden formar, number of possible pairs xi with xj and xj
de xi con xj y de xj con xi , es n 2 . with xi ) to be formed n 2 . From that
number we subtract the pairs of the form
A ese número restamos las parejas del tipo
( x i , x i ) , which are n in total, so the
( xi , x i ) , que son n en total, nos queda
highest number of pairs with different
como número máximo de parejas con components is n 2 − n = n ( n − 1) . We can
componentes distintos n 2 − n = n ( n − 1) .
n −1
Podemos escribir: write: 0 ≤ D1 ≤ < 1 and 0 ≤ D 2 ≤ 1 .
n
n −1 When there is no disparity, when all the
0 ≤ D1 ≤ < 1 y 0 ≤ D 2 ≤ 1 . Cuando
n observations coincide, both coefficients
no hay disparidad, cuando todas las take the value zero. When there is no
observaciones coinciden, ambos coefi- dissimilarity, that is, when all
cientes toman el valor cero. Cuando se observations are the same, both
produce la máxima disparidad, cuando coefficients equal zero. When there is the
todas las observaciones son distintas, el highest dissimilarity, that is, when all
n −1 observations are different, the first
primero toma el valor y el segundo n −1
n coefficient equals and the second
el valor 1. En este aspecto, podríamos n
decir que se trata de medidas relativas de one equals 1. In this regard, it could be
variabilidad. said that they are relative measures of
variability.
Mostramos ejemplos ilustrativos sencillos:
Next some simple illustrative examples
Ejemplo 1: La variable X toma 5 valores are shown.
siendo todos distintos, X : {1, 2, 3, 4, 5} .
Example 1: Variable X presents 5
different values, X : {1, 2, 3, 4, 5} .
La media aritmética es 3.
xi xi − X (x )
2
i −X
1 -2 4
2 -1 1
3 0 0
4 1 1
5 2 4
Total 10
7
Pecvnia, Monográfico (2012), 1-20
J. Basulto, J.A. Camúñez, F.J. Ortega y M.D. Pérez
10 10 10
Entonces, S 2 = = 2 y Sc2 = = 2'5 . Then, S 2 =
10
= 2 and Sc2 = = 2'5 .
5 4 5 4
Para la “media de las diferencias” For the ‘differences mean’ we construct
construimos la siguiente tabla: the following table:
xi − x j
xj Suma de cada fila
1 2 3 4 5
xi Total in row
1 0 1 2 3 4 10
2 1 0 1 2 3 7
3 2 1 0 1 2 6
4 3 2 1 0 1 7
5 4 3 2 1 0 10
Total 40
40
Δ= = 2 . Para los promedios cuadráticos de diferencias por pares: / For the squared
5⋅4
means of pairwise differences:
(x − xj)
2
i
100 100
V2 = = 4 , Vc2 = = 5.
52 5⋅ 4
c ( xi , x j )
xj Suma de cada fila
1 2 3 4 5
xi Total in row
1 0 1 1 1 1 4
2 1 0 1 1 1 4
3 1 1 0 1 1 4
4 1 1 1 0 1 4
5 1 1 1 1 0 4
Total 20
20 20
Por tanto / Therefore D1 = = 0'8 y / and D2 = = 1 .
25 20
2 2’5 2 4 5 0’8 1
10
Midiendo la variabilidad en caracteres cualitativos
Measuring variability in qualitative characteristics
8 10 4 16 20 0’8 1
dissimilarity.
Pecvnia, Monográfico (2012), 1-20
J. Basulto, J.A. Camúñez, F.J. Ortega y M.D. Pérez
- De los cuatro ejemplos, el de mayor - Out of the four examples, the highest
dispersión es el 4 y, sin embargo, es uno dispersion is in 4 and, however, it is
de los de menor disparidad. one of the examples where there is less
- De los cuatro ejemplos, el de menor dissimilarity.
dispersión es el 1 y, sin embargo, es uno - Out of the four examples, the smallest
de los de mayor disparidad. dispersion is in 1 and, however, it is
one of the examples where there is
Por tanto, hemos de distinguir entre lo que more dissimilarity.
es el “cuánto” de lo que es “con qué
frecuencia”, o sea, la distinción entre Therefore, we have to distinguish between
medidas basadas en la distancia what is “how much” of what is “with what
(dispersión) de las más simples basadas en frequency”, or, the distinction between
la disyuntiva entre igualdad o no igualdad measures based on the distance (dispersion)
(disparidad). Es interesante intentar captar of the simplest stocks in the dilemma
la percepción que nuestros estudiantes between equality or not equality (disparity).
tienen de la variabilidad mediante el It is interesting to try to catch the
ejercicio sencillo de mostrar representacio- perception that our students have of the
nes similares a las anteriores para que se variability by means of the exercise simple
manifiesten sobre cuál presenta mayor o to show representations similar to the
menor variabilidad. previous ones in order that they
demonstrate on which he presents major
or minor variability.
3. MIDIENDO LA VARIABILIDAD EN
CATEGÓRICAS: COEFICIENTES DE 3. MEASURING VARIABILITY IN
DISPARIDAD CATEGORICAL CHARACTERISTICS:
COEFFICIENTS OF DISSIMILARITY
De las dos formas de medir la variabilidad Out of the two ways of measuring
comentadas en el apartado anterior, la variability which were presented in the
primera basada en las distancias no es previous section, the first one based on
aplicable en variables categóricas. Supon- distances is not applicable to categorical
gamos el caso más sencillo, una variable de variables. Let us figure out the simplest
carácter dicotómico donde las dos posibles case, a dichotomous variable where the
respuestas son representadas por A y B. two possible responses are represented
Esas respuestas no están definidas por by A and B. These responses are not
magnitudes numéricas (salvo que codifi- defined as numerical magnitudes (unless
quemos arbitrariamente) por lo que no they are arbitrarily codified), so we cannot
podemos medir la distancia entre A y B, o measure the distance between A and B,
sea, no podemos construir una “medida de that is, we cannot construct a ‘measure of
dispersión” para esta variable. Lo que sí dispersion’ for this variable. What we can
podemos hacer es comparar las respuestas do is to compare the individuals’ responses
de los individuos y ver si las mismas and observe whether they are the same or
coinciden o no. Por tanto, los dos not. Therefore, both coefficients of
coeficientes de disparidad introducidos dissimilarity which were presented for
para cuantitativas serían perfectamente quantitative variables could also be valid in
válidos en las cualitativas y esas son las the case of qualitative ones, and they are
medidas de variabilidad que proponemos the measure of variability we propose for
12
A B B B B B A A A B B B A A B B B B
Ejemplo 1/Example 1 Ejemplo 2/Example 2 Ejemplo 3/Example 3
Calculamos los coeficientes para los tres We calculate the coefficients for the three
ejemplos consecutivamente, usando tablas examples consecutively, using tables of
de disparidades similares a los ejemplos dissimilarities which are similar to the ones
de cuantitativas, donde hemos sombreado used in the examples of quantitative
las “cajas” donde aparecen 1 (disparida- variables. The cells in the tables where the
des). value is 1 (there is dissimilarity) have been
shaded.
c ( xi , x j )
Suma de cada fila
A B B B B B
Total in row
A 0 1 1 1 1 1 5
B 1 0 0 0 0 0 1
B 1 0 0 0 0 0 1
B 1 0 0 0 0 0 1
B 1 0 0 0 0 0 1
B 1 0 0 0 0 0 1
Total 10
10 10
D1 = = 0'277 , D2 = = 0'333 .
62 6⋅5
13
Pecvnia, Monográfico (2012), 1-20
J. Basulto, J.A. Camúñez, F.J. Ortega y M.D. Pérez
c ( xi , x j )
Suma de cada fila
A A A B B B
Total in row
A 0 0 0 1 1 1 3
A 0 0 0 1 1 1 3
A 0 0 0 1 1 1 3
B 1 1 1 0 0 0 3
B 1 1 1 0 0 0 3
B 1 1 1 0 0 0 3
Total 18
18 18
D1 = = 0 '5 , D2 = = 0 '6 .
62 6⋅5
c ( xi , x j )
Suma de cada fila
A A B B B B
Total in row
A 0 0 1 1 1 1 4
A 0 0 1 1 1 1 4
B 1 1 0 0 0 0 2
B 1 1 0 0 0 0 2
B 1 1 0 0 0 0 2
B 1 1 0 0 0 0 2
Total 16
16 16
D1 = = 0'444 , D2 = = 0'533 .
62 6⋅5
1 ⋅ 5 + 5 ⋅1 2 ⋅ 1 ⋅ 5 1 5
D1 = = 2 = 2⋅ ⋅
62 6 6 6
Midiendo la variabilidad en caracteres cualitativos
Measuring variability in qualitative characteristics
1 1
Obsérvese que la primera fracción, , es la The first fraction, , is the proportion of
6 6
proporción de respuestas A que A responses that are found in that
encontramos en esa variable categórica, categorical variable, whereas the second
5 5
mientras que la segunda, , es la de one, , is the proportion of B responses.
6 6
respuestas B. Por tanto, en el caso de una Therefore, in the case of a categorical
variable categórica con dos posibles variable with two possible responses, if
respuestas, si p 1 es la proporción de p1 is the proportion of responses
respuestas correspondientes a la primera corresponding to the first category, that
n1 n1
categoría, o sea, p1 = , con n1 nú- is, p1 = , with n1 being the number of
n n
mero de veces que aparece la primera times the first responses is found, and if
respuesta, y si p 2 es la proporción para la p 2 is the proportion for the second
n2 n2
segunda respuesta, p2 = , podemos response, that is, p2 = , then, the first
n n
escribir el primer coeficiente de disparidad coefficient of dissimilarity can be written
como: as:
D1 = 2 ⋅ p1 ⋅ p 2 , D1 = 2 ⋅ p1 ⋅ p 2 ,
o sea, 2 veces la varianza de una variable That is, twice the variance of a Bernoulli
aleatoria Bernoulli (la misma relación que random variable (the same relationship
la existente entre varianza y cuasivarianza, as the one existing between variance and
por una parte, y los dos promedios quasivariance, on the one hand, and
cuadráticos de diferencias por pares, por both squared pairwise differences means,
la otra, en el caso cuantitativo). Podíamos on the other, in the case of quantitative
evitar ese 2 si contásemos las disparidades variables). We could eliminate ‘2’ in the
de una pareja una sola vez. Como ya se ha above expression by counting every
comentado, en los coeficientes propues- pairwise dissimilarity only once. As it was
tos contamos la disparidad de xi con xj y already said, in the proposed coefficients,
the dissimilarity of xi with xj and the one
la de xj con xi . A nivel práctico bastaría
of xj with xi is counted. At a practical
con dividir por 2 esos coeficientes. Ahora
bien, al hacerlo cambiaríamos el recorrido level, it would be enough to divide both
de ambos. Por ejemplo, D 2 , en lugar de coefficients by 2. Nevertheless, by doing
that their range would be modified. For
tomar valores entre 0 y 1, los tomaría instance, D 2 , instead of being between
entre 0 y 0’5, como ocurre con los
posibles valores de la varianza de una 0 and 1, would vary from 0 to 0,5, as it
distribución Bernoulli. happens with the possible values of the
variance in a Bernoulli distribution.
Alguna manipulación más es posible:
Some more manipulation is possible:
15
Pecvnia, Monográfico (2012), 1-20
J. Basulto, J.A. Camúñez, F.J. Ortega y M.D. Pérez
La suma de “unos” que aparece en cada tabla The addition of ‘ones’ in each table could
se podría construir así (mirar zonas be calculated as (observe the shaded
sombreadas): areas):
n1 ⋅ n 2 + n 2 ⋅ n1 = n1 ( n − n1 ) + n 2 ( n − n 2 )
n1 ( n − n1 ) + n2 ( n − n2 ) n1 n − n1 n2 n − n2
D1 = = ⋅ + ⋅ .
n2 n n n n
O sea, ese coeficiente se puede escribir That is, the coefficient can also be
también como: written as:
D 1 = p1 (1 − p1 ) + p 2 (1 − p 2 ) . D 1 = p1 (1 − p1 ) + p 2 (1 − p 2 ) .
Aún otra expresión más. El número de There is also another possible expression.
“unos” que hay en la caja también se The number of ‘ones’ in the table can
puede calcular restando al total de celdas also be calculated by subtracting the
de la tabla el número de “ceros”. Así, en number of ‘zeros’ from the total number
el Ejemplo 3 sería 16 = 62 − 22 − 42 . Por of cells in the table. Thus, in Example 3, it
tanto, would be 16 = 62 − 22 − 42 . Therefore,
2 2 2 2
62 − 22 − 42 2 4 62 − 22 − 42 2 4
D1 = = 1 − − . En D1 = = 1 − − . In
62 6 6 62
6 6
general, otra expresión más para el general, another expression for the
cálculo de este coeficiente es: computation of this coefficient is:
D1 = 1 − p12 − p 22 . D1 = 1 − p12 − p 22 .
A B B C C C C C
Calculamos para esta variable los dos coeficientes de disparidad. En primer lugar, la
tabla de disparidades: / We calculate both coefficients of dissimilarity for this variable,
We first present the table of dissimilarities:
Entonces, Then,
34 34 34 34
D1 = 2 = 0'531 y D2 = = 0'607 . Si D1 = 2 = 0'531 and D2 = = 0'607 . If
8 8⋅7 8 8⋅7
observamos la tabla, el número de we observe the table, the number of
“unos” que hay en la misma es la suma ‘ones’ that exists in the same one is the
del número de celdas contenidos en la sum of the number of cells contained in
tres cajas enmarcadas y sombreadas (la three boxes framed and shaded (her of A
de A con B, la de A con C, y la de B con with B, her of A with C, and her of B with
C) que, a su vez, están duplicadas. O sea, C) that, in turn, are duplicated. Or,
3 4 = 2 (1 ⋅ 2 + 1 ⋅ 5 + 2 ⋅ 5 ) . Por tanto, 3 4 = 2 (1 ⋅ 2 + 1 ⋅ 5 + 2 ⋅ 5 ) . Therefore,
D 1 = 2 ( p1 p 2 + p1 p 3 + p 2 p 3 ) D 1 = 2 ( p1 p 2 + p1 p 3 + p 2 p 3 )
Pecvnia, Monográfico (2012), 1-20
J. Basulto, J.A. Camúñez, F.J. Ortega y M.D. Pérez
También, el número de “unos” de la caja The number of ‘ones’ in the table above
anterior puede ser determinado mediante can also be calculated as
34 = 1 ⋅ ( 8 − 1 ) + 2 ⋅ ( 8 − 2 ) + 5 ⋅ ( 8 − 5 ) , por 34 = 1 ⋅ ( 8 − 1) + 2 ⋅ ( 8 − 2 ) + 5 ⋅ ( 8 − 5 ) , so the
lo que el coeficiente sería, coefficient would be:
1 ⋅ ( 8 − 1) + 2 ⋅ ( 8 − 2 ) + 5 ⋅ ( 8 − 5 ) 1 8 −1 2 8 − 2 5 8 − 5 1 1
D1 = = ⋅ + ⋅ + ⋅ = 1 −
82 8 8 8 8 8 8 8 8
2 2 5 5
+ 1 − + 1 − . En general, / In general,
8 8 8 8
D1 = p1 (1 − p1 ) + p 2 (1 − p 2 ) + p 3 (1 − p 3 ) .
Por último, la suma de “unos” puede Finally, the sum of ‘ones’ can also be
calcularse también restando al total de calculated by subtracting from the total
celdas de la caja, 82 , el total de ceros que number of cells in the table, 82 , the
hay en ella. O sea, 34 = 82 −12 − 22 − 52 . Por number of ‘zeros’ in it. That is,
tanto, 34 = 82 −12 − 22 − 52 . Therefore,
2 2 2 2 2 2
82 −12 − 22 − 52 1 2 5 82 −12 − 22 − 52 1 2 5
D1 = = 1 − − − . En D1 = = 1 − − − . In
8 8 8 8 8 8
2 2
8 8
general, general,
D1 = 1 − p12 − p 22 − p 32 . D1 = 1 − p12 − p 22 − p 32 .
A partir de los ejemplos analizados para From the examples above for two or
dos o tres posibles respuestas de una three possible responses of a qualitative
variable cualitativa nos resulta relativa- variable it is relatively easy to define
mente fácil establecer diferentes expre- different expressions for the first
siones para el primer coeficiente de coefficient of dissimilarity: If there is a
disparidad: Si una variable categórica categorical variable with k possible
tiene k posibles respuestas o categorías y responses o categories, if there are a
si disponemos de un número finito de finite number of observations, n, and if
observaciones, n, y si n1 , n 2 ,..., ni , ..., n k n1 , n2 ,..., ni ,..., nk , represent the frequency
representan la frecuencia con que of appearance of every category, with
aparece cada una de las categorías con, n1 + n 2 + ... + n i + ... + n k = n , then
naturalmente, n1 + n2 + ... + ni + ... + nk = n ,
n1
pi = , i = 1, 2,..., k , is the proportion of
n n
llamamos pi = 1 , i = 1, 2,..., k , o sea, la
n responses in the category i for the
proporción de respuestas que corres- observations.
ponde a la categoría i entre las observa-
18
ciones.
Midiendo la variabilidad en caracteres cualitativos
Measuring variability in qualitative characteristics
D1 = 2 pi pj ,
i< j
k
D1 = pi (1− pi ) ,
i =1
k
D1 = 1 − pi2 .
i =1
4. CONCLUSIONES 4. CONCLUSIONS
on variability.
Pecvnia, Monográfico (2012), 1-20
J. Basulto, J.A. Camúñez, F.J. Ortega y M.D. Pérez
BIBLIOGRAFÍA/REFERENCES