Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Traducción de
CARLOS GERHARD
.
revisada por
ANA MA. FLORES
ESTADISTI'@A:,
SOCIAL
59
60 ESTADISTICA DESCRIPTIVA
N
.X
MEDIDAS DE TENDENCIA CENTRAL
X -73 X -70
61
~ X,
_ Xl + X2 + ..... + X N '=1
(5.1 )
72 - 1 2
X- --- 81 8 11
- N N 86 13 16
69 -4 - 1
en la que Xl representa la puntuaci6n d~l prim:r indivi~u.?, X2 la del 57 -16 -13
segundo, y X, la del indivJdu.o genera1.~ ~l ~o exIste amblguedad, pode-
mos prescindir de los submdlces y escnblr Simplemente
o 15
,~i
MEDIDAS DE TENDENCIA CENTRAL 67
66 ESTAorSTICA DESCRIPTIVA
servirnos de intervalos cerrados siempre que haya de calcularse una media.
$ 1 000, $ 2 000 o $ 3 000 en ambas direcciones. Multiplicamos luego
Según veremos en el capítulo VI, esto se aplica asimismo al cálculo esas diferencias por las frecuencias apropiadas para obtener el factor d~
conrección que ha de añadirse a la media anticipada. En otros térmi-
de la desviación estándar, la medida más comúnmente empleada de dis-
persión.
' .. nos, habrá 17 casos COIl marcas de exactamente $ 3 000 menos que aquélla;
habrá 26 casos con una diferencia de $ 2 000, etc. Si nos servimos de
una columna d que represente la diferencia entre las marcas efectivas
CUADRO 5.1. Cálculo de la media de datos agrupados por el y la media anticipada, podemos modificar la fórmula (5.2) y escribir la
método largo fórmula de la media como sigue:
Puntos medios
Límites fijados Límites verdaderos
(m,) ti t,m,
¡
r
CUADRO 5.2. Cálculo de la media de datos agrupados por el método corto
Método corto para el cálculo de la media. El método arriba indicado
comportará por lo regular la multiplicación de números bastante grandes Límites verdaderos Puntos medios t, d,
(v.gr., 2450 X 17), a menos que resulte que los puntos medios son
números simples. Con una calculadora moderna dichos productos pue- $1950-2950 $ 2 450 17 $ - 3 000 $ - 51 000
den calcularse y acumularse fácilmente. Pero, si los cálculos han de 2950-3950 3450 26 - 2 000 - 57 000
3950-4950 4450 38 -1000 - 38000
hacerse a mano, existe un medio mucho más sencillo de calcular la O O
4950-5950 5450 51
m7dia de. datos agrupado~. Este. método, llamado "corto", parece a 5950-6950 6450 36 1000 36000
prImera VIsta comportar mas trabajO que el "largo", pero, una vez domi- 6950-7950 7450 21 2000 42000
nado, se revela como mucho más sencillo que el otro. Fundamental-
mente, el método corto consiste en anticipar una media y servirse en Totales 189 $ -63 000
esta forma de números más pequeños en la multiplicación. Luego se
añade, com? anterior~en~e? un factor de corrección a la media supuesta. k
Con objeto de SImplIfIcar nuestros cálculos, tomemos como media l': t,d,
....1
anticipada el punto medio de uno de los intervalos. En el ejemplo arriba X=X'+---
tratado podemos ver }:l0r inspección. que la media será algo inferior N
a $ 5450, punto I?edlO del cu~rto mtervalo. La ventaja de servimos . - 63 000
de un punto medlO como medIa supuesta es obvia. En efecto, todos = 5450 + 189
= 5450 - 333
los demás datos estarán en tal caso a cierto número de intervalos de
distancia de la media supuesta, ya que cada marca se supone hallarse
en uno u otro de los puntos medios. Si restamQs ahora la media supuesta = $ 5117
de cada una de las marcas, obtendremos diferencias de exactamente
68 ESTAD1STICA DESCRIPTIVA MEDIDA DE TENDENCIA CENTRAL 69
En este ejemplo, el factor de correcci6n ha resultado ser negativo, in- nales, multiplicando este factor de corrección por la magnitud del in-
dicando que la media anticipada era demasiado grande. Hay que obser- tervalo. Designando la desviaci6n en amplitudes de intervalo como
var que si hubiéramos anticipado para la media otro valor cualquiera, ha- d'" podemos revisar nuestro cuadro en la forma indicada en el cuadro 5.3.
bríamos llegado al mismo resultado. Si se elige como media anticipada
el punto medio de tercer intervalo ($ 4 45 O). el factor de correcci6n es La fórmula modificada es ahora:
de $ 667, el cual, adicionado a $ 4 450 da .el resultado correcto. Dicho
sea de paso, esto constituye un medio de control muy útil de nuestra
labor. Obsérvese que si hubiéramos elegido el punto medio de cualquier
otro intervalo, habríamos realizado más trabajo, ya que los números a (5.5 )
sumar en la columna f,d" habrían sido numéricamente mayores. Y si
hubiéramos fallado en servirnos de un punto medio, las desviaciones res-
en donde i representa la amplitud de intervalo. Por consiguiente:
pecto dé la media supuesta habrían comportado números mucho menos
simples, con 10 que no nos habríamos ahorrado trabajo alguno. Una vez - - 63
que el proceso se haya comprendido bien, es posible omitir en el cuadro X = 5450 + 189
1000 = 5117
de cálculo la columna de los puntos medios.
El lector habrá sin duda observado que cada una de las desviaciones
respecto de la media presunta del ejemplo anterior es un múltiplo exacto Si se han empleado intervalos desiguales, habrá que modificar esta
de 1 000, o sea la magnitud del intervalo utilizado. Esto será siempre segunda fórmula del método breve. A algunas personas les parecerá más
así, a condición que todos los intervalos tengan la misma amplitud. Por fác~ ~emontarse ~l mét?do ant~Iior, sirviéndose de d, en lugar de d'" y
10 tanto, podemos poner la amplitud del intervalo como factor en cada escnblendo las diferenCias efectivas en las unidades originales. Y alter-
uno de los productos f,d" multiplicando por dicha amplitud una vez ter- ~ativamente, si s610 difieren del resto en cuanto a amplitud uno o dos
minada la adici6n. En otros términos: pudimos haber obtenido la suma l11tervalo~, podemos tomar como amplitud i de intervalo la amplitud de
de - 63 000 de la manera siguiente: ·la mayoría de los intervalos de clase. Las desviaciones de los puntos medios
de los intervalos restantes respecto de la media supuesta pueden eueste
- 63 000 = 100 ( - 51 - 52 - 38 + O+ 36 + 42) . ~so ~p~esars~ en forma de. fracciones de los intervalos enteros. Así, p.ej.,
. SI el ultimo lUtervalo hubiera sido de $ 6950 a $ 8 950, en lugar de
En 10 que equivale a lo mismo, pudimos haber expresado las desvia- $ 6950 a $ 7950, entonces el punto medio habría sido $ 7 950 en lugar
ciones originales en términos del número de intervalos (o "desviaciones de $ ~ 450. Por lo tanto, la desviaci6n respecto de la media presunta ha-
graduantes") respecto de la media supuesta. Por 10 tanto, determinamos bría Sido de $ 2 500, o sean 2.5 amplitudes de intervalo. Si el intervalo
cuántos intervalos dista la media supuesta de la verdadera y, finalmen- hubiera ido hasta $ 9 950, el valor d', hubiera sido de 3.0, según se deja
te, transportamos la magnitud del error hacia atrás a las unidades origi- comprobar fácilmente.
.Cálculo de la mediana. Al calcular la mediana de datos agrupados,
CUADRO 5.3. Cálculo de la medía de datos .agrupados por el método trataremos todos los casos al interior de un intervalo dado como si estu-
corto y de las desviaciones graduales vieran distribuidos a distancias iguales en el mismo. Localizamos pri-
",,~""'''I'-':'-''-''''' mero el interval~ 9ue contiene el caso ~edio, e interpol~mos luego para
encontrar la pOSICión exacta de la medlana. Al deterrnmar el intervalo
Límites que contiene a ésta, es por 10 regular conveniente obteIler la distribución
verdaderos
Puntos medios f, d', f.d'.
.de frecuencia acumulativa. Pese a que no es absolutamente necesario,
$1950-2950 $ 2 450 17 -3 - 51 es preferible acostumbrarse a disponer por escrito la distribuci6n acumu-
2950-3950 3450 26 -2 - 52 lativa completa y a indicar en una columna separada el significado de
3950-4950 4450 38 -1 - 38 cada una de las cifras de dicha columna (F). La distribución acumula-
4950-5950 5450 51 O O tiva de los datos anteriores se da en el cuadro 5.4 A título de control de
5950-6950 6450 36 1 36 nuestra adici6n, observamos que todos los 189 casos han de quedar por
6950-7950 7450 21 2 42 debajo de $ 7 950.
189 A continuación localizamos el intervalo que contiene el dato medio o
Totales - 63
el N/2-ésimo. Aquí es 189/2 = 94.5, de modo que buscamos el inter-
MEDIDA DE TENDENCIA CENTRAL
71
70 ESTADlSTICA DESCR-IPTIVA
El valor de la mediana puede ahora obtenerse multiplic:ando simple-
valo que contenga los casos nonagésimo cuarto y nonagésimo quinto. Ob- mente el número de sub intervalos abarcados por la magmtud de cada
sérvese que, si los datos no hubieran estado agrupados, habríamos loca- uno de ellos y añadiendo el resultado al límite inferior d~l i~1tervalo. El
lizado el dato (N + 1 ) /2-ésimo, o sea el nonagésimo quinto. La razón procedimiento conjunto puede resumirse en la fórmula slgmente:
de esta inconsecuencia aparente se examinará más abajo. Como quiera
que hay 81 casos por debajo de $ 4 950 Y 132 por debajo de $ 5950, la .. N/2-F .
I (5.6)
mediana ha de quedar en algún lugar del intervalo que va de $ 4 950 Md =l + f 1
a $ 5 950. Constituye un buen procedimiento marcar dicho intervalo
con un paréntesis, ya que se da a veces la tendencia de leer los datos a en ia que F = frecuencia acumulativa correspondiente ~llímite inf~rior,
partir de la cifra 81, con lo que se obtiene el intervalo incorrecto de t.= número de casos del intervalo que c?nbene la ~edlana,
$3950 a $ 495€>' Z'= límite inferior del intervalo que contiene la mediana,
i = amplitud del intervalo que contiene. la mediana.
CUADRO 5.4. Cálculo de la mediana de datos agrupados La cantidad ilf representa la magnitud de ca~a .sub~nteryalo, y l!!/2 - F
da la distancia (en subintervalos) . entre el lImite mferlOr del mtervalo
NP de casos y la mediana. En nuestro problema tenemos, pues: .
Limites verdaderos f F
inferiores a 1000
94.5 - 81
$ 1 950-2950 17 17 '$ 2 950 Md = 4 950 + 51 1 000 = 4 950 + 13.5 51
2950-3950
3950-4950
26
38
43
81l
3950
í4950 'l~' = 4 950 + 265 = $ 5215.
4950-5950
5950-6950
6950-7950
Total
51
36
21
--
189
132
168
189
{5950
6950
7950 t ~:
!
Existe un camino alternativo, pero equivalente, de representar el pro-
ceso conducente a la obtención de la mediana. ~~ efecto, en lu~ar de
buscar la magnitud de cada subintervalo y multIphcad~ por el numero
de los subinterva1os, podemos discurrir que, como qUIera que hay 51
casos en el intervalo entero y que hemos de -recorrer 13.5 de estos mter-
valos más pequeños para llegar a la mediana, hemos de re~orrer 13 ..5/51
Examinemos ahora más de cerca el intervalo que contiene la media-
na. Hay en éste 51 casos y, en consecuencia, habremos de dividir el in-' ,.' del intervalo entero. Por lo tanto, si multiplicamos la magnItud del mter-
valo (1 000) por la fracción de la distancia total que he~os. de recorrer,
tervalo entero en 51 subintervalos de amplitud $1000/51, o $19.61 cada
uno. Situamos cada uno de los 51 casos en el punto medio de su subin- obtenemos el resultado deseado. Al utilizar la fórmula es II?-dlfer~te, por
tervalo propio. El caso octagésimo primero quedará así situado en el supuesto cuál de las dos explicaciones nos parezca más satisfactOrIa. C?n
último subintervalo del intervalo de $ 3 950 a $ 4 950, y el caso 132-avo ,'¡ 1
objeto d~ no hacemos demasiado dependientes de la fórmula, es mejor
será sólo ligeramente inferior al límite superior del intervalo que contiene discurrir el proceso cada vez, sirviéndonos ,de aquélla como control, hast~
la mediana. Ahora procedemos simplemente a contar subintervalos hasta ue se haya comprendido a fondo. A tItulo de otr~ control hay.qu
llegar a aquélla. Si los datos no estuvieran agrupados, habríamos locali- ¿bservar que la mediana pudo haberse asimismo obtemdo rest~ndo CIerta
zado la marca del caso (N + 1) /2, o sea el nonagésimo quinto. De cantidad del límite superior u. Como puede demostrarse fácIlmente, la
acuerdo con nuestra convención, dicho caso se situaría en el punto me- fórmula se convierte en tal caso en: .
dio del decimocuarto subintervalo o, exactamente, a 13.5 subintervalos
del límite inferior del intervalo. Obsérvese que este mismo valor se hu- F-N/2. (5.7)
Md=u- f 1
81 94.5 132
"1 ' I , I I , I , I , I I "1 I , "1 en la que F representa ahora la frecueI?-cia acumulativa correspondiente
4,950 5,950 al límite superior del intervalo. Numéncamente esto da:
biera obtenido restando 81 de 94.5 o N/2. Es porque estamos operando 132 - 94.5
con puntos medios de intervalos pequeños que contamos exactamente Md = 5950 - 51 1000 = $ 5215.
N/2 intervalos, con objeto de localizar la posición del caso (N + 1) /2.
72 ESTADlSTICA DESCR'IPTIVA MEDIDA DE TENDENCIA CENTRAL 73
5.4. Comparación de la medía y la mediana mos de obtener una simple descripción de 10 que en nuestros datos hay
de "típico". Supóngase, para tomar un caso extremo, que en la serie de
Habiendo examinado los métodos de cálculo utilizados en la obtención cin~o números el dato superior fuera la de 962. La mediana seguiría
de la media y la mediana tanto de datos agrupados como no agrupados, siendo en nuestro caso 72, en tanto que la media subiría a 1 241/5, o sea
tócanos ahora comparar sus propiedades. Saltan a la vista varias diferen- 248.2. Ahora bien, ¿es este valor "típico", en alguna forma, de los datos?
cias entre las dos medidas. Primero; la media utiliza más información Ciertamente no. No se encuentra en parte alguna cerca de los datos de
que la mediana, por cuanto al calcular la media n~s servimos de la tota- los cinco casos. Es verdad, por supuesto, que en un ejemplo tan extre-
lidad de las marcas exactas, en tanto que la mediana sólo comporta la mado ninguna medida particular podría utilizarse para describir adecua-
marca del caso medio. Volviendo a las ma,rcas 72, 81, 69 Y 57, vemos damente el caso típico, pero, como quiera que cuatro de los cinco datos
que si la marca más alta hubiera sido 126 en lugar de 86, la mediana se sitúan alrededor de 72, el empleo de la mediana resultaría manifiesta-
habría permanecido inalterada, en ta~to que .la media ha.bría .aumen~do mente menos equívoco. Podemos, pues, decir que: siempre que una dis-
considerablemente. Y en forma analoga, SI la marca mferlOr hubiera tribuci6n es fuertemente asimétrica, esto es, siempre que hay considera-
sido cero, la media habría bajado, permaneciendo la mediat;'a nueyamen- blemente más casos extremos en una direcci6n que en otra, la mediana
te inalterada. Por consiguicnte, podemos establecer una diferenCia muy será por lo regular mds apropiada que la media.
importante entre ambas medidas, a saber: La media.resulta afectada.por La relaci6n entre la desviación y las posiciones relativas de la media
cambio de los valores extremos, en tanto que la medIana permanece mal- y la mediana se indica en la figura 5.1. Como quiera que puede resultar
terada, a menos que cambie asimismo el valor del caso medio. En nues- afectada por unos pocos valores extremos, la media se verá "empujada"
rto ejemplo, mientras 72 siga siendo el tercer caso después del reordena- en la dirección de la asimetría, esto es, hacia la cola. Si la distribución
miento, la mediana permanecerá inalterada.. .. . es perfectamente simétrica, la media y la mediana coincidirán. Sabemos
Esta importante diferencia entre las dos medidas nos permite deCidir que las distribuciones relativas a los ingresos suelen estar desviadas por
en la mayoría de los casos cuál de ellas resulta más ap~opiada .. Por ~o 10 regular hacia los ingresos superiores, con muy pocos de ellos extrema-
regular deseamos que nuestra medida se sir~a d7 ~oda la mformaclón diS- damente altos. Resultaría, pues, muy impreciso presentar ingresos me-
ponible. En una forma u otra ponemos mtUlbvamente más fe e~ la
medida que cumple dicha c.ondición. P~se que al pr~sentc no sea pOSible
reforzar dicha fe con un sóhdo razonamiento estadlsbco, puede darse, con Simétrica
todo, cierta justificación de la preferencia de la ~edia en las circunstan-
cias corrientes. Resulta, en efecto, que la media es por 10 regular una
medida más estable que la mediana, en cuanto varía menos de una mues-
tra a otra. Cuando enderecemos nuestra atención a la Estadística induc-
. tiva, veremos que por lo regular e! investigador tiene más inte;és en gene-
realizar a. propósito de la poblaCión que en su muestra partIcular. Está
perfectamente percatado de que si se hubier~ tomad~ otra ~uestra los
resultados no habrían sido exactamente los mismos. SI se hubiera toma-
, do una gran cantid~d de muestra.s del mismo tamaño, ha.brí~ podido ve;
simplemente en cuanto las medlan~s de las muestras dlf~~an entre SI. ASimétrica negativa ASimétrica positiva
Lo que aquí decimos es que las medIanas de las muestras difIeren de uno
a otro de ellos más que las medias correspondientes. Pero com~ quiera
que en la práctica sólo extraemos por 10 regular una sola muestra, Importa
saber que la medida que emI.'I~~os dará resultados seguros, ~ cuanto
que habrá un míni~o de vanablhdad d~ u?a muestra a la J?r6xlma. Po-
demos, por consigUIente, establecer la slgme?te regla pr~cbca: en caso
de dudd, empléese la medida con preferencIa el la med"tna.
Debido al hecho de que utiliza todos los datos, en tanto que la me-
diana no depende de los valores extremos, la medi~ puede proporcionar Md
en determinadas circunstancias resultados muy ambIguos. Hemos de te- FIG. 5.1. Relación entre la asimetría y las posiciones relativas de la media
ner presente que, al servirnos de una medida de tendencia central, trata- y la mediana
74 ESTADISTICA DESCRIPTIVA MEDIDA DE TENDENCIA CENTRAL 75
dios en el marco de una corporación o de una localidad pequeña. Por adicionando los datos y dividiendo por Ni' Por lo tanto, el producto
ello los datos relativos al ingreso se dan por lo regular sirviéndose NiX i representa la suma de todos los datos de dicha categoría. Así, pues,
de la mediana, más que de la media. Sin duda, si la distribución está la adición de los productos y la división por N nos da el mismo resul-
muy desviada, el hecho debería mencionarse al presentar los datos. En tado que se habría obtenido si se hubieran ignorado las categorías por
tales casos, puede resultar útil indicar ambas cosas, la media y la mediana, completo. Este tipo de manipulación algebraica de la media resul~ en
pese a que esto sólo raramente se hace así en la práctica. . ocasiones muy útil. No ha de resultar difícil darse cuenta que la medIana
La media tiene una segunda propiedad que no posee la medIana: se general de los datos combinados no puede obtenerse en dicha forma. En
deja manipular algebraicamente con mayor facilidad. Así, p;ej., precisa efecto, si conociéramos los valores de los casos medios de cada una de
obtener a menudo un promedio ponderado de varios conjuntos de datos. las categorías separadas, nos faltaría todavía conocer el valor del caso
Supóngase que tenemos los siguientes ingresos medios correspondientes medio de los datos combinados.
a las tres lócalidades A, B y e: Obsérvese, finalmente, una diferencia importante entre la media y la
mediana. El cálculo de la media Il'equiere una escala de intervalo. En efec-
Localidad Habitantes Media to, sin una escala de intervalo no tendría sentido alguno hablar de sumar
A 10000 $ 3518 marcas. Es manifiestamente necesario suponer, por ejemplo, que la suma
B 5000 4760 de los números 30 y 45 equivale a la de los números 20 y 55, ya que
e 8000 4122 ambos pares poseen la misma media. .La mediana, en cambio, puede
emplearse tanto con las escalas ordinales como con las de intervalo.
Si el número de habitantes de las tres localidades fuera el mismo, podría- La marca numérica real de la mediana carecerá de sentido, a menos que
mos tomar la media de esos tres datos como media general. Pero es el dispongamos de una escala de intervalo; pero será sin duda posible situar
caso que la localidad A es dos veces mayor que la localidad B, o sea, en la marca media. Esto significa que, entre otros, podemos separar los
otros términos, que la cifra $ 3 518 .representa un doble número de casos casos en una o dos categorías, según que aquéllos queden por encima o
de los que representa la cifra $ 4 760. Si los 23 mil habitantes se hubieran por debajo de la mediana. Por 10 tanto, las medidas de posición pueden
puesto juntos calculándose la media general, la cifra resultante habría re- emplearse con escalas ordinales, hecho que resulta muy útil para el des-
flejado dicho hecho. Para obtener la media correcta, hemos de ponderar aNolIo de pruebas que no requieren escalas de intervalo. .
cada media separada por el número propio de casos, sumando luego y di-
vidiendo finalmente por el número total de éstos (23 000). Obtenemos 5.5. Otras medidas de tendencia central
en esta forma:
-- Existen todavía algunas otras medidas de tendencia central, ninguna de
las cuales, sin embargo, encuentra un empleo muy corriente en la inves-
tigación sociológica. Una de ellas es el modo, que es simplemente la
(5.8)
marca más frecuente. Si, p.ej., tomamos las tres series de números
siguien tes :
en donde N, y X, representan respectivamente el número de casos y la
media de la categoría i-ésima, indicando k el número de las categorías. (1) 71, 75, 83, 75, 61, 68
Tenemos, por consiguiente: (2) 71, 75, 83, 74, 61, 68
(3) 71, 75, 83, 75, 83, 68
10000(3518) + 5000(4760) + 8 000(4122)
X = --------::-::-:-:::-:------- podemos decir que la primera tiene un modo de 75, ya que hay dos
23000
términos de dicha marca, en tanto que ninguna otra aparece dos veces.
No hay modo alguno en la segunda serie de números, pero los hay dos,
= 91 956000 = $ 3998.09 en cambio, en la tercera (75 y 83). El modo resulta tal vez más útil
23000 cuando se da un número mayor de casos y cuando los datos han sido
agrhpados. En tal caso hablamos a veces de una categoría modal, to-
Podemos justificar fácilmente ese. procedimiento de ponderación ob- mando el punto medio de la misma como modo. En los datos agrupados
servando que la media de la categoría i-ésima fue· en realidad obtenida que hemos utilizado, la categoría modal sería la de $ 5 000 a $ 5 900.
MEDIDA DE TENDENCIA CENTRAL 77
ESTADISTICA DESCRIPTIVA
76
cima o por debajo de sí mismo, podemos querer determinar el valor del
primer cuartil, que posee la propiedad de que un cuarto de los datos
sean de menor magnitud que la suya. Y en forma semejante, el tercer
cuartil representa la marca que tiene por debajo de ella, en cuanto a
magnitud, a los tres cuartos de los casos. Si se prefiere, se puede dividir
la distribución en 10 deciles, fijando marcas que tengan una décima, dos
décimas o nueve décimas de los casos con valores menores. Tal vez el
lector esté más familiarizado con los percentiles, que dividen la distribu-
ción en 100 porciones de tamaño igual. Así, p.ej., el estudiante que falla
en el nonagésimo primer percentil sabe que. el 91 por ciento de los de-
más estudiantes tenían puntuaciones más bajas que él.
FIC. 5.2. Una distribución bimodal El cálculo de los deciles, los cuartiles y los percentiles es directamen-
te análogo al de la mediana. En el caso de datos agrupados, determina-
En una distribuci6n de frecuencia, el mo~o ~esu~tará ~ndic~do por el remos primero el intervalo en cuyo interior queda la medida de posición
t á elevado de la curva. En una dlstnbucl6n Slmétnca con un deseada. Sirviéndonos luego de los datos del cuadro 5.4, obtendremos el
;~~ ':n:~ en el centro, la media, la mediana y el m?d~ ser.án p~~ s~- primer cuartillocalizando la posición del caso N/4 6 47.25-ésimo. De
t 'dénticos Podemos distinguir asimismo entre dlstrlbuclOnes un- la columna de la frecuencia cumulativa vemos que el primer cuartil ha
~o~a~~s~' "bi~odales", tomando el!ta últi~a la forma que aparece en de situarse en algún lugar entre el intervalo de $ 3950 a $ 4 950. Y
1a f 12 Al hablar de distribuclOnes blmodales, no sole~os por 10
r lf:~u' ~er que ambas cúspides tengan exactamente el mismo alto,
como quiera que en dicho intervalo hay 38 casos, hemos de recorrer los
(47.25 - 43) /38 de esa distancia. Así, pues, el valor del primer cuartil
c~o parrcería deducirse de la definición. Hay que observar q~e, co~o Ql será:
uiera ue el modo se refiere a la categoría con el mayor ~~mero e 47.25 - 43
q qd
casOS, po ernos.
servimos de dicho concepto tanto al descnblI escalas
. =
Ql 3950 + 38 =
1000 3950 + 112 $ 4 062=
nominales, como ordmales o de mtervalo. .
Otros dos medidas de tendencia central que .prácbca~ente no se v~
ro la literatura sociol6gica son la medlCt arm6mca y la medIa Otras medidas de posición pueden calcularse en forma análoga. Obsér-
:::~trica. Se definen respectivamente por las siguientes f6mlulas: vese, incidentalmente, que por definici6n la mediana es equivalente al
segundo cuartil, al quinto decil, y al quincuagésimo percentil. Si bien
N los deciles, cuaa:tiles y percentiles s610 se emplean muy raramente en la
Media armónica = - - - - investigaci6n sociológica, conviene por lo menos conocer su sentido.
N 1
~-
i=1 Xi GLOSARIO
Decil"
Media geométrica = {¡ (X¡) (X2 ) · · ••• (X N ) Media
Mediana
En esta última fórmula, la N aniba del radical indica que tomamos la Modo
Percentil
raíz N-ésima del producto de N datos. Cuartil
Distribución asimétrica
5.6. Deciles, cuartiles y percentiles
Al examinar la mediana, sefialamos que hay otras medida~. posicion~ EJERCICIOS
les tales como los percentiles, que pueden ub1izarse paro fijar la
ciÓn de datos mayores que una proporción determina~a. ~e casos
SIO
sas
t 1. Indíquense la media, la mediana y el modo de los números siguientes: 26, 37,
medidas aunque no sean necesariamente medidas de ti~ICldad o cie te~ 43, 21, 58, 26, 33 Y 45.
d . ~tral son análogas directamente a la mediana. Así, p.ej., 2. Calcúlense una media y una mediana de los datos compilados en el ejerci-
:~:ar de b~scar un número que tenga la ~itad de los datos por en- cio 1, cap. 4. Hágase lo mismo en relación con el ejercicio 2, cap .4.
78 ESTADISTICA DESCR'IPTIVA
3. Calcúlense el primer cuartil, el cuarto decil y el septuagésimo primero per-
centil de los datos del ejercicio 1, cap. 4.
4. Los siguientes datos (hipotéticos) muestran la distribución del porcentaje VI. ESCALAS DE INTERVALO: MEDIDAS DE DISPERSIóN
de las familias granjeras en 60 distritos. Calcúlense la media y la mediana.
~
~
<=1
(X.-X)2
•
conducir a resultados engañosos, en cuanto puede ser extraordinaria-
mente grande. En tales casos nos serviríamos probablemente como me-
s= (6.3) dida de tendencia central de la mediana y, tal vez, de la desviación
N cuartil como medida de dispersión. Sin embargo, para la mayoría de los
en donde s se emplea para designar la desviación estándar.1 O en pala- datos la desviación normal resultará adecuada.
bras: tomamos la desviación de cada marca con respecto a la media, cua- Es razonable preguntar: "¿por qué molestarse en extraer la raíz cua-
dramos cada diferencia, sumamos los resultados, dividimos por el número drada al calcular una medida de dispersión?" Una respuesta fácil, aunque
de casos y extraemos la raíz cuadrada. Para conseguir una respuesta co- poco satisfactoria, sería la de decir que así es como se define la desviación
rrecta, es indispensable que las operaciones se efectúen exactamente en estándar. Podría justificarse la extracción de la raíz cuadrada señalando
el orden indicado. En nuestro ejemplo numérico la desviación estándar que, ya que hemos cuadrado cada desviación, lo que hacemos es com-
podría conseguirse como sigue: pensar dicho paso anterior. Sin embargo, resulta más comprensible justi.
ficar la extracción de la raíz en términos de su carácter práctico. Como
quiera que, en efecto, más adelante habremos de hacer un empleo con-
x, siderable de la curva normal, la desviación estándar, tal como se la ha
definido, ['esulta ser una medida muy útil. Para otros fines nos servire-
72 - 1 1 mos del cuadrado de la desviación normal o vaTÍancia, que se define como:
81 8 64
86 13 169
69 - 4 16
57 -16 256
Variancia = S2 = -----'-
X= 73.0 O 506 N
s = V 506/5 = V 101.2 = 10.06 Los matemáticos han encontrado que el concepto de variancia poseía
mayor valor teórico que la desviación estándar. A parti'I' del. capítulo XVI,
El significado intuitivo de la desviación estándar no nos aparecerá haremos un uso creciente de la variancia, pero de momento podemos
claramente hasta más adelante, cuando nos sirvamos de s para damos las limitar nuestra atención a la desviación estándar. Los dos conceptos son
áreas bajo la curva normal. Por el momento la aceptamos simplemente por lo demás tan fácilmente intercambiables, que podemos pasar sin difi·
como un número abstracto. Sin embargo, algunas propiedades de la cultad del uno al otro. Que se defina la variancia como cuadrado de la
desviación estándar son ya manifiestas desde ahora. Observamos, en efec· desviación estándar o ésta como raíz cuadrada de la va'riancia, esto no
to, que cuanto mayor es la dispersión alrededor de la media tanto mayor reviste importancia alguna.
es la desviación estándar. Si todos los cinco valores hubieran sido cero, Cálculo de la desviación estándar de datos no agrupados. Si bien
la desviación estándar puede calcularse siempre a partir de la fórmula
1 Algunos textos definen s con N - 1 en el denominador en vez de N. La razón de básica que se acaba de dar, resulta a menudo más sencillo servirse de
ello no resultará clara hasta en el capítulo 11. fórmulas de cálculo que no requieren la sustracción de la media de cada
-
MEDIDAS DE DISPERSIóN 85
ESTADISTICA DESCRIP1'IVA
84
-.la En efecto no sólo la media no será por 10 regular un
marca separ<fU . , " d edondcf' = -1- ~ N,~N X;-
. (Ji,~X¡ )2 (6.7)
, mero entero, sino que usualmente sC comct~ran errores e r,. J N .-=1 .=1
nu em lear la fórmula antes indicada. Con objeto de ver ~e que modo
a~a!os simplificar los cálculos, desarrollemos la expresIón que está Si ,bien cualquiera de las formas precedentes puede utilizarse como
~baio del radical. Tenemos: fórmula de cálculo, la ecuación (6.7) es la que comporta, con todo,
menos errores de redondeo, por ello se la rccomi{.'flda.
N _ 2 N .) --<)
~ (X, - X)· ~ (X; - 2X¡X + X~) SÍlrVámonos de una de dichas fónnulas de cálculo (ec. 6.7) en el
problema anterior, en donde N 5. =
;=1
--------
i=1
N N
N
Xi ,
X2
7Z 5184
81 6561
86 7396
69 4761
57 3249
365 27151
- ~ X IN el t6rmino central se reduce a En adición al número total de casos, las dos cantidades requeridas son
Pero, como quiera que X = 1=1 ¿ , ,¿"
N N 2 •
-25(2, Y podemos escribir: ~ X, Y ~
X,. Ambas sumas pueden acumularse simultáneamente con las
l=1 i=1
" ~
'Ay
l'; (X. - X)
- 2
i X: ~ X; modernas cillculadoras de oficina. Calculamos ahora s a partir de (6.7):
i=1 ____ 2x2 + )(2 =____ )(2
l=1 ;::1
s = 1/5 V 5 (27151) - (365)2 = 1/5 \/ 135755 - l33 225 = 10.06
N N
N
Por 10 tanto: Nos hemos servido de este problema muy sencillo para ilustrar que la
N ') f6nnula de cálculo da el mismo resultado numérico que la fórmula básica
LX;
de la ej:mlción (6.3). Como quiera que X resultó ser un entero, la fórmu-
s=
V _¡=1
Y .
T
): X:.
i=1
N
1_1
._--
n
Xi (,~
X
N
) (6.5)
y sirviéndose de una medida supuesta. Sil!- duda introducimos con ello
alguna inexactihId; pero el ahorro de tiempo es sustancial. Siguiendo
=
una convención corriente, supongamos que X¡ Xl - X,. En consc-
cuencia, las x minúsculas '1'epresentan desviaciones respecto de la media,
y la fónnula básica de la desviación estándar se convierte en:
(6.6)2
N"
~ x;
s=
Yl=1
N
MEDIDAS DE DISPERSIóN 87
86 ESTADlSTICA DESCRIPTIVA
POd~lOS modifi~r ahora la fórmula tomando en cuenta el hecho de
habra un gran numero de casos tratados todos co~o si tuvieran el mismo
valor, esto es, uno de los puntos medios. Si multiplicamos el número
de casos en cada· cIase por el punto medio propio y sumamos luego los
productos, nos podemos ahorrar el trabajo de sumar todos los N casos. VCl1l0S que·
La fórmula' de la desviación estándar se convierte así en:'
(6.8) N
y. que, por lo tanto:
~n t,
donde es el número de casos del intflrValo i-ésimo y k el número de
mtervalos.
. ~ui)(mgamos ahora que anticipamos una media y tomamos las des-
ViaCIOnes con respecto a ésta, en lugar de respecto de la media verdadera. De este modo, el factor de C011l'ecCÍón resulta ser el cuadrado de la dife-.
Mostramos en el capítulo anterior que la suma de las desviaciones cua- rencía entre las medias verdadera y la supuesta. Vemos inmediatamente.
dradas de l~ ~edia será menor -que cualquier otro valor- que la suma . que, si hubiéramos anticipado la media exactamente, el factor de correc-
de las dcsvlaclOnes cuadradas. En particular, la suma de las desviaciones ción habría sido cero. Por lo tanto, Cuanto mayor sea la diferencia entre
c~adradas de la medi~ anticipada será mayor que la cifra obtenida' sir- las medias verdadera y supuesta tanto mayor será el factor de corrección.'
vJ.~nd?nos de la media verdadera, a menos, por supuesto, que aquélla Una suposición deficiente conducirá siCl1lpre al Il'esultado correcto, pero
comclda con ésta. Puede, pues, demostrarse que cuanto más cerca queda comportará marcas numéricas mayores en ambos términos de la fórmula.
la ~ed~a supuesta de la verdadera, tanto menor resulta la suma de las :¡;;sta puede modificarse más todavía si preferimos pensar .en términos
des~laclones cuadradas de la media supuesta. En otros términos: si nos de desviaciones graduales dl. Lo mismo que en el capítulo v, ponemos
servimos de una media supuesta, esperamos obtener una suma de cua- en factor l~ amplitud del ·intervalo de cada d, y multiplicamos. el resul-.:
drados dCl1lasiado grande. Lo mismo que anteriormente, podemos servir- tado final por i, una vez el proceso terminado. La f6'nnula se convierte
no.s.de un factor d~ corr~~ión, al que sustraemos'luego del valor obtenido así en:
utlh~ndo la media antiCipada. La fórmula de la desviación estánda.r se
convierte en tal caso 'en:
/,; /,;
"
s=Y
l: ti(
i=1
N
-( ~ fidl
1=1
-( '=1 )'
¡,. 1.:
l: fi d?· ~ f,d',
,=;~
Si se desea, puede utilizarse también una variancia relativa. Por des-
)'
k k
~
i=1
-f¡d'¡'2
N
-( ~
i==1
f¡d'¡
N
gracia, estas medidas relativas de dispersión se halla,n citadas con muy
poca frecuencia en la literatura sociológica. Es mucho más frecuente,
en efecto, encontrar las medias y las desviaciones estándar relaciona-
das en columnas adyacentes.
= 1 000 ~415
- - - (-63)~
- =: 1 000 v' 2.196 - .lll
189 189 6.6. Otras medidas resumidas
=1444 Sólo hemos examinado dos tipos de medidas resumidas: las de tenden-
cia central y las de dispersión. Son posibles, además, otras medidas,
Obtuvimos en esta forma una media de $5117 y una desviación aunque sólo se las utiliza raramente en la investigación sociológica. Sin
estándar de $1 444. Estos dos números pueden servir ahora para resu- duda, encontramos a menudo dada la distribución de frecuencia entera,
mir los datos o para compararlos con datos de otra muestra. Según ve- pero esto no constituye una medida particular de resumen. Resulta a
remos más adelante que pueden emplearse también para verificar hipó- veces deseable indicar en una distribución el grado de asimetría. Una de
tesis o para apreciar medidas de población. las medidas de ésta saca provecho del hecho de que cuanto mayor
90 ESTADISTICA DESCRIPTIVA
es la asimetría tanto mayor resulta la diferencia entre la media y la
mediana. Esta medida se halla dada por la fórmula:
VII. LA DISTRIBUCIóN NORMAL
. ,3(X - Md)
ASImetna = - - - - -
s LA NOCIÓN de la distribución de frecuencia es ya familiar. El presente
~i la distribu~ión está desviada hacia la derecha (grandes marcas posi- capítulo se ocupa de un tipo muy importante de distribución de frecuen-
tiva.s ~, la media será mayor que la mediana, y el resultado será un número cia: la curva normal. Esta distribución es muy útil, no sólo porque un
POSItiVO. En tanto que la distribución desviada hacia la izquierda dará gran número de distribuciones empíricas se encuentran ser aproximada-
un ,resultado negativo. mente normales, sino debido también a su significado teórico en la esta-
. Con muy poca frecuencia, también, hallamos en sociología referen- dística inductiva. En este momento, el lector no debe preocuparse por
CIas al carácter general de las cúspides de una distribución asimétrica. las aplicaciones en las que se emplea la curva normal. En efecto, el objeto
U~ilízase el término de picudez en relación Con dicha medida, que exa- del presente capítulo está en indicar las propiedades de la curva en cues-
mmaremos brevemente una vez que hayamos visto la curva normal. Por tión y en familiarizar aIlector con el empleo de cuadros basados en la
lo regular, !os text~s de estadística escritos ante todo para los estudiantes misma. Esta distribución se examina en la estadística descriptiva más
de eCOnomla se ocupan más a fondo tanto de la desviación como de la que en la inductiva por dos ,razones principales. Primero, la curva normal
picudez. ~al. vez cuando empecemos a alcanzar una mayor precisión puede emplearse para proporcionar una interpretación de la desviaci6n
en la descrIpcIón de las formas exactas de las distribuciones de las varia- estándar. Y en segundo lugar, le será útil al lector pa-ra familiarizarse con
bles ~oc!ológicas hallaremos un mayor empleo para estas otras medidas la distribuci6n normal algunos capítulos antes de exponerse a pruebas
descnptIvas. estadísticas que requieren facilidad en la manipulación de la misma. Por
GLOSARIO lo tanto, cuanto mejor se comprenda la materia expuesta en este capítulo,
tanto menos dificultad se experimentará más adelante.
Coeficiente de variabilidad
Desviación media
Desviación cuartil
7.1. Distribuciones de frecuencias finitas versus infinitas
Recorrido Las distribuciones de frecuencia hasta aquí examinadas comportaban un
Desviación estándar número finito de casos. De hecho, por supuesto, todas las distribuciones
Variancia empíricas comportan necesariamente un número finito de casos, aunque
tal vez muy grande. Sin embargo, los matemáticos consideran ventajoso
EJERCICIOS a menudo pensar en términos de distribuciones ~ºas....ro.nn.n.úm~º-.!k~
l. Calcúlense las desviaciones media y estándar de los datos indicados en el .GaSos infir!idammte._gran~. Másolen que tratar con distribuciones em-
ejercicio 1, cap. v. píricas"'cfé aspecto anguloso, como las que ejemplifican el histograma
. 2: .Calcúlense las desviaciones e~tándar y cuartíl de los datos agrupados en el o el polígono de frecuencia, resulta posible concebir curvas lisas basadas
eJercIcIO 1" cap. IV. ~ág~se lo mismo con los del ejercicio 2, cap. IV. en un número indefinidamente grande de casos y susceptibles de ser ex-
3. Calculese la desvla~ón estándar de los datos del ejercicio 4, cap. v. Con- presadas en términos de ecuaciones matemáticas relativamente sencillas.
tr.óI~nse los cálculos escogiendo una media anticipada y una fómula de cálculo La distribución normal es una de tales curvas. Antes de examinar esta
dIStintas.
distribución especifica, convendrá estudiar la naturaleza del proceso a
4•. ln?íq?ese en qué ~or~a. resultaría afectada la desviación normal por"los través del cual se desarrolla una curva lisa semejante. .
cambIOS' mdlcados en el eJercICIo 5, cap. v.
Empecemos con un histograma que comprende cinco intervalos (fi-
gura 7.1a). Con fines de simplicidad supondremos que la distribución
BIBLIOGRAFÍA
de frecuencia es simétrica. Ya vimos que si el número de intervalos
1. Dombusch, S. M. y C. F. Schmid, A Primer of Social Statistics, McGraw-Hill aumentaba sin cambiar N, la forma del histograma tiende a hacerse irre-
Book Company, lne., Nueva York, 1955, caps. 6 y 8. gular. Supóngase, sin embargo, que el número de casos se ha aumentado
2. Hagood, M. J. Y D. O. Price, Statistícs for Sociologists, Henry Holt and Com- asimismo. En tal caso, como en la figura 7.lb, será posible servirse de un
pany,. Inc., Nueva York, 1952, cap. 9. mayor número de intervalos más angostos, cada uno de los cuales tenga
3. Walhs, W. A. y H. V. Roberts, Statistics: A New Approach, Free Press, Glen- un número suficiente de casos para mantener la regularidad. Si el número
coe, IlI., 1956, cap. 8.
de casos sigue aumentando, pueden emplearse todavía más rectángulos,
91
92 ESTADISTICA DESCRIPTIVA LA DISTRIBUCIóN NORMAL 93
conservando, con todo, el tipo regular (fig. 7.le): Las curvas lisas ,se han infinito de casos, podemos, sin embargo, concebir un número tan grande
trazado por los puntos medios del lado superIor de cada rectángulo. de ellos, que los rectángulos se acerquen a la curva lisa con el grado de
Resulta claro que los rectángulos van formando aproximaciones cada vez exactitud deseado.
mejores a la curva lisa a medida que el número de los mismos aumenta, Se recordaa-á que el área de cada rectángulo puede utilizarse para
esto es, a medida que disminuye el ancbo de cada intervalo. Imaginemos representar la proporción de casos comprendidos en el intervalo. Como
ya se indicó en el capítulo IV, el área total de todos los rectángulos se
suele hacer igual a la unidad. Así, pues, si la proporción de los casos del
primer intervalo es .10, entonces dicho mismo número representa el área
real del primer rectángulo. Observamos ahora que el área del rectángulo
correspondiente puede aproximarse al área que queda debajo de la curva
lisa al interior de cualquier intervalo dado. Es lo que indica la figura 7.2.
-Areo bajo
(al la curvo
pero no el
rectángdo
Fle. 7.2. Comparación de laS áreas debajo de la curva y debajo del rectángulo
1
Y = - - - - e-(X-x)'/2a'
sV2te
Leptocúrtico
Distribución de frecuencia límite
X=168
$= 12 Curva nonnal
Plaeticúrtico
Marca estándar
BIBLIOGRAFÍA
"'¡
~:
'.'
peA o K) = peA) + P(K) = 1/13 + 1/13 = 2/13
EOLsupnesto, pudimos haber obtenido el miSIDíL..resultado--teniendo-en.
cuenta que ~ay cuatro ases y cuatro reyes enJa bara~on igual~lil
lJaDiIíóades e seTecCión, la J>l:"0baDiIíclacICIeobtener el uno o eLQtr-º..de
dichos-naipes-sería-de--g/'2~-o¿713~~!l_fC:>!!!!':l.ªI!~!~llLla~ba!J~~~ad
de sacar ya sea un 5 o un 6 en un simple golpe de erados sena de
1/6 + 1/6 = 1/3. ... ....... -,-
La regla de la adición puede hacerse extensiva a más de dos casos.
Así, p.ej., si A, B, C ... , !S son todos ellos mutuamente exclusivos, en-'
tonces tenemos: .
P(AoBoC ..... oK)=P(A) +P(B) +P(C) ..... +P(K) (9.2)
S¡"tenemos una población compuesta de 100 personas de la clase-S.UpCrior,_
200~ clase superior a la media, 400 de la inferior a.la-media.y..300
de la inferior, por ejemplo, la probabilidad de sacar una persona de la
clase superior, o una de la clase superior "él la media, o una de la clase
inferior a la media en una sola vez será:
100 200 400 700
1000 + 1000 + 1000 = 1000 = .7
o~ P(A) ~ 1
otra.
hCOS:
-SLdtLdicha~-pºbJ.a.dºº",~ªn:~gt!ª~_.P.o~ ~!!i1_.P~!..S~!1.~~.~}_C:2~.c~1.~~~~
.....P~(A==&=B~)==::::::::=Pd(=A.)P;;.(;¡,;B;..¡;) _ _ (si A y B son independientes) uIlª-IDuchacha,_¿cuál..es-la.~probabllidad de qlle~ea."una.._'¡leurIQ:Ja-:--_
" pr~dora? .~_()Il1<?9.uiera qu~~el1~ ~l;~ot;¡l,de. )J:P:!!~ ml!~aE4~-~hay JPO
pelirrojas'emprendedoras, la probabIlIdad de sacar una ~e dIcho grup?
I
Pese a que la regla se hace más bien complicada por lo que se refiere
a las probabilidades condi:ionales, ,sus ~rin~ipios. pueden aplicarse fácil-
mente a ciertos casos senCIllos; ASl, p.ej., SI hubIéramos de sacar cuatro
93. Independencia y muestreo aleatorio
.ases con sustitución, podríamos calcular la probabilidad de obtenerlos
como sigue: Todas las pruebas estadísticas a examinar en este texto parten del su-
4 3 2 1 1 puesto de que hay independencia entre los acontecimientos y que, por
P(4 ases) = 52515049 = 270725 consiguiente, las probabilidades condicionales no han de emplearse al
multiplicar las probabilidades.u En otros términos: se supone que existe
independencia de selección en el interior de una muestra, no teniendo
El orden de los acontecimientos, Antes de terminar este breve exa- la selección de un individuo influencia alguna sobre la selección de otro
mende las propiedades matemáticas de las probabilidades.. es menester a incluir en la misma muestra. Sin embargo, se dan muchos casos en
introducir una complicació~ más. ~asta aquí hc:mos. ~cog¡do problemas que se propende a violar dicho importante supuesto. De ahí que el lec-
muy sencillos, que casi habnan podIdo resolverse mtul~~amente. No hace tor deba acostumbrarse a preguntar siempre si el supuesto de indepen-
falta decir que la mayoría de los problemas de, probablhdad~ son mucho dencia está o no efectivamente justificado en cualquier problema dado.
más complejos que los que se acaban de exammar. Con objeto de operar Será útil, en este punto, indicar unos pocos ejemplos de situaciones en
con problemas un poco má~c~mplicados, S necesari:o tomar en cuenta el las que se corre riesgo de prescindir del supuesto en cuestión.
orden en que los aconteclmIento~EbTfenJ)~~~~~I~~~:m~l!Póngase, por
eíemplo, que queremoSñá1f:lrlapro a ~ai? ae obtener un aj, un rey 11 Es l~ que se verá en el caso de la binomial que se examinará en el siguiente
,-
.
y una reina en tres extracciones c?n sUSt1tUCIÓ~. Podemos hanar ro pro-
babilidad de sacar un as en la pnmera extraCCIón, un rey en la segunda
capítulo. Sm embargo, en el caso de otras pruebas, el lector habrá de aceptar simple-
mente la verdad de este aserto .
126 ESTADfSTICA INDUCTIVA PROBABILIDAD 127
Los estadígrafos obtienen a menudo lo que se designa como muestrq ciones de familias no tienen la misma oportunidad de figurar en aqu~lla.
al azar (o muestra irrestricta aleatoria) con objeto tanto de satisfacer el En efecto, dos familias de la misma manzana tienen mayor oportumdad
supuesto necesario de independencia como para dar a todo individ.uo de figurar en la misma muestra de lo que es el caso de dos familias en dos
de la población considerada un número igual de oportunidades de figurar manzanas distintas. Como quiera que las manzanas de casas urbanas
en la muestra. Sirviéndonos de una tabla de números al azar, o algún suelen ser por lo regular relativamente homogéneas en cuanto a. ~arac
otro arreglo por el estilo, puede obtenerse una muestra en forma esen- terísticas tales como el ingreso o la instrucción del jefe de famlha, el
cialmente idéntica a la de extraer naipes de una baraja bien. barajada o resultado de semejante tipo de extracción de muestra será menos exacto
números en un juego de lotería. La muestra aleatoria posee la propiedad que una selección de una muestra aleatoria del mismo tamafio. Esto
no sólo de dar a cada individuo la misma oportunidad de ser seleccio- puede verse intuitivamente si imaginamos una situación en que todas
nado, sino también la de proporcionar a cada combinación de individuos las manzanas sean totalmente homogéneas, como era el caso de los cua-
una oportunidad igual de selección.12 . .
tro montones de naipes. En tal caso, en efecto, sólo necesitaríamos obte-
En rigor, como quiera que casi siempre extra,emos las muestras sin ner información acerca de una vivienda en cada manzana, y el número
reposición, el supuesto de independencia no se cumple por completo. de "casos" sería de hecho el número de las mcJnzan08 seleccionadas, esto
Sin embargo, cuando la población es grande en relación con la magni- es, un N bastante menor. Según veremos más adelante, es posible obte-
tud de la muestra; podemos olvidar perfectamente la pequeña distorsión ner unos resultados extremadamente engafiosos, si habiendo extraído una
resultante de que a ningún individuo se le dé la oportunidad de ser selec- muestra semejante por conglomerados, el investigador se sirve luego de
cionado otra vez. Por ejemplo: si de una población de 100 mil personas
pruebas estadísticas que presuponen una extracción al azar. .
se extraen 500, las probabilidades S011 muy pequeñas dc que alguna de
!le Un problema análogo puede fácilmente encontrarse cuando ~e está
ellas volviera a seleccionarse en el caso de que su nombre se pusiera
de nuevo en el grupo. Y en forma análoga, la diferencia es prácticamente interesado en los actos individuales de conducta. Supóngase, p.CJ., que
muy pequeña si reponemos o no al extraer sólo tres cartas de una baraja; un sociólogo efectúa un experimento en el que se sirve de 30 sujetos,
pero, si extrajéramos 35, la diferencia sería considerable. Si la muestra es cada uno de los cuales formula 50 juicios distintos. Se tendrían en tal
relativamente grande en comparación con la población, entonces púede caso 1 500 juicios, y nos podríamos ver inducidos a servimos e~ una
aplicarse a veces un factor de corrección para compensar la fa~ta de prueba estadística de semejante N artificialmente ponderada, supomendo
remplazo.11I . que los 1 500 juicios en cuestión constituían una muestra al azar de los
* Pese a que los problemas resultantes de la falta de remplazo no 'sean juicios de algún tipo de población. Pero sería manifiestamente absurdo
graves, la falta de proporcionar a cada combinación de individuos la en la mayoría de los casos suponer que los juicios de un. mismo in~~d~o
posibilidad de aparecer en la muestra puede traducirse en una grave vio- son independientes unos de otros. En efecto, sus pomeros 30 JUlClOS
lación del supuesto de independencia. Supóngase, p.ej., que nos dispusié- afectarán probablemente a los demás, ya que a diferencia de la moneda,
ramos a clasificar los naipes corrientes en cuatro montones: uno para los la persona sí tiene memoria.
tréboles, otro para las espadas, etc. Supóngase luego que fuéramos a selec- !le Supóngase que un sociólogo se interesa ante todo en pares de per-
cionar uno de dichos montones al azar. Es obvio que cada carta de la sonas como unidad más que en el individuo singular. Puede tener un
baraja tendría la misma oportunidad (1 sobre 4) de ser seleccionada, grup~ de 20 perso~as, cada una de las cuales esté en interacción con
pero indudablemente todas las combinaciones no serían posibles, y no todas las demás. Tendría, en consecuencia, (20) (19) /2 o 190. pares de
digamos ya igualmente probables. En efecto, sabiendo que el naipe de personas, pero no estaría en condiciones de considerar cada par co~o
encima es una espada, sabemos que todos los demás naipes del montón independiente de los otros. Es obvio que el conocimiento a propós.lto
son igualmente espadas. del par Smith-Brown suministrará probablemente alguna informaCIón
* Las muestras de área o por conglomerados empleadas comúnmente sobre los pares Smith-Jones o Brown-Jones, ya que las mismas personas
en las investigaciones sociales no cumplen el supuesto de independencia figuran en varios pares.
por esta misma razón. En efecto, si se seleccionan al azar 100 manzanas * Los ecólogos, antropólogos y otros sociólogos interesados en .g~e
de casas de una población y luego se incluye en la muestra cada tercera ralizar a propósito de localidades, sociedades u otras unidades ~efimdas
familia de las manzanas en cuestión, es obvio que todas las combina- espacialmente necesitan también preocuparse de la falta de md~en
12 En el cap. xxn se distinguirá la extracción de muestras al azar de otras formas de dencia en una gran parte de su labor. Aquí el problema parece denvarse
extracción de uso corriente, tales como la sistemática, la estratificada y la de conglo- del hecho de que las unidades seleccionadas no son a menudo claramente
merados. distintas. En efecto, las fronteras de una sociedad o una localidad pueden
13 Véase secc. 22.1.
ser difíciles de definir, y una unidad semejante puede pasar gradualmente
128 ESTADISTICA INDUCTIVA PROBABILIDAD
129
a la otra, siendo las divisiones más o menos arbitrarias.14 Así, p. ej., si se indicado consistirá en hacer el menor número de co .
utilizan como unidades los distritos del censo en el interior de una ciudad dentro de los límites de lo practicable. mpromlSOs posible,
o los distritos territoriales en el interior de un Estado, resulta a menudo
posible predecir a propósito de una unidad sobre la base de la unidad
GLOSARIO
vecina. Si la cuota de delincuencia es elevada en un distrito, es probable
que lo sea también en el vecino, ya que es inclusive posible que las mis- Sucesos
mas bandas de delincuentes se extraigan de ambos distritos. Que "algo no Sucesos independientes
está en orden" en relación con el supuesto de independencia puede per- Limite
cibirse intuitivamente dándose cuenta de que, cuando las unidades no Sucesos mutuamente exclusivos
son claramente distintas, sería posible ponderar el número de "unidades" Probabilidad
a cualquier tamaño deseado, cortando simplemente el pastel en muchos Muestra aleatoria
pedazos pequeños. Así, p.ej., si no hay bastantes sociedades en el mundo
para obtener significancia estadística, podría dividirse cada sociedad en EJERCICIOS
10 subregiones y obtener 10 veces más "casos".
En un texto como éste no es posible examinar soluciones a los pro- 1. En un simple lanzamiento de una moneda
lidad de: correcta, ¿cuál es la probabi-
blemas que comportan violaciones del supuesto de independencia. Que
el autor sepa, muchos de dichos problemas no han sido resueltos satis- a)¿sacar un 6?
factoriamente. Resulta a menudo dificil apreciar la gravedad de los b)¿no sacar un 67
errores introducidos cuando no se cumplen supuestos requeridos, como c)¿sacar un 1 o un 6?
el de independencia. Pisamos terreno firme siempre que tenemos la d)¿sacar un 1 y un 6?
seguridad de que los supuestos requeridos para alguna prueba sí se cum- e) ¿sacar un número par o un 6?
plen; pero si no se cumplen, raramente resulta posible decidir exacta- .;. ¿Cuál ~ la posibi1id~d de obtener cada uno de los siguientes resultados
mente en qué medida nos apartamos de dichos supuestos. Con objeto en es extraCCIOnes de un Juego de naipes bien barajado:
de estar seguro, el lector ha de acostumbrarse a examinar cuidadosamente
todo supuesto. Si se tienen motivos para dudar de la validez de alguno, a) ¿tres sotas, con sustitución?
entonces habría que considerar seriamente el servirse de otro procedi- b) ¿tres sotas, sin sustitución?
miento que no lo contenga. Así, p.ej., podría decidirse recurrir a otra c) ~~~~pada, un corazón y un diamante (en cualquier orden), COn susti.
unidad de análisis, o sea a la persona, más bien que a los actos de la
d) ¿exactamente dos ases, COn sustitución?
conducta o a los pares de personas, o bien a los delincuentes particulares
. más que a las tasas de delincuencia en relación con un distrito del censo. e) ¿por 110 menos un as, con sustitución? (Indicación: ¿cuál es la alternaf
~a~os~~) m
Si bien los sociólogos y otros que se sirven de la estadística aplicada
han propendido en ocasiones a prescindir de los supuestos, llegando así • f) ¿por lo menos un as y por. lo ,~enos un rey, con sustitución? (Indicaci6n:
en f) y en algunos de los, eJerCICIOS que siguen, será útil dividir el roble
. a conclusiones infundadas, es también posible, por otra parte, pecar de en t~es pasos: 1) deternllnar las distintas combinaciones de cartasPque d:
prurito excesivo de perfección. Comoquiera que, en efecto, no nos las por o meno,s un as y por 10 menos un rey (v.gr., un as un re otra
habemos nunca con situaciones tan sencillas como las de lanzar una ~r:b:~~qu~r~: dos ,ases y un rey" etc.); 2) determinar 'la pro?a~lidad
moneda al aire o sacar naipes de una baraja perfecta, resulta siempre n r c os naIpes en cualqUIer orden particular- y 3) determinar
posible poner en tela de juicio cualquier procedimiento a título de imper- par~blcada una de dichas combinaciones el número de ordenamientos
pOSI es.
fecto en relación con el ideal que se persigue. Se puede abrigar un temor
tal de violar supuestos, que se prefiere prescindir por completo de toda
S 3, Supóngase que se interrogan 1 000 novatos acerca de sus gustos musicales
técnica estadística. Es necesario, sobre todo en una disciplina que se e encuentra que 400 de los estudiantes son aficionados a la música clásica •
caracterice por estudios exploratorios y técnicas científic;as relativamente ~~to fue ~os r¡;tantes no lo son. De estos 400 aficionados, sólo a 100 les ~s:
imprecisas, llegar a compromisos con la realidad. El procedimiento más oc, ,an ro. Hay 400 personas a las que no les gusta ni un énero ni o
de rr,USlca, en tanto que a las restantes les gustó sólo el TOck andgroU. tro
14 Esta situación se parecerla en cierto modo a la de una baraja cada una de cuyas
cartas pasara insensiblemente a las otras, de modo que resultara diUcn decir dónde una
de ellas terminaba y empezaba la otra. O también, 1que cada carta fuera capaz de in- a) Si se escoge un, es~diante a~ azar, de entre la población en cuestión si
fluir los valores figurados de sus vecinas inmediatasl A es el aconteCImIento consIStente en que le gusta la música clásica' : B
PROBABILIDAD 131
130 ESTADISTICA INDUCTIVA
el acontecimiento consistente en que le guste el roek and roll, ¿cuáles son Supóngase que de esta población de 217 estudiantes se seleccionan aleatoria-
P(A),P(B),P(AIB) y P(BIA)? mente individuos,
b) Verifíquese numéricamente que
a) ¿Cuál es la probabilidad de seleccionar un estudiante de aspiraciones ~le
P(A & B) = P(A)P(BIA) = P(B)P(AIB) vadas? ¿Cuál es la probabilidad de seleccionar un estudiante de aspira-
ciones elevadas, en el supuesto de que sea varón? ¿En el supuesto de que
el
¿Cuál es la probabilidad de seleccionar una persona a la que guste uno sea mujer?
de los dos géneros de música, pero no ambos? b) Supóngase que de dicha población se seleccionan individuos al azar .(si~
d) Observando que una persona puede tener uno de los siguientes tipos de sustitución), indicando por suposición en cada caso si se trata de un mdl-
gusto (que le gu.s!en los dos géneros, que no le guste ninguno, etc.) , viduo de aspiraciones elevadas o modestas. ¿Con qué frecuencia se supon-
¿cuál es 1!1 probabilIdad de que tres estudiantes seleccionados al azar como drá que tiene aspiraciones elevadas? ¿Modestas? ¿Por qué? En 217 ex-
* compañeros de cuar~? tengan los mismos gustos? (Supóngase sustitución.) tracciones, ¿cuántos errores se esperar cometer?
e) ¿Cuál es la probabilidad de que haya por lo menos dos aficionadus al e) Supóngase que se sabe el sexo del estudiante. Dado que es varón, ¿cuántos
rock and roll en un corredor de ocho personas? (Supóngase selección errores se esperan cometer al asignar los 53 varones a las categorías
al azar, con sustitución.) respectivas de aspiraciones elevadas o modestas? ¿Cuántos en relación
consi~an a continuación, supóngase que A es el acon-
*.4 .. En los da.tos que se con las mujeres? '
d) ¿Cómo podría construirse un índice que mostrara la _reducción propor-
teCImlen~o consistente en selecciOnar un varón, B el acontecimiento consistente
en seleccIOnar una persona de cultura universitaria, y C cl consistente en seleccio- cional de errores, si el interrogado es varón, en comparación con los
nar una persona de grado elevado de prejuicio: errores en el caso de desconocerse el sexo? Como se verá en el capítulo xv,
semejante índice puede emplearse para medir la fuerza o grado de rela-
ción entre el sexo del interrogado y sus aspiraciones profesionales.
Cultura inferior a
Cultura universitaria universitaria
Grado de
prc;uieio BIBLIOGRAFÍA
Varones Mujeres Varones Muieres
1. Freund. J. E., Modern Elementary Statistics, Prentice-Hall, Inc., Englewood
Al~o 100 50 :wo 250 Cliffs, N. J., 1952, cap. 7.
Bajo 150 100 150 200 2. McCarthy, P. J., Introduction to Statístical Reasoning, McGraw-Hill Book
Company, Inc., Nueva York, 1957, cap. 7.
a) Há~lese P(A & B & C) en una sola extracción, sin servirse de fó~ula. 3. Savage, L. J., The Foundations of Statistics, John \Viley & Sons, Jnc., Nueva
Extiéndase luego la fórmula empleada para obtener P(A & B) escnbiendo York, 1954, caps. 1-3.
una fórmula gene:al para la obtención de peA & B & C). Verifíquese
que la fórmul~ es Cierta en el caso de los datos numéricos de este ejercicio.
b) Hágase lo mismo para P(AoB oC).
e) ¿C~ál ~ l~ probabilidad de seleccionar exactamente un varón de cultura
umversltana, exactamente una mujer de cultura universitaria y exacta-
mente una persona de alto grado de prejuicio en una extracción al azar
de tres personas? (Supóngase sustitución.)
* .5. ~os estudia~te~ inscritos en un CIlrsO de introducción a la sociología de la
Umve~sld~d d-e Mlchlgan fueron clasificados según sus aspiraciones profesionales
rar~ SI mlsmo~ 0. para sus cónyuges, conforme al sexo de los interrol!ados. Se ob-
tuvieron los Siguientes datos: ;;>
Aspiraciones Aspiraciones
Sexo elevadas modestas Total
Varones 43 la 53
Mujeres 71 93 164
------..-
Total 114 103 217
CORRELACIÓN Y REGRESIóN 301
comprensión se va perfeccionando, la predicción se hace cada vez más
precisa. Es posible que si la comprensión fuera completa la predic-
XVII. CORRELACI6N y REGRESI6N ción perfecta lo sería también. Sin embargo, independientemente de las
implicaciones filosóficas de semejante punto de vista determinista, es 10
cierto que la predicción constituye el objetivo de toda ciencia.
1 ... te examinaremos la relación entre
EN EL presente capítulo y en e slg~en tres o más variables de escala de En sociología y en otras ciencias sociales, los enunciados predictivos
?OS escalas de i?terva~o. ~~u~~t~~~l ~l ~ratar de la correlación múltiple y se formulan a menudo, por necesidad, en forma relativamente burda.
Por lo regular esto se debe a que no hemos alcanzado el nivel de medi-
mtervalo se vera en e capl .d ' situaciones en las que tenemos
c· al De momento conSI eramos A' . de ción de la escala de intervalo. Así, p.ej., podríamos predecir que cuanto
par 1 • d.d d escala 'de intervalo por cada individuo. SI, p.eJ.,. po - más elevada sea la posición de una persona en el grupo, tanto mayor
dos me 1 as e , ~ d enseñanza completados y el mgreso
moS conocer el numero de ~nos ~ alidad determinada. O puede acaso será su conformación a las normas de éste. Semejante enunciado no
anual de los varon~ adultos e un: .ocd mano de obra empleado en la necesita implicar causalidad en una sola forma, sino que afirma simple-
interesarnos relaclOn~r .el porc:;Jeáfi~o de una población. mente que la posición y la conformidad se relacionan de modo positivo.
industria con el creCimiento d ta g; dole nos interesamos a menudo no Estableciendo una analogía Con una terminología matemática que no es
En algunos problem~s ?~ es. m 1 edidas de grados de relaci6n, estrictamente correcta, decimos que la posición es una función de la
J.
s610 en las pruebas de slgmflcaclón aS'::r la naturaleza de la relación conformidad, o que la conformidad es una función de la posición, elu-
sino que podem~s también querer eeS:n~ciendo una de ellas, podamos diendo la cuestión de la causalidad. Obsérvese, sin embargo, que hemos
entre las dos vanabl;s, d~ mo~o qu, erer redecir el ingreso futuro de dicho muy poco acerca de la forma de esta relación, aparte de indicar
anticipar la otra. Asl, p.eJ., ~o em~s ~u ·ó~ o la tasa de crecimiento que es positiva. Ya menos que tengamos un nivel de medición de escala
s
una persona sobre la. bdas~ e su ;1I: ¡~C;u ~ano de obra empleada en de intervalo para ambas variables resulta efectivamente muy difícil decir
de una ciudad a partir e porcen aJe d la tarea explora- mucho más.
la industria. Cuando 'lel inte~é~l: ~:n~~~~~~:oc~n e~na variable deter- ·Supóngase, sin embargo, que tenemos dos escalas de intervalo. Se hace
dora de encontrar cua es vana 1 . . almente por las medidas entonces posible describir más exactamente de qué modo una de las
. d . te esamos por 10 regu ar pnnclp 1 variables varía con la otra. Así, p.ej. podríamos estar en condiciones de
¡I}lna a, nOS 1ll r l. t les como los coeficientes de corre a-
de grados o fuerza de las re aCloa~e~~u:ables si ificativas halladas, propen- decir que, por cada año de instrucción recibida, el ingreso aumentará
ción. Por ?~~ parte, una vez.! 1 álisis d~ regresión, en el que intell- en $ 1 000. Si esto fuera efectivamente así, tendríamos en realidad una
demos a dmgtr nuestra atenclOll a an ·able a artir de la otra. relación muy simple, o sea una relación lineal o en línea recta. Sin em-
tamos predecir el valortáexac¡o d.~. u~aaJ~~on las ~ruebas de significaci6n bargo, la mayoría de las relaciones no son ni con mucho tan sencillas,
Si bien e11ector es ya amllan~ d em ezar nuestro pese a que, según veremos, resulta a menudo posible obtener una aproxi-
. y lasmed~~. d~:S~Clp·ar~~r;::c~:i!n::::ic~~~. t~s~~ se aeb.e a que la mación muy buena de la verdadera relación suponiendo linealidad. La
examen es lan. terior lógicamente y más Importante forma más elegante y sencilla de expresar una relación entre dos (o más)
noción de regresl6 n ~ a la iez.,a: La razón de ello se irá viendo más variables es por medio de una ecuación matemática. Así, p.ej., el lector
teóricamente que l a e corre aclO. do Después de haber examinado estará familiarizado con ciertas leyes físicas que enuncian una relación
,l edida que vavamos avanzan . 1 d· ·ó
c ara a m ed: ·ó diri ·remos nuestra atención a a me ICl n entre la presión, el volumen y la temperatura (PVjT = k), o que indican
edl )ro~lema d~el~aP~el;~f¿n~' En ~l capítulo XVIII, q~e de hechObrep~- una relación entre la razón de aceleración de un cuerpo al caer, la dis-
e a uerza. .ó d 1 te examinaremos diVersas prue as e tancia recorrida y la duracición del tiempo en que ha estado cayendo.
senta la contmuaCI n le pres~n·6 del orden de lugares que pueden Podemos también representar cada una de estas ecuaciones matemáticas
significación, así como a corre aCI n . '
emplearse para relacionar dos escalas ordmales. como alguna clase de curva geométrica. Afortunadamente, en sociología
solemos por. lo regular operar con ecuaciones muy simples y con las curvas
17.1. Regresión lineal y mínimos cuadrados
\ más simples posibles (rectas) . Cuando añadimos más variables, no
\ podenlos representar tan fácilmente las ecuaciones como figuras geomé-
. .d I b·etivo último de todas las ciencias es el de la !
En Cierto sentí o, e ? J . u uesto ue sólo secundariamente i
tricas, ya que nOs salimos de las dimensiones, de lo cual, sin embargo,
predicción. Esto no l~fhca, po~ s ,,P por qu~ dos o más variables se i no necesitamos preocuparnos por el momento.
estemos interesados en compren er á tado decir que la "com- i Supóngase que hay una variable dependiene Y que ha de predecirse
. 1 hacen Tal vez sea m s acer 1
re1aClOnan como. o 1 ·b· ti· f al y que en la medida en que a
rensión" conshtuye e o Je vo m ,
I a partir de una variable independiente X. En estos problemas, X prece-
P 300
\
1
CORRELACIÓN Y REGRESIÓN 303
302 ESTADISTICA INDUCTIVA
derá obviamente a Y en el tiempo. Por ejemplo: por lo regular una tan exigentes. En efecto, esperamos una variabilidad considerable alrede-
persona completa su instrucción antes de obtener un ingreso. En tales dor de la ecuación de regresión, y preferimos pensar ell términos de
casos, semejante manera de representar las COsas resulta muy adecuada, medias y de variancias de una distribución de Y para cada X. Sin em-
pese a que hemos de poner cuidado en no implicar una relación necesaria bargo, el procedimiento es en principio el mismo en todas las ciencias,
o causal, o que X es la única variable que influye sobre el valor de Y. pese a que las "leyes" de las ciencias sociales no sean tan precisas como
En otros problemas, en cambio, las variables dependiente e indepen- las de la física. Cuando procedamos a medir el grado de asociación,
diente han de escogerse arbitrariamente, ya que podemos estar tan veremos que, a menos que la asociación sea muy alta en relación con las
interesados en predecir Y a partir de X como X a partir de Y. Suponga- normas de la ciencia social actual, no tenemos probablemente derecho
mos, sin embargo, que Y se ha tomado como variable dependiente. alguno a hablar de "leyes" propiamente dichas.
Ya vimos que si X e Y son independientes, no podemos predecir Y a y
partir de X o, más exactamente, el conocimiento de X no mejora en nada
nuestra predicción de Y. Cuanto más fuerte sea en cambio la depen-
dencia, tanto más precisa será nuestra predicción. Más adelante medire-
··• •
mos la fuerza de esta relación por medio de coeficientes de correlación.
Nos concentramos de momento en la cuestión acerca de cómo predecimos
o1)1
."
Y a partir de X. Así, p.ej., podemos querer estimar el ingreso futuro de :/: ••
·"/>t.:" :.
(JJ
un individuo, sabiendo que ha completado tres años de escuela secun-
••
Jo..,
Ol
daria. Sin este conocimiento relativo a la instrucción, nuestra mejor e
"
/.
estimación (suponiendo que no hay inflación) sería la de la media de
todos los varones adultos. En cambio, el hecho de conocer su instrucción
debería permitirnos obtener una predicción mejor.
·•
LA ecuación de regresión. Representémonos el problema de la si-
guiente manera. Nos imaginamos que para cada valor de la variable inde-
pendiente X (instrucción) tenemos una distribución de Y (ingresos). En
otros términos: para cada nivel educacional habrá cierta distribución de x, .1"3 X4 Xs )(
ingresos en la población. No todas las personas que han terminado la es- Educación
cuela secundaria tendrán exactamente los mismos ingresos, por supuesto, Fw. 17.1. Forma general de la regresión de Y sobre X, o curso de las medias
pero dichos ingresos estarán con todo distribuidos alrededor de alguna de los valures de Y para valores fijos de X.
media. Y habrá distribuciones de ingresos similares para los egresados
de la escuela primaria, los de la universidad, los posgraduados, etc. Cada En la fig. 17.1 hemos indicado el carácter general de las ecuaciones
una de estas distintas distribuciones de ingresos (para X determinadas) de regresión, que comportan los cursos de las medias de los valores de Y
tendrá una media, y podemos hacer una gráfica de la posición de dichas para determinados valores de X. Vamos a tener que proceder ahora a
medias sirviéndonos del sistema familiar de las coordenadas rectangu- algunos supuestos simplificadores, con objeto de poder tratar el pro-
lares. Designamos el curso resultante de estas medías de las Y para X blema estadísticamente. Si bien la idea de regresión es perfectamente
fijas como ecuación de regresión de Y a X. Semejante ecuación de regre- general, la mayoría de la labor estadística sólo se ha realizado con los
sión puede verse ilustrada en la figura 17.1. más simples de los modelos. En particular, vamos a suponer de mo-
Estas ecuaciones de regresión son las "leyes" de la ciencia. En algu- mento: 1) que la forma de la ecuación de regresión es lineal, 2) que las
nos casos hay muy poca dispersión alrededor de la ecuación de regresión. distribuciones de los valores de Y para cada Xes normal, y 3) que las va-
En tales casos, pueden hacerse predicciones muy precisas, y las desvia- riancias de las distribuciones de Y son las mismas para cada valor de X.
ciones respecto de la ley se consideran a menudo como error de medición Podemos examinar ahora estos diversos supuestos uno por uno, prestando
o como resultado de influencias menores no controladas. La "ley" puede la mayor atención al primero de ellos.
formularse así como si existiera. En el caso ideal, se consideraría que Si la regresión de Y a X es lineal, o sea una relación en línea recta,
todos los puntos caen exactamente en la curva, y la relación se abstraería podemos escribir una ecuación corno sigue:
como una función matemática perfecta en l::t que no hay más que una
sola Y para cadcl X. En las ciencias sociales no podemos ser ni con mucho y:::;: a+ ~X (17.1 )
304 ESTAD1STICA INDUCTIVA .
CORRELACIÓN Y REGRESIóN
305
bl~ción
son constantes Hemos utilizado letras gnegas, ya que de
a R
en la que d 1 Y 1-' total. En una ecuación de esta clase, Una línea recta puede terminarse siempre por completo si conocemos
momento tratamo~ e a. po retaciones eométricas definidas. Si pone- ya sea dos puntos de la línea o un punto y la pendiente. Por lo tanto,
tanto a como ~ tienen mterpe y _ tor consiguiente a representa el no hay más que una sola línea de ecuación Y:::: a + ~X, a condición, por
;uO~t; :~~~:d~eí~'líX:°deqb reiesión corta el eje de las y (o sea allí supuesto, que se considere a a y ~ como cantidades fijas (pero generales).
Si a y ~ están dadas, podenlOs trazar la recta tomando simplemente dos
donde X = O). 'ó tá dad or·~ ya que esta puntos de la misma. Sabemos que cuando X:::: 0, Y = a. Por consi-
La inclinación de la lí~ea de la regr~~ ndes y ar~ Pun ~ambio dado guiente el punto (O, a) se sitúa en la recta. y así también, cuando
constante indica la mafn~~~~ci~:l s~~n~l s~ifi~ que to~o cambio de y =0, tenemos °=
a + ~X o X -a/~. Este punto (-a/~) es, por
=
~ ~g!0~~~05 ~n~:de~, produce siempre el mismo camblO en Y (esto
z
r
XI 2
FIG. 17.2. La ecuaci6n lineal de regresi6n, mostrando interpretaciones
geométricas de a y ~. FIG. 17.3. La distribuci6n nonnal bivariable. (Con autorizaci6n de A. M. Mood,
Introduction to the Theory of Statistics, McGraw-Hill Book Company, lnc.,
Nueva York, 1950, fig. 41, p. 165.)
.
es 5R
unidades independientemente de la poS1C1
ha de convencerse por Sl mlSI~o ~
SiRde X
"6,n s~b re elueeje 1 =
(ve~e ~d7.2d· ;t ~ry
" 1-'
• )' El 1 t 1-'
fig. . d están indicadas por distanc1as 19Uales a 10 supuesto, el punto en donde la línea corta el eje de l.as X. Si no Con~
y S1 las um a es ~. , re esi6n formará un ángulo de viene servirse de dichos dos puntos, pueden determinarse otros dos puntos
largo· de los respectivos ejes, la línea de gr r ue la unidad indica una cualesquiera por el mismo procedimiento. 2
45 grados con el eje de las X. ~na .~a~~ pendiente tanto mayor
p &
d
pendiente más rápida. Cuant~~ dJ~: X Yen forma a~loga, si ~ es
Ya se indicó más arriba que hemos de suponer que las Y están distri-
buidas normalmente alrededor de cada valor de X. Convendrá también
es el cambio de ~ para un cam 10 a cero s~ r uerirá un cambio mayor Suponer que para cada valor fijo de Y las X están asimismo distribuidas
menor que la um~d pero m~yor que en En~l caso límite, en que la
Y normalmente. Decimos que la distribución conjunta de X e Y es una
de X para producu un camb10 dado . b'o de X no producen distribución normal bivariable. Semejante distribución normal bivaria-
línea es horizontal, ~ se h~ce ?ero, y. I~S=~mn~ sexiste relación lineal ble tiene una ecuación matemática definida y puede representarse como
cambios de Y. En otr~s. t ~m1~~sX s~o nos' ayuda a predecir Y, si se una superficie tridimensional, como en la figura 17.3. La altura de la
entre X e Y. El ~noclI~l1~ o es nativa sabemos que se da una rela- superficie en un punto dado (X, Y) es proporcional al número de casos
supone un modelo hneal. SI ~ bl cg ue' mientras X crece, Y decrece. en el mismo. Así, pues, se requiere un diagrama tridimensional para
ci6n negativa entre las dos vana es, y q
representar la distribución conjunta entre X e Y, del mismo modo que
1 . de endencia asegura. que ~ sea cero, pero no se
1 Según veremos más a?elante,.
sigue necesariamente de ahl que SI
~ In c~ro, tengamos independencia.
... es 2 Vé;lse un ejemplo numérico en la página 3U.
CORRELAOIÓN y REGRESIóN 307
306 ESTADISTICA INDUCTIVA
esta forma, obtenemos lo que se designa como esquedograma (del griego
necesi~bamos dos dimensiones para representar la distribución de fre-
cuenCIa de la X sola. La forma exacta de esta figura, que se parece
=
ClxeMvvu!.lt dispersar) o diagrama de dispersión. El estudiante ha de
acostumbrarse a dibujar un diagrama de dispersión antes de proceder
muc~o a un casco ?e bombero, dependerá de cuán cercanamente estén al análisis ulterior. La mera inspección del diagrama en cuestión, en
relaClonadas las vanables entre sÍ. Si ambas variables se han expresado efecto, puede acaso indicar que no tiene objeto seguir adelante. Así, p.ej.,
en términos. de unidades estándar, entonces, cuanto más relacionadas si los puntos aparecen en el diagrama como distribuidos al azar, resulta
estén las vana bIes tanto más angosto será el casco. En el caso extremo en claro que no existe relación, o sólo una relación muy débil, entre las dos
el que Y puede pred,ecirse exactamente a partir de X y, por consigui~te,
variables.
t?d~s los pu~tos están exactamente en la ecuación de regresión, las des- Una vez fijadas las marcas en un diagrama de dispersión, podemos
vl~clOnes estándar de las Y para cada X serían cero, y el casco no ten- querer acercarnos a dichos puntos por medio de alguna clase de curva
dna grueso alguno. Por otra parte, si no existiera relación alguna entre la más adecuada. Una de las maneras de hacerlo consiste en trazar una
X e Y, la base del casco sería circular. Cualquier plano perpendicular curva (en el presente caso una recta) por inspección. Sin embargo, exis-
al plano XY cortaría la superficie en una curva normal. En tanto que un ten para ello métodos más precisos. Uno de éstos es el método de los
plano paralelo al plano XY cortará el casco en una elipse (o en un círculo mínimos cuadrados, que se examinará en la presente sección. Nuestro
si X e Y son independientes). objetivo es ahora algo distinto del objetivo del análisis de regresión, en c::l
. La distribución. normal bivariable P?see la propiedad de que la regre-
sl?n ~e Y a X sea hneal. Por lo tanto, SI tenemos una distribución normal y
blvanable, sabemos que, si traza~os las m~dias de las Y para cada X, el
r~sultado. será una :ec~a. ~o se sl~ue de al11, sin embargo, que si la regre- • •
sión es lmeal la dlstnbuclón conjunta sea necesariamente normal biva-
riable. La normal.ida~. bi~~riable habrá ~e suponerse cuando lleguemos
a las pr~ebas de slgmfIcaclO.n y, comoqmera que el sociólogo está por lo
regular mt~esado en practl~ar tale~ pruebas, necesitará probablemente
establecer dIcho supuesto. SI se está mteresado simplemente en aprecia-
cio~es de puntos, y no en intervalos de confianza o pruebas de signifi-
caCión, ~ntonces se ~:leden estimar los parámetros de la población de
la ecuacI~n de regreslO~, tener que suponer normalidad bivariable.
NeceSItaremos también suponer que las desviaciones estándar de las
y para cada X son las mismas, independientemente del valor de X. Este
supuesto se ~aminará en conexión con el tema de la correlación, ya que
ésta es e~encIalmente una medida de dispersión alrededor de la línea
d.e regres:ón. De moment~ b~sta, con todo, señalar que si la distribu- x
CIón conJunta es normal blVanable, las desviaciones estándar de las Y
~ra .cada X será~ de hecho todas idénticas. Esta propiedad de varian- FIG. 17.4. Diagrama de dispersión y recta de mínimos cuadrados.
CIaS Iguales se deSigna como homoscedastícidad y es análoga al supuesto
= = ... =
hecho, e~ el análisis de v~riancia de que 0'1 0'2 O'k.
que trazábamos el curso de la media de las Y. Aquí, en efecto, queremos
Mlmmos. cuadrados lmeales. El modelo de regresión que hemos
estado ~a~mando es n~ás bien sencillo en sus conceptos, pero no es por aproximarnos a cierto número de puntos por medio de una curva de
desgraCia dlre~t:amente util en su forma teórica. Es raro, en efecto, que mejor adaptación.
Con objeto de servirnos de la teoría de los mínimos cuadrados, hemos
tengamo~. suflcle~tes caSos para examinar la distribución de las Y para
de postular la forma de la curva a utilizar en la adaptación de los datos.
valo~es fIJOS suceSIVOS de X. Con mayor frecuencia encontramos que hay
En el caso del análisis de regresión, la forma de la curva se hallaría propia-
relativamente pocos casos en los que las X sean idénticas o aproximada-
mente determinada por el curso de las> medias, suponiendo que se dispone
mente tales .. Si hacemos una gráfica de la distribución de los casos alrede- de datos relativos·a la población entera. Vamos a tomar una vez más la
dor de los ejes de las X y las Y en la forma convencional encontramos curva más simple posible, la recta, como curva de nuestros mínimos
~or lo regular l~na dispersión de puntos como la que se' indica en la cuadrados. Esto significa que hemos de adaptar los datos a una recta
fIgura 17.4. Y SI hacemos una gráfica de la distribución de los puntos en
308 ESTADISTICA INDUCTIVA
CORRELAOIÓN y REGRESIóN 309
de mejor ajuste, conforme al criterio de los mínimos cuadrados, obte-
Pero éstas sólo coincidirán si todos los puntos quedan exactamente en
niendo una ecuación de la forma:
una sola línea. Resulta asimismo que, al minimizar la suma de los cua-
drados de las distancias verticales, encontramos de hecho la recta que
Y=a+ bX (17.2 )
posee la propiedad de que la suma de las distancias verticales positivas y
negativas sea cero y la desviación estándar de los puntos respecto de
Resultará así que la a y la b obtenidas con este método son las aprecia-
aquélla sea mínima. Este concepto de la desviación estándar de las Y
ciones insesgadas más eficaces de los parámetros de la población, a y ~, si
se examinará con mayor detalle más abajo.
la ecuación de regresión es efectivamente una recta.
Con objeto de obtener la línea de mínimos cuadrados, pues, necesi-
Nuestro criterio de los mínimos cuadrados comporta hallar la única
tamos calcular la a y la b que determinan la línea provista de la propiedad
recta que posee la propiedad de que la suma de los cuadrados de las deseada. Esta clase de problema puede resolverse fác;ilmente por medio
desviaciones de los valores reales de Y respecto de dicha recta sea mínima. del cálculo y conduce a las siguientes fórmulas de cálculo de a y b.
Así, p.ej., si trazamos líneas verticales de los puntos a la línea de los míni-
mos cuadrados, y si elevamos al cuadrado dichas distancias y las sumamos,
la suma resultante será menor que la suma correspondiente de cuadrados
a cualquier otra recta posible (véase fig. 17.5). Obsérvese que son las (17.3)
r y N _
}: (X. - X) (y. - Y)
.=1' •
b=-------- (17.4)
x
i
,
loga -a las sumas de cuadrados tanto de X como de Y, excepto que, en
lugar de elevar al cuadrado (X - X) o (Y - Y), tomamos el producto
FIG. 17.5. :ecuaci6n de mínimos cuadrados, que minimiza las sumas de los
de estos dos términos. Obtenemos en esta forma una medida de cómo
cuadrados de las distancias verticales y estima la regresión de Y sobre X X eY varían juntas, y de ahí el nombre de covariación. Si dividimos
esta expresión por N, obtenemos, por analogía, 10 que se designa como
covaríancia. Veremos inmediatamente que b puede ponerse igual a la
distancias verticales, y no las perpendiculares (fig. 17.5) o las horizontales razón de la covariancia a la variancia en X.
las que aquí se consideran. Sería posible minimizar la suma de los cua- Si examinamos más de cerca la covariancia de X e Y, vemos que, a
drados de las distancias perpendiculares (designada como suma ortogonal diferencia de una suma de cuadrados, la covariación puede tomar valores
de los mínimos cuadrados), pero las ecuaciones de ello resultantes no son tanto positivo como negativos. Si X e Y se relacionan positivamente,
ni con mucho tan prácticas. Y si se emplearan las distancias horizon- entonces valores grandes de X se asociarán por lo regular con valores gran-
tales, la recta de mínimos cuadrados resultante podría utilizarse para
apreciar la regresión de X a Y. El lector ha de convencerse por sí mismo
des de Y. Así, pues, si X> X, será por 10 regular cierto que y> Y. Y
que minimizar la suma de cuadrados de las distancias verticales no mini- asimismo, en el caso de una relación positiva, si X < X, tendremos gene-
miza necesariamente la suma de cuadrados de las distancias horizontales. ralmente Y < Y. Por consiguiente, el producto de (X - X) (Y - Y) será
Así, pues, podemos obtener dos líneas de mínimos cuadrados distintas. normalmente positivo, y la suma de estos productos será asimismo posi-
311
CORRELACIÓN Y REGRESIÓN
· as que ¡'unto con
310 ESTADISTICA INDUCTIVA · de los datos podemos calcul ar cmco sum
A par t Ir , '6 Y
1 oblemas de regreSI n
tiva. Y en forma análoga, si X e Y se relacionan negativamente, espe- N, son todo lo que necesitamos para tratar oSe~~plearán en los cálculos
. , Todas estas sumas menos
corre1aClOn. una 'se .
raríamos que, si X> X, entonces Y será menor que Y, y la suma de . .
de a y b. Los cálculos pueden resumIrse como sigue.
productos resultante será negativa. Si no existe .relación, entonces aproxi-
madamente la mitad de los productos serán positivos y la otra mitad ~Y = 8557
negativos, ya que X e Y variarán independientemente. En este caso, b N=13
~N= 62.88 ~Y2 = 6 192 505
será cero, o vecino de cero. Por lo tanto, cuanto mayor sea el valor nu- ~XY = 43 943.32
mérico de la relación, independientemente de la dirección, tanto mayor ~X2 =432.2768
será el valor numérico de la covariación. Como habremos de ver en breve, ~XY Si ponemos estos valores en
la covariación figura también en el numerador del coeficiente de correla- Aquí la única cantidad nueva es ~ .
ción, que es nuestra medida del grado de asociación. En el caso de b, las fórmulas de a y b, tenemos ahora:
tomamos la covariación y la dividimos por la suma de los cuadrados en 1
X, con objeto de obtener nuestra estimación de la pendiente de la ecua-
ción de regresión.
Es más conveniente servirse para la covariación de una fórmula que
I b=
N~XY - (~X) (~Y)
N~X2 _ (~X)2
13(43943.32) - (62.88) (8557) = 33 199.0 ~ 19.931
es directamente análoga a la fórmula de cálculo de la suma de los cua-
drados y puede derivarse en forma similar. Podemos escribir la fórmula = 13(432.2768) _ (62.88)2 1665.7
de cálculo de b como sigue:
\ ~Y-b~X
b = N~XY - (~X) (~Y) y a= N
( 17.5)
N~X2- (~X)2
8,557 - (19.931) (62.88) = 561.83
En la ecuación (17.5), tanto el numerador como el denominador se han 13
multiplicado por N, con objeto de redondear los errores debidos a la di-
visión y con objeto de facilitar el cálculo con una calculadora.a Por lo tanto, la ecuación lineal resultante es:
Problema. Supóngase que tenemos los datos del cuadro 17.1,- en
donde X representa el porcentaje de negros en las grandes ciudades del Y p = a + bX = 561.83 + 19.931X
Medio Oeste, e Y indica la diferencia entre las medianas de los ingresos
de los blancos y los negros, como medida de discriminación económica. en donde hemos utilizado y JI para indicar que los va10res de cYo~:ay: ~~
. . d ., de mínimos cuad ra d os.
timado a partir e una ecuaClOn .d or este método son las estima-
CUADRO 17.1. Datos para un problema indicó anteriormente, la~ a y b obteruA as p 1 coeficientes de regresión
ciones insesgadas. m~s eficaces ~e a ~ IJ':í~~~O~s cuadrados será la mejor
Porcentaje Discrimi- Porcentaje Discrimi- reales. Por conslgmente, la 1mea. e . 1 ación de regresión es efec-
de negros nación de negros nación apreciación de la verdader~, regresllón, ~l . a ec~uadrados posee asimismo la
X y X y tivamente lineal. La ecuaclOn de os mlmmos .. d X
(X Y) representa las mechas e
2.13 $ 809 4.62 $ 859 propiedad de pasar por el punto ' . ' que y u
2.52 763 5.19 228 y de Y. Esto puede verse en la ecuación (17.3). a q e
11.86 612 6.43 897
2.55 492 6.70 867 a=Y-bX
2.87 679 1.53 513
4.23 635 1.87 335 tenemos: Y=a+bX
10.38 868 por con-
FUENTE: Censo 'de los Estados Unidos, de 1950.
lo que indica que estos valores de X e y satisfacen la ec~ación.
" 1 t (-X Y) queda exactamente sobre la lmea.
8 En esta y las fórmulas subsiguientes hemos prescindido de los subíndices, ya que SigUIente, e pnn o ,
se opera siempre la suma total de los casos, del cuadro N.
312 ESTADISTICA INDUCTIVA CORRELACIóN y REGRESIóN 313
En el problema anterior, si sabemos el valor de X (porcentaje de ne-
gros) para cualquier ciudad dada del Medio Oeste, nuestra mejor estima- 17.2. Correlaci6n
ción del valor de Y sería aquel valor de Y que corresponde en la ecuación No sólo deseamos conocer la forma o la naturaleza de la relación entre
de los mínimos cuadrados a la X dada. Comoquiera que las marcas de X e Y, de modo que una de las variables pueda predecirse a partir de la
discriminación indican diferencias (en dólares) entre los ingresos (en me- otra, sino que es necesario al propio tiempo conocer el grado o fuerza de
dianas) de los blancos y los negros, vemos que un aumento del 1 por la relación. Es obvio que si la relación es muy débil, no tiene objeto tra-
ciento de los negros corresponde a una diferencia de $ 19.93 en dichos tar de predecir Y a partir de X. Los sociólogos tienen a menudo interés
ingresos. En la figura 17.6 se han trazado un diagrama de dispersión y ante todo en descubrir cuáles de un gran número de variables se relacionan
la ecuación de los mínimos cuadrados. Con objeto de ilustrar el empleo más de cerca con una variable
de semejante ecuación de predicción, si supiéramos que había un 8 por dependiente determinada. En los r
ciento de negros en una ciudad determinada, la diferencia estimativa del estudios de exploración de esta
ingreso mediano sería: clase, el análisis de regresión re-
viste importancia secundaria. A (a)
YfI = a + b(8) = 561.83 + (19.931) (8) = $ 721.28 medida que una ciencia va ma-
durando y que se descubren
Vemos en la figura que se habría obtenido aproximadamente el mismo re- variables importantes, la aten-
=
sultado COn la gráfica. Observemos de paso que, haciendo X 8 Y resol- ción puede centrarse en méto-
viendo en relación con Y, hemos localizado un segundo punto de la línea, dos de predicción exacta. Algu-
Relación positiva fuert.e x
que puede utilizarse a continuación Con objeto de trazar la línea en el y
nos estadígrafos son del parecer
diagrama de dispersión.
que en conjunto se ha prestado
•
.. •
..
demasiada atención a la correla-
r ción· y demasiado poca al análi- (b) •
900 x sis de regresión. Que esto sea • •
le x o no así depende, por supuesto,
del estado del conocimiento en Sin relación x
la ciencia considerada. Podemos
r
admitir que el objetivo final de
la ciencia está en la predicción .. • •
'.. .
precisa, pero, por otra parte, en ( el . . ... . .. .
~
:.'
muchos de nuestros problemas
el empleo de ecuaciones de regre-
. . . ..
sión a título de predictoras sería
sumamente pretencioso. Según Relación ne9ativCl débil x
veremos, en efecto, se requieren
Ji'lG. 17.7. Diagrama de dispersión mas·
correlaciones de un orden muy trando las diferentes fuerzas y direcciones
elevado para poder formular una de lcl$ relaciones entre X e Y.
predicción siquiera moderada-
mente precisa.
El coeficiente de correlación r, que vamos a examinar en esta sección,
o~ __~~~____~____~~____~~__ fue introducido por Karl Pearson y se designa a menudo como correlación
O 3.0 6.0 9.0 12.0 X momento-producto, con objeto de distinguirla de otras medidas de aso-
porcJento de negros ciación. Este coeficiente mide la cantidad de dispersión alrededor de la
ecuación lineal de los mínimos cuadrados. Hay un coeficiente correspon-
Flc. 17.6. Diagrama de dispersi6n y recta de mínimos cuadrados {Jara los datos diente de población "rho" (Q), que mide la bondad del ajuste a la
. del cuadro 17.1 verdadera ecuación de regresión. Obtenemos una estimación r de dicho
314 ESTADISTICA INDUCTIVA
CORRELAOIÓN y REGRESIÓN 315
parámetro midiendo las desviaciones respecto de la línea calculada por
medio de los mínimos cuadrados. tor no debe caer en el error de suponer que si r = O (o si Q == O) no
<?omoquiera que la ecuación de regresión representa el curso de las existe relación alguna. En efecto, si no hay relación, sÍguese que r será
medIaS de las Y para unas X dadas, sería también posible medir la dis- aproximadamente cero y habrá una dispersión de puntos al azar. Sin em-
persión respecto dc esa línea tomando una desviación estándar de la mis- bargo, puede haber una relación perfectamente curvilínea y, con todo, ser
ma: 4 ~in embargo, los investigadores de la mayoría de los campos de r cero, indicando que no se da recta alguna que satisfaga los datos. ~ste
aplIcaCión se han acostum~r~do al coeficiente de correlación y, si bien
I
es el caso en la figura 17.8, p.ej. Por lo tanto, si el investigador encuentra
al.gunos estadlgrafos matemabcos parecen preferir la segunda clase de me- una correlación de cero, habrá de precaverse contra la. deducción de que
dida, es proba~le, con todo, q~e. el coeficiente de correlación se mantenga. no existe relación entre las variables. Por lo regular, la inspección del
Posee la ventaJa de ser de fácIl mterpretación, y su recorrido va de - J.O diagrama de dispersión indicará si hay o no relación de hecho, o si la
a 1.0, hecho que resulta at~~ctivo para la m~):orÍa de los prácticos. Según relación es suficientemente no lineal para producir una correlación de
v~~os, en efecto, la relaclOn entre el coefICiente de correlación y la des- cero. En la mayoría de los problemas sociológicos, las relaciones pueden
vlacl.ón estándar respecto de l~. línea de los mÍnin~os cuadrados es muy aproximarse razonablemente por medio de rectas. Sin embargo, esto no
s~ncIlla, hecho que puede utIlIzarse para proporcIOnar una interpreta- significa que no se deba estar alerta contra excepciones eventuales.
cIón de r. Hasta el presente no hemos definido todavía el coeficiente de correla-
ción, pero podemos hacerlo fácilmente en los términos de la fórmula: '
r
l:(X - X)(Y - y} l:xy
/ r=
y[l:(X - X)2][l:(Y - Y)2]
-
y(~X2) (l:y2)
(17.6)
Así pues r tiene el mismo numerador que las dos b. Si éstas son cero,
110 120 = .301
, , é'
síguese que T ha de ser tambi n cero y Viceversa. Conviene observar que se pueden adicionar valores tanto a X como a
Para sumas de cuadrados en X e Y dadas, el valor de by., (o de b.,y) Y, o sustraerlos, sin afectar el valor de la correlación. Y en forma aná-
será proporcional. a r. Esto par~cería conducir. a la conclu?ión de que l~ loga, puede efectuarse un cambio de escala de una u otra de las variables
fuerza de la relaCión sea proporcIOnal a la pendle~te. de la lmea. de los ml- multiplicando o dividi.endo por una constante. Esto equivale a decir, de
nimos cuadrados. Sin embargo, esto sólo será aSI SI el denommador per-
hecho, que la. correl~clón entre el ingreso y la educación es la misma, ya
manece fijo. Así, pues, b es u~a. fundón ,no sólo .de la fuerza de .la
sea que se ~~da el mgreso en dólares o en centavos. Sin embargo, aun-
relaci6n sino también de las desViaCIOnes estándar. 5 SI hay bastante vana-
bilidad ~n X, en relación con Y, el valor de b será relativament~ pequefio, que el coeficiente de correlación sea invariante en transformaciones de
indicando que se requiere un gran cambio de X para produclf un c~m
bio moderado de Y. Como 10 veremos más abai~, los valores ~um"éncos
I esta clase, la ~~uación de los .mínimos cuadrados, en cambio, no la es. En
efecto, la adiCión o sustracción de valores afecta el valor numérico de a.
de las b dependen, por consiguiente, de la magmtud de las umdades de y un ~aI?bio de escala afe~ta la pendiente de la línea. Así, p.ej., si 'cada
X.se dlVlde por 10 mantemendo a la Y fija, la b resultante se verá multi-
medida. 1 .
El valor de r se ha estandarizado de modo que sea re ahvamente
independiente d.e las magnitudes relativas de las d~viaciones ~t,á~dar en
I phca~a por 10. ~llector hará bien en verificar que estas propiedades se
m~~tienen, exarnmando las fórmulas de T, a y b. Estos hechos pueden
X e Y. Sería en efecto desdichado que no fuera as?, ya que dlflcllm~nte ubhz~rse con objeto de simplific~r los cálculos. Así, p.ej., si X comporta
deseamos u~a unidad que variara según que escogIéramos como umdad un numero ~uy gr~nde o un decimal muy pequeño, un cambio de escala
monetaria dólares o centavos. Se observará en las fórmulas de r y las b puede rreduclr el nesgo de errores de cálculo. O bien, si la variable X
que r2 puede expresarse en términos de estas últimas. Así, pues:
r2 = by.,b.,y =
[~xy)2
~x2~y2 (17.7
)
I consta de valores tales como 1 207, 1 409, 1 949 y 1 568, se recomendará
prob~blemente sustraer 1 000 de cada marca. Algunas rutinas de cálculo
reqUieren que todos los valores sean positivos. Por lo tanto, al calcular
r puede resultar necesario añadir a cada valor un número ligeramente su-
perior a la marca negativa mayor.
El lector hará bien en verificar que cuando r e~ ~.O (o - 1.0), by., =:= l(b"lI' Hay que tener presente, en este punto, otro hecho relativo a la corre-
10 que significa que las dos ecuaciones de mmlmos cuadrados comclden. lació~. ~ es que, comoquiera que esta medida comporta variancia y
Por lo regular, a medida que r se acerCa a cero, el ángulo e?tre las dos
líneas se va haciendo cada vez mayor, hasta que, r = O, las lmeas se ha-
\ covananclas a la vez, se ve sumamente afectada por unos pocos valores
extremos de cualquiera de las d~s ~~riables. Por otra parte, la magnitud
\ d~ T depende del .grado de ~anablhdad general de la variable indepen-
cen perpendiculares.
tí Excepto eri los casos en que ello pudiera dar lugar a confusi6n, seguiremos sirvién· dIente. Es lo que ilustra la figura 17.9. En la figura 17.9b, tenemos una
donas de b sin subindice pata representar bu.·
\
318 ESTADfSTICA INDUCTIVA
CORRELACIÓN Y REGRESIóN 319
relación lineal moderadamente elevada, excepto en cuanto al hecho de
que los casos extremos no quedan en línea recta con los demás. En este extremos será tal vez más razonable prescindir totalmente en el análisis
último caso tenemos probablemente un ejemplo de relación no lineal. El de los ca~os extremos. Así, p.ej., supongamos que X es el tamaño de las
diagrama de dispersión resultará siempre útil para indicar la naturaleza ciudades y que la ciudad de Nueva York figura en la muestra: A menos
de la situación en un problema determinado. Veamos ahora lo que puede que haya un gran número de ciudades de tamaño correspondiente, y no
hacerse cuando se presentan la una o la otra de estas situaciones. las hay, puede resultar necesario limitar la atención a ciudades de menos
La figura 17.9a ilustra el punto anteriormente señalado de que la mag- y
nitud del coeficiente de correlación depende del margen de variabilidad
de ambas variables. Si hubiera habido un número mayor de casos extre-
mos, la distribución resultante habría podido ser como en la figura 17.10. .. • •
•
En este caso, la correlación conjunta podría ser alta, pero, en el interior
de cualquier .recorrido limitado de las X, la correlación puede ser vecina de
cero. Esto indica de hecho que hay suficiente variabilidad de X en el r-----,
.. •
l" • l'
interior de dicho recorrido limitado para contrarrestar los efectos de las I • • I•
numerosas variables incontroladas. Por consiguiente, si el diagrama de I • •
I • • l·
dispersión resulta ser semejante al de la figura 17.9a, habría que tratar I I
de extender el recorrido de variabilidad de X hallando más casos extrenlOS. I •
I •I
Si la extensión del ,recorrido de variabilidad no resulta prácticamente IL":
• ___
• .JI
posible, o si el interés del investigador se centra ante todo en casos menos
X
.. FIG. 17.1 O. Diagrama de dispersión que no muestra re~6n al.g¡¡na dentro de un
recorrido limitado de variación de X, pero con relacIón pOSItiva sobre el reco-
(a) .. rrido total.
.. . • •
de 500 000 habitantes. En algunos casos, podrá parece~ indicado cal~~lar
r tanto con los casos extremos como sin ellos. Es obVIO que la deCISión
dependerá de la naturaleza del problema y del interés del sociólogo. El
lector ha de percatarse bien del hecho de que una o .dos marcas extrem~s
x puden eventualmente ejercer un efecto muy pronunCiado sobre el tamano
de r, hecho que en alguna forma elebe tenerse. siempr~ en cuenta. De ahí
r que el .recorrido de variabilidad debie~a conslgn~rse )ut.ttamente con .los
coeficientes de correlación. Esto constituye otra IlustraCión del punto 1~
--. _..!- portante relativo a que una simple medida de resumen, por muy supenor
que sea respecto de otras, puede ser a m~udo desorientadora.
(b) Si los datos se presentan como en la, fIgura. ~ 7.9b, sospech~remos, por.
supuesto, que no existe linealidad. Aqm ~amblen, pues, habna que obt~
ner, de ser posible, más casos extremo~ .. ~1 éstos s?n s~lo uno o dos" resul-
tará tal vez preferible excluirlos del anallSls. Las slt';1aclOnes de ~ta mdole
ilustran el hecho de que, al interior de cierto reco~nd.o una r~laclót.t puede
ser aproximadamente lineal, resu~tando en cambl~ mapropIada SI ~e ex-
x tiende el modelo lineal. De ahI, pues, que se Imponga prudencI~ en
FIG. 17.9. Diagramas de dispersión mostrando los efectos posibles de v4lores
cuanto a aeneralizar más allá de los límites de los datos. Un enuncIado
extremos de X. por el estilo de "dentro los límites de y la relación resulta
5er aproximadamente lineal" será más apropiado.
CORRELACIÓN Y REGRESIÓN 321
320 ESTADISTICA INDUCTIVA
~Y-b~X - -
Cálculos a partir de datos agrupados. Si el número de casos es grand~ a= =Y-bX
o si no se dispone de una calculadora moderna, el cálculo .de los coefI- N
cientes de correlación puede resultar extremadamente labonoso. E~ tal
caso será tal vez más indicado servirse de datos agrupados, aun a nesgo en donde X e Y pueden obtenerse sirviéndonos de la fórmula usual de
de introducir eventualmente algunas imprecisiones. En principio, estos los datos agrupados.
cálculos de datos agrupados no son más que apl~caciones a~r~iadas ,de Calculemos ahora los valores en esos coeficientes en relación con los
los procedimientos empleados para obtener la medIa y la desvIaclOn están- datos de 150 distritos del sur consignados en el cuadro 17.2 Tomaremos
dar. Tenemos ahora dos variables que han de clasificarse cruzadame~te como variable dependiente Y, o sea el porcentaje de mujeres de la clase
como en eL cuadro 17.2 Hemos de anticipar una media para cada vana-
ble, tomando desviaciones graduales de cada una de las ,medias ~ sirvién- CUADRO 17.2. Datos clasificados cruzados para obtener
donos de factores de corrección en cada caso. Ademas, necesitaremos correlaciones de datos agrupados
un término de producto cruzado equivalente, a ~xy. Como. que l~s des-
viaciones tanto de X como de Y se tomaran de las medIas estimadas
respectivas, necesitamos servirnos de U1~ factor de correcció? a sus~aer POTcentaie de Porcentaie de muieres de la clase trabaiadora, Y
del término del producto cruzado aprecIado. Podemos modIfIcar aSI las granias rurales, Totales
10.0- 15.0- 20.0- 25.0- 30.0- 35.0- 40.0-
fórmulas de cálculo de r y b de modo que se tenga en cuenta que nos X
14.9 19.9 24.9 29.9 34.9 39.9 44.9
hemos servido de medias anticipadas en lugar de las correctas.
Se recordará que una de las fórmulas de s sirviéndose de datos agru- 0.0- 9.9 O O O 1 8 4 O 13
10.0-19.9 1 2 O 2 4 1 3 13
pados era (dejando de lado los subíndices) :
20.0-29.9 2 5 1 2 3 3 O 16
30.0-39.9 2 O 5 5 7 3 O 2Z
s = ~ vN~fd'2 - (~fd')2 40.0-49.9 4 6 6 7 1 O O 24
N 50.0-59.9 3 10 9 6 2 O O 30
60.0-69.9 2 4 3 7 4 O O 20
Comoquiera que tenemos ahora dos variables, ~ e Y, nos s~rv~remos de 70.0-79.9 2 3 4 1 O O O 10
. subíndices con objeto de distinguir las frecuenCIas y las desVIacIones gra- 80.0-89.9 O 1 O O O O Z
duales de X (esto es, fll! y d'lI!) de las de Y (o sea, f1/ y d'1/)' .Al calcular
Totales 17 30 29 31 29 11 3 150
el término del producto cruzado, necesitamos obtener tambIén las fre-
cuencias f de cada subcasilla. Estas últimas serán por 10 reguJar más FUENTE: Censo de los Estados Unidos de 1950.
pequefias que fll! o f1/' Así, pues, si bien hay 24 casos e~ la categoría de
40.0 a 49.9 para la variable X y 30 casos en la categona de 15.0 a 19.9
de Y sólo hay 6 casos en la subcasilla correspondiente a ambas catego- t:abajad~r~, siendo la vari.able independiente el porcentaje de la pobla-
rías. 'El lector ha de convencerse por sí mismo de que la fórmula de r Cl6n claSIficada como granjas rurales. Convendrá servir-se de una fórmula
de cálculo como la que se da en el cuadro 17.3. En ésta, los límites de las
(ecuación 17.8) puede modificarse como sigue:
clases y los puntos medios se indican horizontalmente en la parte supe~
N~fll!1/d'OJd'1/- (~fOJd'lII) (~ftld'tI) ríor (para Y) y de arriba a abajo, a mano izquierda, para X. Obsérvese
(17.9 ) el área cerrada en el interior del cuadro. Se verá que hay tes números en
r=-v~[~N~~~hd~'1II~2=_~(~~~h~~~III)~2]~[N~~f~1/d~'1/~2=_~(~~T~T.d'1/~)~2] cada subcasilla. En cada casilla, el número de arriba representa el número
de casos de la subcasilla, tal como se da en el cuadro 17.2. Los núme-
y en forma análoga, la fórmula de b se convierte en: ros restantes de la subcasilla se emplean para calcular el término del pro-
ducto cruzado. La cifra central de cada subcasilla representa el producto
N~fll!1/d'lI!d'1/ - (~fll!d'lI!) (~f1/d'1/) ill de las desviaciones graduales d'(JId'y. Así ,p.ej., en la subcasilla más baja de
(17.10) la izquierda (correspondiente a las categorías de 80.0 a 89.9 y de 10.0 a
b = N~f:J)d'o,2 - (~f",d'OJ)2 i", 14.9), la cifra - 12 es el producto de 4 por -3. En otros términos: la
categoría de 80.0 a 89.9 se halla 4 desviaciones graduales por encimrt
en donde i e Í" representan las amplitudes de intervalo~ de Y y X respec- de la media anticipada de X, y la categoría de 10.0 a 14.9 se encuentr¿
tivamente. ll El valor de a puede calcularse ahora a partir de la ecuacIón:
322 ESTADISTICA INDUCTIVA CORRELACIóN y REGRESIóN 323
3 desviaciones graduales por debajo de la media anticipada de Y. Final-
CUADRO 17.3 Cálculos de la correlaci6n de datos agrupados* mente, el número inferior en cada sUOCasilla representa el pr<>ducto de los
- dos números que tiene arriba y puede por consiguiente representarse sim-
Límites 10.(}- 15. (}- 20.0- 25.(}- 30.0- 35. (}- 40.0- bólicamente como ft8fld'md'. Por 10 tanto, la suma de estas cifras inferio-
y ¡. d~ /#d~ I.Cd~)' res de todas las subcasillas nos da el término del producto cruzado, sin
de d1lloSe 14.9 19.9 24.9 29.9 34.9 39 9 44.9
-- - -- - ---- -- --- - ----- - corrección de los errores introducidos sirviéndose de medias estimadas.
Pluntos Esta suma se empleará en el primer término del numerador de ri es nu-
X 12.45 17.45 22.45 27.45 32.45 37.45 42.4,5
medUos méricamente igual a - 200, Y se ha dispuesto en el ángulo inferior dere-
O.(}-
i-- - - - - - 1 8 4
-- - - cho del cuadro.
Las cantidades restantes necesitadas en el cálculo de r y b pueden
9.9 4.95 O -4 -8 13 -4 -52 208 obtenerse en la forma usual. Las cuatro últimas columnas del cuadro se
O -32 -32
emplean para obtener fm,d'm, filld'm y fill(d'iII)2, las dos últimas de estas can-
10.0-
- -1 --2 - ---
2
--4 ----
1 3
- --- -- - tidades utilizándose directamente en la fórmula de r. Obsérvese que al
19.9 14.95 +11 +6 O -3 -6 -9 13 -3 -39 117 calcular los valores numéricos de estas cuatro columnas prescindimos por
11 12 O -12 -6 -27
- - - - - - -- -- -- -------- - -
20.(}- 2 5 1 2 3 3
---- completo de los valores de Y. Así, pues, si dejamos totalmente de lado
el área encer.rada, tenemos exactamente la misma clase de tabla de la
29.9 24.95 +6 +4 +2 O -2 -4 16 -2 -32 M
12 20 2 O -6 -12
que nos servimos al calcular la media y la desviación estándar de datos
30.(}-
- -2 - - - --
5
-- -----
5 7 3
- --- - - - - agrupados. Y en forma análoga, las cuatro hileras inferiores pueden em-
39.11 34.95 +3 +1 O -1 -2 22 -1 -22 22
plearse para obtener sumas correspondientes en relación con la variable
6 1; O -7 -6 Y. Todas las cantidades necesitadas en las fónnulas de r y b pueden
40.(}-
--
4
--6 - ----
6 7
------
1
----- -- ponerse ahora en las casillas inferiores de la derecha dela tabla mayor.
49.9 44.95 O O O o O 24 O O O Obtenemos'ahora los valores de r y b como sigue:
O O O O O
- lO---- ---2 ---- - - --- -- - = ~~;:;:1~50;::::(=-=20::::0;:;;);:;:-;::;:(;::;;-:;:;37=.};:;:(-===80::::)::=:::;::::;:::. _ - 32960
50.0- 3
-3 -2
9 '6
-1
r - .460
59.9 54.95 O +1 30 1 30 30
-o -20 -9 O 2 Y [150(643) - (- 37)2][150(402) - (- 80)2] 71 590
- --- --- -- -- --' - - - - - - --
6O.(}-
69.9 64.95
2
-6
4 3 7
-4
4
-2 O +2 20 2 40 SO b= 150(- 200) - (- 37)(- 80) ~==y2 960 .!.. =_
-12 -16 -6 O 8 . 150(643) - (- 37)2 10.0 95081 2 .1733
70.(}-
- ----
2 3
-4 - 1- ---- - - --- ---- - -
79.9 74.95 -9
-18
-6
-18
-3
-12
O lO 3 30 90 Comoquiera que los valores de 'f( e Y son 42.48 y 24.78 respectivamente,
O
SO.O-
- --
1
-- --
1
- -- ----- ---- - -- obtenemos:
89.9 84.95 -12 -4 2 4 8 32 a = y - bX = 24.78 - (- .1733) (42.48) = 32.14
l.
-12
17 30
-4
29 31 20 --11 3 N-
150
- ~a7 643
y la ecuación de los cuadrados mínimos puede escribirse como:
---- ---3---- -- O-------- ---- - - -
•¡J' -2 -1 1 2 3
Yp = 32.14 - .1733X
I.a;
--51---- -- O-- 29------
-60 -29 22 11 -8G
- l:/.,d;a~
- - - - - 1 - 1-- - -- - - - ---- -- - -200 r-- Interpretaci6n del coeficiente de correlctci6n. Con objeto de obtener
I.ca;). 153 120 29 O 211 44 27 402
una interpretación de r que tenga sentido cuando r no es ni cero ni 1.0,
volvamos al concepto de variabilidad a propósito de la ecuación de re-
* Esta fomla de cálculo se ha tomado, con ligeras adaptaciones, dc [1J, cuadro 19.4 gresión. Hemos definido la variancia respecto de la media de Y como:
,de la p. 476, con la amable autorización del editor.
CORRELACIÓN Y REGRESIóN 325
32,. ESTADISTICA INDUCTIVA
dimicnto, obteniendo casi a manera de producto accesorio los valores de
en donde M representa la magnitud de la población (frente al tamaño (J2 y r2 • Con 10 que estaremos en condiciones de dar una interpretación
VI 111
de la muestra N) y donde nos servimos de los subíndices para recalcar el
lógica del coeficiente de correlación. Primero, podemos expresar las
hecho de que tenemos ahora dos variables que han de distinguirse. Así,
pues, el concepto corriente de la variancia comporta desviaciones respecto desviaciones de cada Y respecto de Y como suma de dos cantidades
de una medida fija de tendencia.central, o sea la media conjunta. Pero (Y - Y p ) + (YfJ - Y) (véase la fig. 17.11). La primera de estas canti-
podemos obtener también la media de las Y para una X fija, y estamos dades representa la desviación del valor de Y respecto de la línea de los
suponiendo que estos valores varían con X de manera que produzcan una mínimos cuadrados e indica la cantidad de crror que se comete cuando
regresión lineal. Podemos generalizar en esta forma el concepto de la se emplea Y" para predecir Y. La segunda expresión, en cambio, indica
media, obteniendo una especie de media condicional de Y para una X la desviación de la línea de mínimos cuadrados (para una X dada) res-
dada, que podemos simbolizar como t-tvl",. pecto de Y. En la mayoría de los casos, esta cantidad representará el
Si generalizamos el concepto de variancia en fonna similar, podemos monto en que se reduce el error al conocer Y p • Si elevamos al cuadrado
obtener mía medida de dispersión respecto de la ecuación de regresión ahora ambos miembros de la ecuaci6n y sumamos luego todos los casos,
tal como: obtenemos:
(17.11)
)
' 3 2 6 ) ESTADíSTICA INDUCTIVA
indica la magnitud del error en la predicción. Y la- cantidad restante
i~dica lo q.ue hemos ganado al servimos de YJ) con preferencia a Y, pu~
dlendo designarse como la suma de cuadrados explicada. Por "explicado"
no ent~d~os, por supuesto, una explicación causal, sino simplemente
una aSOCiaCión entre las dos variables. Consideremos ahora más de cerca
cada una de estas cantidades:
I
I
,
Hemos demostrado así que:
r2
CORRELACIÓN Y REGRESIÓN
==
~(Y
JI
_ y)2
l:(Y - y)2
SC explicada
SC total
327
, Si tomamos una suma de cuadrados inexplicada y dividimos por él Por medio de un razonamiento similar pudimos haber demostrado que
numero total de casos, obtenemos la variancia de la muestra s2 respecto r r2 representa la razón de la variación explicada en X a la variación total
,
d e la 1mea de Ios "
mlmmos cuad rados. O sea: 1/1.t en X. Por 10 tanto, el cuadrado del coeficiente de correlación puede inter-
pretarse como la proporción de variación total en una de las variables
1
2 l:(Y - Y11 ):2 ¡
explicada por la otra. La cantidad de VI - r2 , designada a menudo
S -
como coeficiente de alineación, representa la raíz cuadrada de la propor-
, "'"'- N (17.13)
ción de la suma total de cuadrados que permanece sin explicar por la
s~ deseamos obtener una estimación insesgada de la variancia de la pobla- variable independiente.
ción 0;1'" respecto ,de la regresión real, hemos de dividir no por N, sino Cabe observar que no se da interpretación directa y simple algmla
de la r misma. De hecho, es posible dejarse desorientar por los valores de
por los gr~dos apropiados de li1;>ertad. En este caso hemos perdido 2 r, ya que estos valores serán numéricamente mayores que los de r2 (a me-
g.rad.os de b.bertad al ca1c~lar a y b COmo estimaciones de a y~. Por con- nos que r sea Oo ± 1.0). Así, p.ej., podría parecer que una r de .5 sea
SigUIente, SI deseamos estimar 0:,,,,
nos serviremos de: -
la mitad de buena que una correlación perfecta, en tanto que vemos
que, en este caso, sólo explicamos un 25 por ciento de la variación. Una
correlación de .7 indica que algo menos de la mitad de la variación resulta
(17.14) explicada. Vemos asimismo que correlaciones de .3 o menos significan
que sólo una fracción muy pequefia es explicada. El cuadro 17.4 indica
En esta forma, la s~ma .~e cuadrados ,inexplicada puede convertirse fácil- las relaciones entre las diversas cantidades.
ment~ ,en una eshmacI~n ?e la vanancia respecto de la ecuación de Comoquiera que 1 - r 2 representa la proporción de variación inex-
regreslOn. El lector h.ara bIen en convencerse por sí mismo de que 10 plicada, tenemos:
que hemos hecho es dIrectamente paralelo a nuestro tratamiento anterior
de} ~ná1isis de la variancia: ~ variabilidad respecto de la ecuación de
mm Irnos cuadrados ha sustItUIdo la noción de variabilidad en el interior
de las categorías de X. Por consiguiente:
Volviendo ahora a la suma de cuadrados explicada ~(YJI - Yp, pode-
l:(Y - 1')2 ~(Y - y )2
mos mostrar fácilmente que esta cantidad es equivalente a r2[~(Y - y)2), (1-r2 ) = ti
o r2~y2. Comoquiera que y •.. =
a + bX e Y a + bX, tenemos'
. = N N
o bien: