Está en la página 1de 601

HUBERT M. BLALOCK, JR.

ESTADISTICA
SOCIAL

GB
¿0 ANIVERSARIO

FONDO DE CULTURA ECONÓMICA


MÉXICO
Prim era edición en inglés 1960
Prim era edición e n español, 1966
Segunda edición e n inglés, 1972
Segunda edición en español, d e la segunda en inglés, 1978
Q uinta reim presión, 1994

T ítulo original:
Social Statistics
© 1960, 1972, Me Graw-Hill, Inc. Nueva York

D . R . © 1966, F o n d o d e C u l t u r a E c o n ó m ic a
D. R. © 1986, F o n d o d e C u l t u r a E c o n ó m ic a , S. A. d e C. V.
C arretera PicachoA jusco 227; 14200 México, D. F.

ISBN 968-16-0135-1
Im preso e n México
A
An n , S u s ie
y K atie
E ste lib r o h a sid o e s c rito fu n d a m e n ta lm e n te p a r a aq u e llo s e s tu ­
d ia n te s d e sociología, ta n to los y a titu la d o s c o m o lo s q u e a ú n
n o lo e s tá n , q u e se p ro p o n g a n d e d ic a rs e a la in v e stig a ció n social.
D u ran te los doce años tran sc u rrid o s desde que apareció la p ri­
m era edición, ta n to el nivel de p rep aració n com o la com plejidad
de la estad ística ap licad a h a n experim entado u n a m ejo ría consi­
derable, n o sólo en el cam po de la sociología, sino e n los de la
ciencia política, la antropología, la geografía y el tra b a jo social.
A p e sa r de ello, u n a ab ru m a d o ra m ayoría de los estudiantes, o
de los q ue ejercen en estos terren o s, carecen de la necesaria
b ase m atem ática que les p erm ita o b ten er p len a v en taja de la bi­
blio g rafía técn ica sobre estad ística, m atem ática y econom etría,
cuyos m ateriales au m en ta n rápidam ente. T eniendo e n m en te tales
dato s básicos h a sido escrito este texto, tra ta n d o de evitar, h asta
donde es posible, la s derivaciones m atem áticas, bastan d o u n a
rá p id a revisión de ciertos principios algebraicos, listados en el
A péndice 1, p a ra q ue el estu d ian te m edio obtenga u n a p re p a ra ­
ción suficiente. Aun cu an d o n o re su lte n ecesario e n u n p rim e r
cu rso de estad ística p o n e r de relieve dichas derivaciones m atem á­
ticas, el a u to r está convencido de la necesidad de en te n d e r p e r­
fectam en te ciertas ideas básicas y fundam entales so b re las que
se asien tan los prin cipios de la deducción estadística. Tal cosa
re s u lta ind isp en sab le si h a de lograrse algo m ás que u n conoci­
m ien to lim itad o a "re c e ta s” estadísticas. H em os pu esto p o r ello
especial in teré s en la lógica q u e fu n d a m e n ta la deducción esta­
dística, incluyendo asim ism o u n capítulo relativo a la p robabili­
dad, en ta n to se h a p re sta d o m en o r atención a m ateria s m ás o
m enos ru tin a ria s estu d iad as e n textos elem entales.
Uno de los p roblem as m ás difíciles e n la enseñanza de la esta ­
dística ap licad a es el de lo g rar in c ita r a los estudiantes, de m a­
n e ra q u e éstos su p eren su te m o r a las m atem áticas y ap ren d an
a ap lica r la estad ística e n su s p ro p io s cam pos de in terés. P or
e sta ú ltim a razón el a u to r n o h a in te n ta d o c u b rir u n a gam a am ­
p lia de aplicaciones, eligiendo p o r el co n tra rio ejem plos de in te­
rés fu n d am en tal p a ra los sociólogos. T am bién h a escogido o tro s
ejem plos de cam pos fronterizos de la sociología, tom ados de te­
rren o s tales com o la psicología social, el tra b a jo social y la con­
d u cta política. E n la m ayoría de los casos cada nuevo tem a h a
sido ilu stra d o con u n solo ejem plo, p o r su p o n er que m uchos
e stu d ian tes p e rd erían el hilo básico del razonam iento si se u tili­
zasen m uchos de ellos p a ra ilu s tra r u n punto. Se proporcionan,
sin em bargo, ejem plos adicionales b a jo la fo rm a de ejercicios
q ue ap arecen al final de cada capítulo. E n general h a tra ta d o
el a u to r de lo g rar u n equilibrio razonable e n tre la conveniencia
d e estab lecer los principios básicos e n fo rm a ta n clara y concisa
com o re su lte posible, y la necesidad de re p e tir algunas de las
ideas m ás dificultosas cada vez que exam ina u n nuevo tem a.
H a sta donde es posible, las ideas nuevas h an sid o p resen tad as
grad u alm en te y —lo q u e es igualm ente im p o rtan te— se h a n he­
cho esfuerzos p a ra que cada nuevo tem a quede relacionado con
los que h an p reeedido. Al h acerlo así se tuvo p re se n te la m eta
fun d am en tal, co nsistente en b rin d a r u n a apreciación de las sem e­
janzas básicas que fu n d am en tan m uchas de las p ru e b as (te sts)
y m ediciones m ás com únm ente usadas.
Casi to d as las sugerencias que h e recibido de p erso n as deseo­
sas de ay u d ar a m e jo ra r la p rim e ra edición se re fería n m ás a la
conveniencia de au m en ta r que a la de re d u cir el libro, dando a
en ten d e r q ue m uchos de los tem as trata d o s originalm ente debe­
ría n ser exam inados m ás técnicam ente. E n m i opinión, ta n to los
sociólogos com o los estudiosos de ciencias políticas, en p artic u la r,
precisan verse m ás expuestos, ta n to a una bibliografía de m ayor
nivel técnico so b re diseños experim entales, com o a procedim ien­
tos p a ra el u so de ecuaciones sim ultáneas relacionadas con la
investigación n o experim ental. R esultó claro q u e si se agregaban
estos m ateriales al texto original, éste p e rd e ría su atra ctiv o com o
in tro d u cció n ad ecuada p a ra los estu d ian tes que asp ira n a la m aes­
tría en ciencias sociales. Se resolvió, pues, que los diseños expe­
rim entales, el análisis de facto res y los m étodos de ecuaciones
sim ultáneas, así com o o tro s tem as m ás avanzados, serían tra ta ­
dos en u n tex to separado, a cargo de dos de m is colegas: Lewis
F. C árter y K rishnan N am boodiri.
Se incluye en el texto cierto n ú m ero de secciones, p árrafo s
y ejercicios que, o bien son conceptualm ente difíciles o p resupo­
nen q ue el estu d ian te posee cierta fam iliaridad con tem as cubier­
to s en cursos acerca de los m étodos de investigación. E stas p a r­
tes del tex to h a n sido señaladas con asteriscos (* ), y pueden ser
leídas sin d eten erse en ellas, o b ien elim inadas del todo. Los
in stru cto re s q u e utilicen el tex to en cursos de u n sem estre
p o d rá n in d icar a los estu d ian tes la conveniencia de o m itir dichos
m ateriales.
Se h a llevado a cabo u n a leve revaluación e n los aspectos téc­
nicos, em p ero sin cam b iar la e stru c tu ra b ásica del texto. Hay
ciertas m odificaciones en la sección relativa a la estad ística des­
criptiva, sección a la que el a u to r h a añadido discusiones sobre
supuestos y conceptos básicos, confiando así en a c la ra r la rela­
ción en tre los m odelos estadísticos y el m undo re al con el que
el científico social h a de tra ta r. Además de estos cam bios, la
p resen te edición contiene discusiones acerca de diversos proce­
dim ientos, tests y m ediciones que h an venido siendo usados cada
vez m ás d u ra n te la década de 1960-1969.
El cap ítu lo ix, sobre la probabilidad, h a sido am pliado m edian­
te el exam en de p erm u tas, diagram as e n árbol, T eorem a d e Ba­
yes y cálculos relacionados con las probabilidades condicionales
y la noción de valores previstos. T am bién al capítulo x, q u e in­
cluye u n a explicación d e la distribución binom ial, h a agregado
el a u to r u n a breve discusión de dicha d istribución binom ial, la
distrib u ció n h ipergeom étrica y la distribución de Poisson. E stas
agregaciones facilitarán la transición a o tro s textos,^orientados
específicam ente a la estad ística n o p aram étrica.
E l a u to r h a au m entado asim ism o el espacio dedicado a técnicas
n o p aram étricas, incluyendo el test de F riedm an p a ra análisis
recíprocos de fluctuaciones con o rd e n ; gam m a y dyx, com o m edi­
das de asociación o rd in a l; u n te st p a ra la interacción relativa a la
d iferencia de diferencias de proporciones, y la norm alización en
el caso de procedim ientos con escala nom inal. El lecto r encon­
tr a r á adem ás u n a discusión am pliada acerca de las propiedades
de las v arias m edidas ordinales y técnicas d e divisibilidad con
escalas ordinales.
De m an era análoga h a sido am pliado el com entario de los acer­
cam ientos p aram étricos p a ra incluir en él la discusión de los
supuestos p a ra el m odelo lineal general, cubriendo adem ás el
acercam iento de la variab le sim ulada com o perspectiva altern a
en el análisis de la covariación. T am bién se h an agregado los
principios esenciales básicos d e la teo ría que fu n d am en ta el uso
de com binaciones lineales, aplicándola a la discusión del e rro r
n o rm al de la m edia, la diferencia de m edias, la diferencia de las
diferencias de p roporciones y el em pleo d e com paraciones o rto ­
gonales en el caso de m u estras m últiples.
E n u n esfuerzo p a ra a y u d a r al lecto r en la apreciación del cua­
d ro global, el a u to r h a incluido u n a ta b la resu m en d e tests y
m ediciones, tab la que aparece en el in te rio r de la tap a, así com o
am plios sum arios al final de los capítulos u , xiv y xx.
Son m uchas las personas que h an colaborado e n esta revisión,
p ero el a u to r desearía d a r gracias de m an era especial a R ichard
G. Ames, E rica B orden y Louis G oodm an p o r sus com entarios en
relación con la to talid a d del m anuscrito.
P o r su ayuda en la p rep aració n de la p rim e ra edición, deseo
d a r gracias de m an era destacada a los estud iantes y colegas de
la U niversidad de M ichigan, quienes leyeron varios b o rrad o res
del lib ro y sugirieron m ejoras. A R ichard T. LaPierre, S anford
D om busch, R obert Ellis, S an to Cam illeri y T heodore A nderson
m i ap recio p o r leer y c ritic a r el m an u scrito original. Deseo igual­
m en te agrad ecer p o r la corrección de pruebas, el m ecanografiado
y la revisión de los cálculos, la ayuda p re sta d a p o r Ann Blalock,
D iane Etzel, Ann Laux y Doris Slesinger. G racias igualm ente a
Daniel O. Price, m erecedor de am plio reconocim iento p o r h ab e r
estim u lad o m i in terés e n la estadística.
Quedo en deu d a con el p ro feso r S ir R onald A. F isher, de Cam­
bridge, con el d o cto r F ran k Yates, de R otham sted y con los se­
ñores Oliver a n d Boyd, Ltd., de Edim burgo, p o r su autorización
p a ra re im p rim ir los cuadros iii, iv y v de su lib ro Cuadros esta­
d ísticos para investigaciones biológicas y agrícolas. T am bién es­
toy reconocido a los distin to s editores y autores, m encionados
en los lugares adecuados, quienes am ablem ente dieron perm iso
p a ra el u so de varios cuadros y form as de com putación.

H ubert M. B lalock , Ja.


P rim e ra P a r te

INTRODUCCIÓN
E l cam po d e la estad ística tien e m últiples aplicaciones, com o lo
d em u estra el hecho de que se den cursos de ella en m ateria s ta n
dispares com o son la odontología y la sociología, la ad m in istra­
ción de negocios y la zoología, la salud pública y la enseñanza.
A p e sa r d e ello, existen to d av ía m uchas concepciones erró n eas
acerca de la n atu raleza d e esta disciplina en estad o de rá p id o
desarrollo. La id ea que de la estad ística se h ace el lego, puede
d ife rir m u ch o de la que tien e de ella el estad íg rafo profesional.
A veces se supone q u e el estadígrafo es u n a p erso n a que m ani­
p u la n ú m ero s p a ra d em o strar s u p u n to d e vista. P o r o tra p a rte ,
en cam bio, algunos estu d ian tes de sociología o de o tra s ciencias
sociales, p ro p en d en a ad m ira rle com o a alguien que, con la ayuda
d e su calculadora, p u ed e co n v ertir casi cualquier estu d io en
"cien tífico ”. D ebido p osiblem ente al re sp eto q u e m uchas p e rso ­
n as sien ten p o r to d o aquello que en alguna fo rm a se relaciona
con las m atem áticas, a m uchos estu d ian tes les re s u lta difícil
in scrib irse en u n cu rso d e estad ística sin c ie rta aprehensión.
P ese a q u e les in fu n d a te m o r la perspectiva de tra b a ja r con n ú ­
m eros, es posible tam b ién que esp eren dem asiado d e u n a disci­
p lin a q u e p arece ta n form idable. Antes, pues, de e n tra r dem asia­
do rá p id a m en te en m ateria , con lo que correm o s el riesgo d e
p e rd e r la perspectiva, em pecem os p o r p re g u n ta rn o s q u é e s exac­
tam en te la estad ística y q u é es aquello q u e p u ed e y aquello que
n o p u ed e hacer.
T al vez re su lte m ás fácil em pezar indicando aquello q u e la
estad ística n o e s .»E n p rim e r lugar, la estad ística n o es en m odo
alguno u n m scodo con el q u e u n o p u e d a p ro b a r casi to d o aquello
que d esea p ro b a r. V erem os, a n te s bien, q u e los estadígrafos
po n en especial em peño e n estab lecer las reglas del juego d e ta l
m an era q u e las in terp retacio n es n o vayan m ás allá de los lím ites
de los datos. Sin em bargo, n o h ay n ad a en los m étodos estad ís­
ticos e n sí m ism os q ue sea capaz de ev itar q u e el individuo su­
perficial o intelectu alm ente poco escrupuloso saq u e sus p ro p ias
conclusiones, a p e sa r de los datos, y u n o de los aspectos m ás
im p o rtan tes de u n cu rso d e introducción a la estad ística consiste
p recisam en te en p o n e r a los estu d ian tes en gu ard ia c o n tra los
posibles abusos de esta h erram ien ta.
La estad ística no es sencillam ente u n a colección d e hechos. Si
lo fu era, n o v ald ría m ucho la p en a estudiarla. Ni constituye ta m ­
poco u n su stitu tiv o del p en sam iento a b stra c to teó rico o del exa­
m en m inucioso de los casos excepcionales. E n algunos d e los
lib ro s de texto m ás antiguos solían e n c o n tra rse p ro lijas discu-
15
siones acerca de los m éritos del estu d io casuístico, fre n te al m é­
todo estadístico. Ahora, en cam bio, ad m ítese claram en te que los
m étodos estadísticos n o se "oponen" en m odo alguno al análisis
cualitativo de los casos p artic u la res, sino que am bos m étodos se
com plem entan. Y n i siq u iera es exacto que la estad ística sólo
sea aplicable en , p resencia de u n gran n ú m ero de casos, o que
no p u ed a em p learse en los estudios de exploración. Finalm ente,
la estad ística n o es tam poco u n s u s titu to de la m edida, o de la
p rep aració n cuidadosa de u n a cédula de investigación o de otros
in stru m en to s p a ra la recolección de datos. Se in sistirá con m a­
y o r detalle en este ú ltim o aspecto al final del p re se n te capítulo
y en el siguiente.
Y ahora, habiendo indicado lo q u e la estad ística n o es, ¿pode­
m os acaso a firm a r decididam ente aquello que es? In fo rtu n ad a­
m ente, los estadígrafos m ism os p arece n d iscre p ar algo e n tre sí
en cu an to a la extensión de aquello que deba co m p ren d erse b ajo
el apelativo general de "estad ístic a”. A doptando u n p u n to de vista
pragm ático, podem os decir p o r n u e stra p a rte q u e la estad ística
com prende dos funciones m uy vastas, y que n a d a de aquello que
no cum ple dichas $ o s M ic ió ñ é s fo rm a p a rte de ella. L a p rim era
es la de la descripción, el resu m en de la info rm ación de tal m odo
que se p u ed a em p lear m ejo r. Y la segunda es la de la inducción,
con sisten te en fo rm u la r generalizaciones a p ro p ó sito de u n a de­
term in ad a población sobre la base de u n a m u e stra ex traíd a de
la m ism a. E sta s dos funciones se exam inarán a su tiem po.

1.1. Funciones de la estadística


La estadística descriptiva. E n la investigación social, u n a persona
se e n c o n tra rá a m enudo en la situación de d isponer de tan to s
datos, que le re su lte difícil ab so rb e r la inform ación en tera. Puede
h a b e r re u n id o 200 cuestionarios y p re g u n ta rse con todo, em ba­
razosam ente, "¿q ué hago con to d o ello?" Con ta m a ñ a inform ación
h a b ría de re s u lta r excesivam ente difícil, excepto tal vez p a ra las
m en tes ex tra o rd in aria m e n te fotográficas, ca p ta r intuitivam ente
lo que los datos contienen. E n u n a fo rm a u o tra, pues, la infor­
m ación h a de re d u cirse h a sta un p u n to en que p u ed a verse cla­
ra m e n te lo que hay en e lla : h a de resum irse^ Con el em pleo de
m edidas de cálculo, tales com o po rcen tajes, prom edios, desvia­
ciones e stán d a r y coeficientes de correlación, re su lta posible re­
d u cir los datos a proporciones m anuables. Al re su m ir los datos
su stituyendo grandes cantidades p o r unas pocas m edidas, cierta
inform ación h a de p erd érse necesariam ente y, lo q u e es m ás
grave, es posible o b ten er re su ltad o s engañadores, a m enos que
pe los in te rp re te con m ucha precaución. De ah í que convenga
in d icar claram en te las lim itaciones de to d a m edida resum ida.
La estad ística descriptiva es m u y ú til en aquellos casos e n que
el investigador necesita m an eja r relaciones m u tu as en tre m ás de
dos variables. Supongam os, p o r ejem plo, que resu lte preciso
em p lear ocho o diez variables com o ayuda p a ra explicar las ta­
sas de delincuencia, y supongam os p o r o tra p a rte que aquellas
variables explicativas o independientes e stán altam ente relacio­
nad as e n tre sí. Si se desea aislar el efecto ocasionado p o r u n a
o dos de tales variables, lim itándonos a las consecuencias de
las dem ás, ¿cóm o h ab ría que proceder? ¿Qué género de supues­
tos re su ltarían necesarios? Situaciones de este grado de com ­
plejid ad se p lantean en u n a ram a de la estadística conocida
con el n om bre de análisis m ultivariado. E n los capítulos xv,
xvi, xix y xx exam inarem os algunos problem as relativam ente sen­
cillos de análisis m ultivariado, reservando otros casos m ás com ­
plejos p a ra un segundo volum en.

La estadística inductivai La estad ística re su lta ría u n a m ateria


m uy fácil si la atención p u d iera lim itarse a las m edidas descrip­
tivas. Tal vez u n a función m ucho m ás im p o rtan te de la estad ís­
tica, y en todo caso la que re te n d rá la m ayor p a rte de n u estra
atención en este texto, es la derla inducción? consistente en infe­
r ir p ropiedades de u n a población sobre la base de u n a m u estra
con resu ltad o s conocidos. La inducción estadística, com o se la
aco stu m b ra llam ar, im plica u n razonam iento m ucho m ás com ­
plejo que el de la estad ística descriptiva, pero, si se la com pren­
de y utiliza bien, se convierte en un in stru m en to m uy im p o rtan te
p a ra el d esarrollo de u n a disciplina científica. La estadística in­
ductiva se b asa d irectam ente en la teo ría de la probabilidad, que
es u n a ram a de las m atem áticas. Tenem os, pues, así, una disci­
plin a p u ram en te deductiva que p ro p o rcio n a u n a b ase racional
p a ra el razonam iento inductivo. Que el a u to r sepa, no existe o tra
b ase racional alguna p a ra la inducción. E ste p u n to general se
exam inará con m ayor detalle en el capítulo vm .
E xisten algunas razones de orden práctico en cuya v irtu d re ­
su lta a veces necesario tr a ta r de generalizar sobre la base de una
inform ación lim itada. La m ás obvia de ellas es la del facto r tiem ­
po-costo. Sería absolutam ente im practicable, y no digam os ya
p ro h ib itiv am en te costoso, p re g u n ta r a cada electo r cóm o se pro­
pone votar, con objeto de p red ecir en esta form a el resultado
d e u n a votación nacional. Ni puede el investigador co rrien te
p erm itirse visitar a todos y cada uno de los residentes de una
g ran ciu d ad p a ra e stu d ia r sus prejuicios, la m ovilidad social o
cu alq u ier o tro fenóm eno p o r el estilo. Lo p rim ero que hace, en
efecto, es decidir la n atu raleza exacta del grupo que se propone
generalizar ("la población” ). Puede escoger a todos los ciudada­
nos en edad de votar, o todos los varones blancos de dieciocho
años cum plidos, que viven en los lím ites' de la ciudad de D etroit.
E n tal caso suele p o r lo reg u lar ex tra er una m u estra consistente
en u n a p ro p o rció n relativam ente pequeña de las p ersonas en
cuestión, p e ro in teresándose a n te to d o no en esa m u e stra p a r­
ticu lar, sino en la población m ás n um erosa de la q u e h a sido
ex traída. Puede en co n trar, p o r ejem plo, que, en esa m u estra
p a rtic u la r de 200 varones blancos, existe u n a relación negativa
e n tre la educación y el prejuicio. Aun adm itiendo que en o tro
co n ju n to de 200 individuos m u estread o s el re su ltad o p u d o hab er
sid o to talm en te d istinto, p ro p e n d erá sin em b arg o a establecer
ciertas in feren cias acerca del c a rá c te r de la relación en el caso
de h ab erse estu d iad o la población e n te ra de los varones blancos
ad u lto s e n D etroit.
O tra razón que lleva a generalizar so b re la base de u n a infor­
m ación lim itad a es la de que p u ed e se r im posible u tiliza r a toda
la población, p o rq u e ésta sea in fin ita o difícil de definir. Al repli­
c a r u n ex p erim ento en las ciencias n atu ra les o sociales, el obje­
tivo p arece s e r siem pre c ie rta clase de generalización d e la que
se esp era que se v erificará "en circunstancias sim ilares". O bien
u n esp ecialista en ciencias sociales puede h a b e r re u n id o datos de
todos los casos d e que dispone. P uede h ab erse servido, p o r ejem ­
plo, com o unidades de análisis, en u n estudio so b re la m igración
in terio r, d e todos los 50 estados [d e los E stados U nidos], desean­
d o sin em bargo generalizar acerca d e la m igración e n condicio­
n es "se m ejan tes”. E n cada u n o de dichos casos, la situación
re q u ie re el re cu rso a la estad ística inductiva.
Llegados a este pun to , alguien p o n d rá tal vez u n a p reg u n ta
p o r el estilo de é s ta : "si la estad ística es ta n im p o rtan te, ¿cóm o
es que ciencias com o la física y la quím ica, p o r ejem plo, hayan
p o d id o p ro g resar ta n to sin el em pleo extenso de las técnicas es­
tad ísticas? ¿D ifieren acaso éstas en algo?” Es obvio que sí lo
hacen. Algunas d e las ciencias n atu ra les se h an desarrollado,
sin duda, p o r espacio de siglos sin el em pleo de la estadística
inductiva. P ero esto parece se r an te to d o cuestión d e su erte o,
p a ra reco n o cer el m érito de los esfuerzos de los científicos, se
d a u n co n tro l relativam ente satisfacto rio de los elem entos p er­
tu rb a d o re s del m edio. E n efecto, ta l com o se p o n d rá de m ani­
fiesto en cap ítu lo s ulteriores, en la m edida en que im p era n condi-'
ciones de lab o ra to rio escrupulosam ente controladas, la necesidad
p rá ctica de las técnicas estadísticas es m enor. E n este sentido,
la estad ística es el sustitutivo, p a ra el indigente, d e los experi­
m entos com plicados de lab o ra to rio en los que se h a n tenido en
cu en ta todas las variables re lev an tes1in ip o rtan tes. H ay que sub-.
ray ar, con todo, que m uchos de los knismos principios estad ísti­
cos se aplican a los experim entos de lab o rato rio en m a teria de
física, a los experim entos algo m enos precisos en m a te ria de agri­
c u ltu ra y a las investigaciones sociales. Así, p o r ejem plo, si un
ex perim ento en física se h a replicado 37 veces con los m ism os
resu ltad o s, es p erfectam en te concebible, sin em bargo, que ensa-
yos subsiguientes den resultados distintos. P or consiguiente, el
científico h a de generalizar sobre la b ase de u n nú m ero lim itado
de experim entos, y las inferencias que establece son en esencia
estad ísticas p o r su carácter. E n fo rm a análoga, el problem a del
e rro r de m edición puede concebirse tam bién en térm inos de es­
tadística. E n efecto, p o r m uy preciso que sea el in stru m en to de
m edición, el científico nu n ca obtiene exactam ente el m ism o re­
sultad o con cada replicación. Puede a trib u ir dichas diferencias
ya sea a e rro r de m edición o a efectos p ertu rb ad o re s de algunas
variables incontroladas. La estadística se hace especialm ente ne­
cesaria cuan d o de u n a replicación a o tra las diferencias son ta ­
les, que n i se las puede ig n o rar n i a trib u ir a e rro r de m edición.
P or lo tan to , fundam entalm ente, la inferencia estad ística p u n tu a­
liza todas las generalizaciones científicas, au n q u e la necesidad de
u n a p rep aració n estad ística y el em pleo de técnicas estadísticas
com plicadas varíe considerablem ente de u n cam po de actividad
a otro.

1.2. E l lugar d e la estadística en el proceso de la investigación


La im p o rtan cia de la estad ística en el proceso de la investigación
se exagera e n ocasiones debido al destacado lugar que ocupa en
los planes d e estudios de graduación. La estad ística m ism a no
co m prende problem as d e m edición, tales com o la elaboración
de índices o la pu ntuación de las preg u n tas d e u n cuestionario.
C om prende, an tes bien, u n a m anipulación de cifras, p artiendo
del su p u esto que se h a n cum plido determ inados requisitos en el
proceso de m edición. De hecho, las consideraciones estadísticas
sólo se in tro d u cen en la fase de análisis del proceso de investi­
gación u n a vez que se h an re u n id o todos los datos, al principio
de la m ism a, cuando se pro y ectan los planes iniciales del análi­
sis y cu an d o se h a de e x tra e r u n a m uestra.
M ientras que la indicación que acaba de h acerse en el sentido
de que la estad ística sólo e n tra en las fases técnicam ente co­
rrectas del análisis y del m u estreo del proceso de investigación,
p o d ría con to d o in d u cir a e rro r, a m enos que fu e ra preciso. No
significa ciertam en te que el científico en m a te ria social pu ed a
p lan ea r y llevar a cabo su investigación e n te ra sin conocim ien­
to alguno de estad ística, y p o n erla luego en m anos del estadígra­
fo diciéndole: "H e aquí, m i lab o r está te rm in a d a : ahora, analí­
cela u sted .” Si así lo hiciera, los resultados p robablem ente serán
poco satisfactorios, cuando n o inútiles p o r com pleto. Es obvio,
e n efecto; que los problem as que h a b rá n de en c o n trarse en el
análisis h an de anticiparse e n cada etap a del proceso de inves­
tigación, y en este sentido las consideraciones estadísticas hallan
aplicación a to d o lo largo del m ism o. Un análisis estadístico, p o r
m uy elab o rad o que sea, ra ra m e n te o nunca llegará a com pensar
las fallas de u n pro y ecto m al concebido o d e u n in stru m e n to de
recolección de datos deficiente. E ste ú ltim o p u n to m erece u n
co m en tario especial. Significa, en efecto, que la estad ística pue­
de ciertam en te c o n stitu ir u n au x iliar valioso de u n ac ertad o dis­
c u rrir juicioso, p e ro nunca, en cam bio, u n s u stitu to del m ism o.
D esde el p u n to de vista del sociólogo n o es m ás q u e u n in stru ­
m ento.
Dicho lo a n terio r, agregaré q u e la estad ística re s u lta en los
exám enes ex p loratorios u n a h e rra m ie n ta m ucho m ás flexible de
lo que p o d ría im aginarse. B uena p a rte de la investigación social
se b asa en ideas teóricas sum am ente ten tativ as, las que n o cons­
titu y en u n a guía p recisa en función de las interrelacxones que
cabe esp erar, de las variables que h an de s e r co n tro lad as en el
análisis, o incluso de las p rio rid ad e s y secuencias a que h an de
s u je ta rs e las etap as del análisis. Con frecuencia se sorprenden
los estu d ian tes a n te la com plejidad que ad q u iere el análisis de
datos, ta n p ro n to com o se in tro d u cen en el c u a d ro h a sta una
m ed ia docena de variables. E s especialm ente e n estos casos
cu an d o u n conocim iento de la teo ría estad ística de diseños ex­
p erim en tales, o de la técnica de la estim ación m ed ian te ecua­
ciones sim u ltáneas p asa a se r u n in stru m en to valioso, m ediante
el cual pu ed en ser clarificadas algunas relaciones de u n a gran
com plejidad. Los m étodos verbales o intuitivos re su lta n absolu­
tam en te inadecuados. E n u n tex to general, tal com o el presente,
sólo pu ed en ab o rd arse tem as de diseño experim ental y análisis
m u ltiv ariad o , p e ro es im p o rta n te te n e r en cu en ta q u e hay n u ­
m erosas m ateria s m ucho m ás avanzadas, las q u e h a n m o strad o
su valía in clu so en aquellas investigaciones ex ploratorias cuyo
p ro p ó sito co n siste en d eterm in a r la im p o rtan cia relativ a de n u ­
m erosos facto res, al o b je to de re d u c ir d e m a n e ra sistem ática el
m arg en de altern ativ as, crean d o hipótesis m ás p recisas p a ra su
u so en investigaciones u lterio res.

1.3. A dvertencia
E n p resen cia de u n n ú m ero o de u n a ecuación m atem ática, algu­
nos estu d ian tes ex p erim en tan u n tem o r que va desde u n a ligera
ap reh en sió n h a sta la inhibición m en tal com pleta. Si el lecto r es
de éstos, d eb erá tr a ta r especialm ente de deponer to d a idea p o r
el estilo acerca de que “la estad ística es algo que ya sé que nunca
llegaré a e n te n d e r”. E n efecto, el grado de m atem áticas reque.
rid o en este texto es tal, que los cursos de álgebra de la escuela
secundaria, añadidos a las pocas operaciones algebraicas elem en­
tales q u e se exponen en el A péndice 1, constituyen u n a p re p ara­
ción suficiente. H ay que re c o rd a r, con todo, q u e los textos de
m atem áticas y estad ística n o se leen com o u n a novela. P o r lo
reg u lar, e n efecto, la m a te ria se p re se n ta en fo rm a m uy conden-
sa d a . D e a h í, p u e s, q u e se re q u ie ra n u n a le c tu r a a te n ta y u n a
d isp o sic ió n de e s p ír itu activ a, y n o sim p le m e n te p asiv a , f r e n te
al m a te ria l p re s e n ta d o . É s ta es la ra z ó n d e q u e n o se p u e d a
p r e s c in d ir de u n tr a b a jo c o tid ia n o y d e la re so lu c ió n d e los p ro ­
b le m a s p rá c tic o s in c lu id o s al fin a l de c a d a ca p ítu lo .

B iblio g ra fía

1. Downie, N. M. y R. W. H eath: Basic Statistical Methods, 2- ed. Har-


per and Row, Fublishers, Incorporated, Nueva York, 1965, caps. 1 y 2.
2. Hagood, M. J. y D. O. Price: Statistics for Sociotogisís, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 1 y 2.
3. Hammond, K. R., y J. E. Householder: Introduction to the Statisti­
cal Method, Alfred A. Knopf, Inc., Nueva York, 1962, cap. 1.
4. Hays, W. L .: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, pp. 1-12.
5. Tippett, L. H. C .: Statistics, 2? ed., Oxford University Press, Nueva
York, 1956.
6. Walker, H. M .: Mathematics Essential for Elementary Statistics,
Henry Holt and Co., Inc., Nueva York, 1951.
7. Waliis, W. A. y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, caps. 1-3.
E s t e capítulo tien e p o r objeto esbozar en líneas generales las re­
laciones existentes e n tre las proposiciones teóricas, las hipótesis
em píricas, la m edida y los m odelos m atem áticos. M uchos de los
problem as trata d o s en este capítulo no suelen exam inarse en
conexión con los cursos de estadística, lo que se debe en p arte
a la tendencia poco afo rtu n ad a consistente en dividir la m ateria
en cursos con las apelaciones de "te o ría ”, "m étodos de investiga­
ción” y "estad ística”. E sto ocasiona que las relaciones internas
e n tre dichas m aterias resu lten a veces oscurecidas. Con objeto
de situ a r a la estad ística en la debida perspectiva, conviene pres­
ta r atención a las relaciones e n tre las proposiciones teóricas y
las hipótesis de investigación p o r u n a p arte, y e n tre estas ú lti­
m as y los m odelos m atem áticos p o r la otra.
Se suele decir con frecuencia que el objeto de la investigación
está en v erificar hipótesis desarrolladas teóricam ente y que los
m étodos estadísticos capacitan p a ra efectu ar dichas pruebas. Hay
que te n e r p resente, sin em bargo, que los procesos im plicados
en p asa r de la teo ría a las hipótesis reales de investigación y de
éstas a los enunciados de probabilidad del tip o em pleado en la
inferencia estad ística no son en m odo,alguno directos. En efecto,
en am bos casos hay que to m a r decisiones, las cuales pueden d ar
lu g ar a u n grado considerable de controversia. Exam inem os
p rim ero el ca rác te r de las decisiones que se req u ieren p a ra des­
arro llar, a p a r tir de proposiciones teóricas, hipótesis verificables.

*11.1. Teoría e h ip ó te sis: definiciones operativas


E n el in stan te en que em pezam os a diseñar u n proyecto de inves­
tigación enderezado a verificar u n a proposición que puede apa­
recer en u n tra b a jo teórico, re su lta evidente que h ay que h acer
varias cosas an tes de p o d er p ro ced er a la prueba. Tom em os a
títu lo de ejem plo concreto la siguiente proposición: "Cuanto
m ás elevada es la condición social de u n a persona, tan to m en o ­
res son sus prejuicios en relación con los negros.” Supongam os
que la "condición social” se haya definido com o la posición que
la p erso n a ocupa en relación con o tras en la je ra rq u ía social, y
los "p reju icio s" com o tendencia latente a la discrim inación de
* El asterisco que precede una sección, párrafo o ejercicio indica que la
materia que contiene o es de comprensión difícil o trata de conceptos con
los que probablemente no están familiarizados los estudiantes que sólo disr
ponen de una preparación limitada en materia de metodología de investiga­
ción. El estudiante principiante puede perfectamente omitir dichos pasajes
o leerlos superficialmente. Por su parte, el asterisco que precede al título
de una sección indica que la sección entera puede omitirse si se quiere.
22
u n a m in o ría o com o a c titu d negativa b a sa d a en juicios prefor-
m ados. Aun si sé p re fie re s u stitu ir p o r o tra s las definiciones de
esos dos conceptos, se d e sc u b rirá sin d u d a alguna que, cuales­
q u iera que sean las definiciones escogidas, re su lta im posible s e r­
v irse d irectam en te de ellas p a ra decidir cuál sea exactam ente la
condición de Jones, pongam os p o r caso, o el grado de sus p r e ­
juicios.
La razón de ello resid e en que la m ayoría d e las proposiciones
son m ás bien teóricas q u e operativas. E n la definición teórica,
en efecto, u n concepto se define en térm inos d e o tro s conceptos
que se d an p o r com prendidos. E n el m odelo ideal del sistem a
co m pletam ente deductivo, se to m arían ciertos conceptos sin d e­
fin ir (p rim a rio s), y todos los dem ás se definirían en térm inos
de aquéllos. E n la g eom etría euclidiana, p o r ejem plo, los con­
ceptos de p u n to y recta pueden to m arse sin definir, pudiendo
luego d efinirse las nociones d e ángulo, triángulo o rectángulo
en fu nción de aquellos térm inos. Pese a que la elección de
conceptos n o definidos es h a s ta cierto p u n to a rb itra ria , el hecho
de que ten g an que ex istir siem pre algunos conceptos p rim ero s o
p rim ario s re su lta de la necesidad in h ere n te de definir los con­
cep to s teóricos en térm in o s unos de otros.
P or o tra p arte , las definiciones operativas son definiciones que
enuncian efectivam ente los procedim ientos em pleados en la m e­
dición ([8 ], pp. 58 a 65). La definición op erativ a de "lo n g itu d ”,
p o r ejem plo, in d icará exactam ente cóm o deba m ed irse el largo
de u n cuerpo. El ejem plo de u n a definición o p erativ a del p re ­
ju icio im p licará u n a p ru e b a com o la de la escala d e la distancia
social de B ogardus o, ta l vez, u n a relación de conceptos a n ti­
negros en u n a lista de 24 puntos, ju n ta m e n te con instrucciones
d etallad as p a ra recoger los datos, v alo ra r los puntos, etbétera.
Como q u iera que to d a m edición im plica com o re q u isito m ínim o
alguna clasificación, la definición o p erativ a p u ed e co n sid erarse
com o u n co n ju n to d etallad o de instrucciones q u e p erm iten cla­
sificar a los individuos en fo rm a inequívoca. De este m odo, la
noción del grado d e confianza o g aran tía de seguridad queda in­
teg ra d a en dicho concepto de la definición operativa. La defini­
ción h a de se r lo b a s ta n te p recisa p a ra que todas las personas
q ue se sirvan del p rocedim iento lleguen a los m ism os resultados.
Lo q ue las definiciones teóricas del p reju icio y de la condición,
social consignadas m ás a rrib a no lo p erm itirán , p o r supuesto, di­
rectam en te.
S ostenem os, pues, que en to d a ciencia se utilizan dos tipos dis­
tin to s de definiciones. D iversas m aneras altern ativ as de en fo car
la relación e n tre la te o ría y la investigación conducen esencial­
m en te a la m ism a conclusión. N o rth ro p designa lo que hem os
llam ado definiciones teóricas com o "conceptos p o r postu lació n ”,
y las definiciones operativas com o “conceptos p o r intuición" [9].
P o r n u estra p a rte nos hem os servido de u n a term inología que
p arece im p licar que hay dos m aneras distintas de definir un
"m ism o ” concepto, en tanto que N orthrop p re fiere referirse a
dos tipos distintos de conceptos. Otros, todavía prefieren pen sar
en térm inos de índices, m ás que de definiciones operativas. El
concepto de índice im plica p o r lo regular que el procedim iento
em pleado da sólo un indicador im perfecto de alguna variable
señalada que no es m edible directam ente. De acuerdo con este
pu n to de vista, pues, hay dos cosas: u n a variable señalada y un
in dicador de esta variable. Pero, independientem ente del punto
de vista que cada cual prefiera, es indispensable com prender el
carácter del nexo en tre ias dos clases de definiciones, de concep­
tos o de variables. Podem os p re g u n ta r si existe o 210 un m étodo
p u ram en te lógico de ju n ta r las dos clases de definiciones. O tra
fo rm a de p lan tea r la cuestión consistiría en p re g u n ta r si existe
o no m odo lógico alguno de decidir si una definición operativa
d eterm in ad a (o un índice) m ide "realm en te” el concepto o la
variable teó ricam ente definidos. La resp u esta a am bas cuestio­
nes p arece ser negativa.
N o rth ro p sostiene esencialm ente que no hay m an era alguna de
asociar las dos clases de conceptos o definiciones, excepto p o r
vía de convención o de com ún acuerdo. La gente en general está
sim plem ente de acuerdo en que debería em plearse u n a determ i­
n ad a definición operativa como m edida de u n determ inado con­
cepto, si las operaciones parecen razonables sobre la base de la
definición teórica. Puede p resu m irse que, si varias definiciones
operativas son posibles, se escogerán aquellas que parecen m ás
apropiadas y al m ism o tiem po m ás seguras. El ca rác te r de “apro­
p iado” h a de juzgarse inevitablem ente sobre la b ase de la com­
prensión que uno tiene de la definición teórica. Se em plea a
veces el térm in o de validez aparente p a ra designar el carácter
ap ropiado de u n índice o de una definición operacional ([11],
p. 165). Idealm ente, según lo señala B ridgm an, las operaciones
y las definiciones teóricas h ab ría n de asociarse sobre la base de
u n o a uno ([2 ], pp. 2 3 ss). O en o tro s térm inos, si cam biam os
la operación, deberíam os servirnos de o tro concepto. Sin em ­
bargo, sem ejante ideal es tal vez irre al en el estad o actual de
desarrollo de las ciencias sociales. Su aplicación conduciría sin
du d a alguna ya sea a u n a rigidez capaz de ahogar todo nuevo
progreso m etodológico o a u n a proliferación de conceptos teó­
ricos [1].
¿Qué puede hacerse, pues? Podem os a d m itir la posibilidad de
ten er asociado un núm ero de diversas operaciones o de índices
a cada concepto teórico. Pero en tal caso podem os en contrarnos
con una dificultad com ún: dichos procedim ientos pueden d ar
resu ltad o s d istintos. Uno de los procedim ientos em pleados p a ra
m ed ir el p reju icio puede llevar a resultados que indiquen que
n u estra "h ip ó tesis” h a sido confirm ada. E n ta n to que, en otro
caso, o tro procedim iento puede conducir a la conclusión opues­
ta. E n cierto sentido, así es com o se opera el progreso, a condi­
ción de que no conduzca a u n a disp u ta interm inable acerca de
cuál p rocedim iento m ide "realm en te” el p reju icio (cuya esencia
se supone co m prendida). Con objeto de prev en ir confusiones
im p o rta darse cuenta de que la prueba efectiva se hace en tér­
m inos de los conceptos tal com o se los ha definido opéracional-
m ente. Por lo tanto, ¡as proposiciones que com portan conceptos
definidos teóricam ente no son verificadles directam ente. Así, pues,
si se dan dos definiciones operativas d istin tas del p reju icio se
verificarán dos hipótesis distintas.
Se h a adm itido que puede re su lta r deseable ten er asociada m ás
de una operación con cualquier concepto teórico dado, y se ha
señalado que sem ejantes operaciones pueden conducir a re su lta­
dos diversos. E stam os ah o ra en condiciones de p ro p o rcio n ar un
criterio eficaz, pragm ático, p a ra una definición teórica em pírica­
m ente satisfacto ria del concepto. Supongam os que tenem os un
concepto definido teóricam ente y varias definiciones operativas
susceptibles de asociarse con dicha definición teórica. S obre la
base de esta ú ltim a definición, la m ayoría de los científicos esta­
rá n p ro b ablem ente de acuerdo en que algunas de las operaciones
d eb erían elim inarse p o r cuanto no se aplican a lo que está con­
tenido en la definición teórica. Pueden decidir, p o r ejem plo, que
las p reg u n tas relativas a las tendencias delictivas o los gustos
m usicales no deberían em plearse p a ra m ed ir el prejuicio. Pero
puede h ab e r varias operaciones que ocupen m ás o m enos el m is­
m o lu g ar en la opinión de dichos jueces. E n o tro s térm in o s:
sobre la b ase de la definición teórica, los expertos pueden no
e s ta r en condiciones de ponerse de acuerdo acerca de que u n de­
term in ad o p rocedim iento operativo debiera escogerse con p re fe­
ren cia a otros. Podem os decir en tal caso que, en la m edida &n
que dichos diversos procedim ientos dan resultados diferentes (en
igualdad de circu n stan cias), la definición teórica es deficiente,
en el sentido de que necesita p robablem ente revisión o aclara­
ción. P o r ejem p lo : el concepto prejuicio p u ed e acaso hab erse de­
finido de tal m odo que re su lte dem asiado vago. Tal vez se consi­
d e ra rá necesario d istin g u ir en tre varias clases o dim ensiones del
prejuicio, asociando operaciones d istin tas a cada u n a de ellas. En
u n a fo rm a p o r el estilo de ésta —que se la reconozca explícita­
m en te o no—, el proceso de investigación puede utilizarse p a ra
ay u d ar a ac la rar los conceptos teóricos.
Parece, pues, h ab e r en esta form a, dos lenguajes distintos, re­
lacionados. p o r u n a especie de diccionario al que se h a llegado
p o r consenso, que perm ite asociar los conceptos de u n o de ellos
con los del otro. Los científicos piensan en el lenguaje teórico
y realizan sus experim entos en el lenguaje operativo. No es ne­
cesario aso ciar operaciones con todos los conceptos del lenguaje
teórico. Sin em bargo, im p o rta p ercatarse de q u e los conceptos
que n o h an sido definidos operativam ente n o deberían p o r lo
re g u la r ap a rec er en enunciados que p reten d en co n stitu ir hipóte­
sis com probadas. E n efecto, si esto ocurre, las cuestiones plan­
tead as p o r las "hipótesis" carecerán p o r lo re g u lar de sentido
desde el p u n to de vista operativo y conducirán probablem ente a
u n d eb ate interm inable.

II.2. E l nivel de m e d ició n : escalas nom inóles, órdinales


y d e intervalo
A cabam os de v er que el proceso consistente e n p a sa r de los con­
ceptos definidos teóricam ente a los definidos o p erativam ente no
es en m odo alguno directo. E n efecto, al aso c ia r u n ,tipo de con­
cepto con el otro , h an de tom arse ciertas decisiones. Y en fo r­
m a análoga, el proceso enderezado a seleccionar el m odelo m a­
tem ático o estadístico apro p iad o p a ra em plearlo en u n a técnica
de investigación determ in ad a o en un procedim iento operativo
co m p o rta asim ism o cierto núm ero de decisiones im portantes.
P odría acaso pen sarse que, u n a vez que un fenóm eno h a sido
m edido, la elección de u n sistem a m atem ático sería cosa de sim ­
ple ru tin a. E sto depende de lo q u e se en tien d e p o r m edida. Si
em pleam os el térm in o p a ra re fe rim o s ún icam en te a aquellos ti­
pos de m édición usu alm en te em pleados en u n a ciencia com o la
física ( v.gr. la m edición d e la longitud, del tiem p o o la m asa),
entonces la elección de u n sistem a m atem ático n o constituye
p rácticam en te problem a. P ero si am pliam os el concepto de la
m edición p a ra incluir en él ciertos procedim ientos m enos preci­
sos de em pleo co rrien te en las ciencias sociales com o se h a rá en
este texto, en to n ces el p roblem a se hace m ás com plejo. Podem os,
pues, d istin g u ir e n tre distin to s niveles de m edición, y habrem os
de en c o n tra r diversos m odelos estadísticos ap ro p iad o s a cada
u n o de ellos.1
Escalas nom inales. La operación básica y a la vez m ás sencilla
en toda ciencia es la de la clasificación. Al clasificar trata m o s de
sep arar elem entos desde el p u n to de vista de determ inadas ca­
racterísticas, decidiendo acerca de cuáles son m ás sem ejantes y
cuáles m ás distintos. N u e stro p ropósito consiste en agruparlos
p o r categorías que sean lo m ás hom ogéneas posible en com pa­
ración con las diferencias e n tre las categorías. Si la clasificación
es ú til, se verá que las categorías son tam bién hom ogéneas con
resp ecto a otras variables [10]. Así p o r ejem plo, agrupam os unas
p ersonas de acuerdo con sus respectivas religiones (m etodistas,
p resb iterian o s, católicos, etc.) y vem os si la religión g u ard a al­
1 Para exámenes más detallados de estos distintos niveles de medición
véanse [5], [7], [12] y [13].
guna relación con el preju icio o el conservadurism o político. Po­
dríam os acaso h allar que los p resb iterian o s tienden a se r m ás
conservadores que los católicos, siendo las puntuaciones de
aquéllos relativam ente altas en com paración con éstos. Si se hu­
b ie ra n seleccionado los individuos según el color del pelo, criterio
de clasificación perfectam ente adecuado, probablem ente n o se
h ab ría n en contrado diferencias significativas e n tre las clases en
relación con o tras variables estudiadas. E n otros térm in o s: las
diferencias en tre las clases de color del pelo h ab rían sido ligeras
en com paración con la s diferencias den tro de cada categoría.
Así, pues, la clasificación es fundam ental p a ra toda ciencia.
Todos los dem ás niveles de m edición, cualquiera que sea su p re­
cisión, com prenden básicam ente la clasificación com o operación
m ínim a. Podem os, pues, considerar la clasificación com o el nivel
m ás b a jo de m edición, en el sentido m ás am plio del térm ino.
Damos a las categorías nom bres arb itra rio s, a m an era de etique­
ta s convenientes, sin fo rm u lar supuesto alguno acerca de las
relaciones en tre aquéllas. Así p o r ejem plo, colocam os a los p res­
b iterian o s y a los católicos en c a te g o ría s, distintas p ero n o p re­
suponem os que los u nos sean "m ayores que" o "m ejores" que los
otros. A condición de que las categorías sean exhaustivas (que
com prendan todos los casos) y no se superpongan o se excluyan
m u tu am en te (q u e ningún caso figure en m ás de u n a categoría),
tenem os las condiciones m ínim as necesarias p a ra la aplicación
de los m étodos estadísticos. Se h a utilizado la expresión de es­
cala nom inal con referencia a ese nivel, el m ás sim ple de todos,
de m edición. Desde el p u n to de vista form al, las escalas n o m i­
nales poseen las propiedades de sim etría y transitividad. P or
sim etría entendem os q u e una relación q u e sea v erd ad e n tre A y
B lo es tam bién e n tre B y A. En ta n to que p o r tran sitiv id ad en­
tendem os que si A = B y B = C, entonces A — C. R esum ido, esto
significa sim plem ente que si A está en la m ism a clase que B, o en
una clase distinta, B está en la m ism a clase que A, o en u n a
clase distin ta, respectivam ente, y que si A y B están en u n a nis-
m a clase y B y C tam bién en u n a m ism a clase entonces A y C
han de e sta r tam bién en la m ism a clase.
H ab ría que señ alar que los núm eros pueden asociarse a rb itra ­
riam en te con cada categoría, p ero esto n o autoriza en ningún
m odo el em pleo de las operaciones aritm éticas usuales con di­
chos núm eros. La función de los núm eros, en este caso, gs exac­
tam en te la m ism a que la de nom bres, esto es la de designar las
categorías. E s obvio que no ten d ría sentido alguno adicionar
cifras de seguridad social y núm eros de cu arto s e n u n hotel. Pese
a que nunca caerem os en la tentación de efectu ar u n a operación
tan ridicula com o ésta se dan casos, sin em bargo, en la inves­
tigación científica social, en que el ab surdo n o re su lta en m odo
alguno tan obvio. Así pues, pese a que los valores num éricos
pu ed an a trib u irse a rb itra ria m e n te a diversas categorías el em ­
pleo de ciertas operaciones m atem áticas de las m ás corrientes
(sum a, resta, m ultiplicación y división) requiere, con todo, la
ejecución de ciertas operaciones m etodológicas en el procedim ien­
to de clasificación. Tendrem os en breve ocasión de v er cuál deba
se r el c a rá c te r de dichas operaciones.
Escalas ordinales. R esulta a m enudo posible o rd e n a r las cate­
gorías según el grado en que poseen u n a carac te rístic a determ i­
nada, sin que p o r ello estem os en condiciones de decir cuántas
poseen. Así pues, nos representam os u n sim ple continuo a cuyo
largo pueden o rdenarse los individuos. Tal vez podam os colocar
a los individuos de tal m odo que nu n ca estén dos en el m ism o
lu g ar del continuo. Sin em bargo, p o r lo re g u lar existirá cierto
n úm ero de conexiones. E n tal caso n o estam os en condiciones
de distin g u ir e n tre determ inados individuos, y los hem os ag ru p a­
do ju n to s en u n a m ism a categoría. P ero estam os en condiciones,
con todo, es d ecir que todos esos individuos tienen puantuacio-
nes su p eriores a las de o tro s individuos determ inados. Podem os,
p o r ejem plo, clasificar fam ilias conform e a su respectivo estado
socioeconóm ico, en "su p e rio r”, “m edia superior", “m edia infe­
rio r" e “in fe rio r”. P odríam os incluso lim itarn o s a dos catego­
rías, la "su p e rio r" y la "in ferio r”.
El tipo de m edición que estam os exam inando se sitú a m ani­
fiestam en te a u n nivel algo su p e rio r al que em pleam os p a ra obte­
n e r u n a escala nom inal, ya que con ella podem os n o sólo ag ru p ar
a los individuos en categorías separadas, sino o rd e n a r adem ás
estás categorías unas con resp ecto a las o tras. D esignam os este
nivel de m edición cóm o “escala o rd in al”. A dem ás de poseer las
p ropiedades sim étricas de la escala nom inal, la escala ordinal es
asim étrica en el sentido de que algunas relaciones especiales pue­
den ser verd ad e n tre A y B y no serlo, en cam bio, e n tre B y A.
Así p o r ejem plo, la relación “m ay o r que" ( > ) es asim étrica, p o r
cu an to si A > B , no puede se r cierto que B > A. La transitividad,
en cam bio, sigue subsistiendo, ya que si A > B y B > C ,\entonces
A > C. Son estas propiedades, p o r supuesto, las que nos perm iten
colocar A, B , C . .. a lo largo de u n m ism o continuo.
Im p o rta a d v e rtir que el nivel o rd in al de m edición n o nos p ro ­
porciona inform ación alguna acerca de la m agnitud d e las diferen­
cias e n tre los elem entos. E n efecto sabem os solam ente que A
es m ayor que tí, p ero n o sabem os cuánto m ayor sea. Como tam ­
poco podem os decir que la diferencia e n tre A y B sea m en o r que
la que hay e n tre C y D.2 P o r consiguiente, n o podem os adicionar
o re s ta r d istancias sino en u n sen tid o m uy restrin g id o . Así p o r
ejem plo, si tuviéram os las siguientes relaciones
2 Se ha empleado el término métricamente ordenado para designar escalas
en las que es posible ordenar la magnitud de las diferencias entre elemen­
tos. Véase [73.
--------- 1-------------- 1----------------- ¡------ 1----------
D C B A

podem os decir que la distancia

AD = AB + BC + CD

p ero no podem os tr a ta r de co m p arar e n tre sí las distancias


AB y CD. E n o tro s térm inos, cuando tran sfo rm am o s relaciones
de ord en en operaciones m atem áticas, no podem os p o r lo regular
servirnos de las operaciones usuales de sum a, resta, m ultiplica­
ción y división. E n cam bio, sí podem os em p lear las operaciones
"m ayor q u e" y “m e n o r q u e ”, siem pre que esto p re sen te alguna
utilidad.
Escalas de intervalo y de proporción. E n el sentido restrin g id o
de la p alab ra, el térm in o m edida puede em plearse p a ra designar
casos en los que n o sólo estam os en condiciones de o rd e n ar
o b jeto s según el grado en que poseen u n a carac te rístic a d eter­
m inada, sino que podem os in d icar asim ism o la distancia exacta
e n tre ellos. Si esto es posible, podem os o b ten er lo que se designa
com o u n a escala de intervalo. No re su lta difícil co m p ren d er que
el nivel de m edición de escala de intervalo req u iere el estableci­
m ien to de algún tip o de u n id ad física de m edición que pueda
co n sid erarse p o r todos com o u n a n o rm a com ún y sea repetible,
esto es, que pueda aplicarse in d efin id am en te con los m ism os
resu ltad o s. El largo se m ide en térm in o s de pie o m etros, el
tiem po en segundos, la te m p e ra tu ra en grados F ahrenheit o cen­
tíg rad o s, el p eso en lib ras o gram os, y el ingreso en dólares, etcé­
tera . P o r o tra p arte , n o existen u nidades sem ejantes de inteli­
gencia, au to rid a d o prestigio, en las que todos los sociólogos
p u ed an p o n erse de acu erd o y de las que se pueda su p o n er que
perm an ecen co n stan tes d e u n a situación a o tra. D ada u n a unidad
de m edida, re su lta posible decir que la d iferencia e n tre dos m a r­
cas es de veinte unidades, o que u n a d iferencia es dos veces m a­
y o r que o tra. E sto significa que es posible adicionar o re s ta r
m arc as en fo rm a análoga a com o añadim os pesas a u n a balanza
o quitam os 6 pulgadas de u n a ta b la con u n a sie rra ([3 ], pp. 296 a
298). Y en fo rm a sem ejan te podem os adicionar los ingresos de
m arid o y m u jer, en ta n to que carece d e sen tid o ad icio n ar sus
cu o tas de inteligencia (IQ ).
Si adem ás es posible situ a r en la escala u n p u n to cero absoluto
o n o arb itra rio , entonces tenem os u n nivel de m edición algo m a­
yor, que suele designarse com o escala de razón ( ratio scale). En
ta l caso estam os en condiciones de co m p arar m arcas sirviéndo­
nos de sus proporciones. Podem os, p o r ejem plo, decir que una
m arca es dos veces m ás a lta que o tra. Si el p u n to cero fu era
arb itra rio , com o es el caso en las escalas de grados centígrados
y de F ah renheit, aquello n o sería legítim o. Así, p o r ejem plo, no
decim os que 70° F ahrenheit son el doble de 35° centígrados si
bien podem os decir que la diferencia e n tre dichas tem p eratu ras
es la m ism a que en tre 105c y 70° F ahrenheit. S in em bargo, p rác­
ticam ente en todos los casos que conoce el au to r, e s ta distinción
e n tre escala de intervalo y escala de proporción es p u ram en te
académ ica, ya que es ex trem adam ente difícil e n c o n tra r u n a es­
cala legítim a de intervalo que n o sea al propio tiem po u n a escala
de proporción. E sto se debe al hecho de que, u n a vez establecida
la m ag n itu d de la unidad, es casi siem pre posible concebir cero
unidades, p ese a que nunca podam os h a lla r u n cuerpo que no
posea largo o m asa, u o b ten er u n a te m p e ra tu ra de cero 'ab so lu to .
Así pues, p rácticam en te en todos los casos en que se dispone de
una unidad, será legítim o em plear todas las operaciones corrien­
tes de la aritm ética, incluidas las raíces cuadradas, las potencias
y los logaritm os.
* S uscítanse algunas im p o rtan tes cuestiones acerca de la legiti­
m idad de servirse de escalas de intervalo en el caso de cierto
n ú m ero d e variables sociológicas y sociopsicológicas. In fo rtu ­
nad am en te, no re su lta posible d iscu tir estas cuestiones e n detalle
en u n texto general com o el p resen te, p ese a lo cual vam os a
m encionar brevem ente alguna d e ellas. Se sostiene en ocasiones
que u n a variab le como, p o r ejem plo, el ingreso n o constituye en
realidad, si se calcula en dólares, u n a escala de intervalo ya que
u n a diferencia de $ 1 000 posee u n significado psicológico distinto
según que se dé e n tre ingresos de $ 2 000 y $ 3 000 o e n tre ingre­
sos de f 30 000 y $ 31 000. Al parecer, este argum ento confunde la
cuestión. P o rq u e lo q u e aquí se dice efectivam ente es que el in­
greso calculado en dólares y el "ingreso psicológico" (a suponer
que se lo p u ed a m ed ir en térm inos de alguna u n id a d ) n o se rela­
cionan d irectam en te o en fo rm a lineal. Y esto es u n a cuestión
de hecho q u e carece d e im p o rtan cia e n relación con la cuestión de
sab e r si existe o n o u n a u n id ad legítim a de m edida.
* AI llevar a cabo la enum eración de actos de conducta, de p er­
sonas, de ocupaciones, o de grupos de diversa índole, se obten­
drán m uchas escalas de razón. La proporción de actos crim ina­
les, p o r ejem plo, se obtiene co n tan d o el nú m ero re g istrad o de
tales actos y com parándolos con la b ase de población. La m a­
y o r p a rte d e n u estro s datos censales de ciudades, éstados o re-
giones, se ob tien en contando varias clases de gente y dividiendo
las cifras así o b ténidas p o r la b a se de la población: p o r ciento
urbano, p o rc en táje d e la fuerza de tra b a jo en situación de desem ­
pleo, tam añ o pro m edio d e las fam ilias, p o rc en taje de n o blancos,
etcétera. L a com plejidad de la división del tra b a jo puede ser
m edida en función del núm ero de ocupaciones diferentes, o bien
puede obten erse u n índice de la com plejidad organizativa contan­
do el n ú m ero de oficinas sucursales. E n ocasiones surgen dis­
cusiones acerca de si tales m ediciones constituyen realm ente "es­
calas de razón" (v er C olem an [4 ] p ara u n excelente planteam iento
de este p ro b lem a). Si se tom a el p u n to de vista estricta m e n te
operativo, según el cual la m edida utilizada constituye la defini­
ción d e la v ariable de in terés, cabrá poca duda de que se h ab rá
así o btenido u n a legítim a escala de razón, y a que h an sido con­
tad as u n id ad es p recisas, y tales unidades h an sido tom adas com o
equivalentes (y p o r ta n to in tercam b iab les). De esta, m anera, si
añadim os a u n a d eterm in ad a población 1 000 negros y le re sta ­
m os 1 000 blancos, harem os la suposición fun d am en tal de que, en
ord en a la m edida usada, n o hay diferencia, b ien sean unos u
o tro s los negros o los blancos im plicados. P o r o tra p a rte el
p u n to cero está bien definido. La afirm ación de que el porcen­
ta je de n o blancos en u n a ciudad es igual a cero n o ofrece am ­
bigüedad.
* E n cu an tas ocasiones surge u n a discrepancia acerca de la ade­
cuación de las m edidas enum eradas, o de sí éstas legitim an la
adopción de m ediciones relativas al nivel proporcional, experi­
m en to u n a vehem ente sospecha de que el p ro b lem a básico tiene
u n c a rá c te r to talm en te distinto, a s a b e r: el de la relación e n tre la
m ed id a u tilizad a y la construcción teó rica q ue in te n ta m edirse.
P o r ejem p lo : la pro p o rció n de desem pleados puede s e r utilizada
com o indicación del m al funcionam iento d e la eco n o m ía; u n p o r­
ce n ta je m in o rito rio, com o indicador de u n a am enaza p lan tead a
p o r la m inoría, o u n p o rc en taje u rb a n o com o in dicador de la
influencia ejercida p o r los valores urbanos. E n tales casos n u n ­
ca p o d rá la estad ística resolver per se u n a controversia, re su l­
tan d o p o r ello necesario soslayar lo s p ro b lem as básicos, supo­
niendo, p o r el co n trario , q u e sólo nos in te re sa la variable que
in ten tam o s m edir.
* P u ed e su scitarse o tra cuestión a p ro p ó sito de si es posible o
n o conseguir u n a escala de intervalo en m a te ria de m edición de
la actitu d . Se h an efectu ad o varios in ten to s enderezados a con­
seguir dicho fin. E n el m éto d o T h u rsto n e d e los intervalos de
aparien cia igual, se p ide a lo s jueces que agrupen objetos en m on­
to n es situ ad o s-a distancias iguales a lo largo del continuo de la
ac titu d ([1 1 ], pp. 359 a 365). Se d iscu rre esencialm ente diciendo
que, si se d a u n alto grad o de consenso e n tre los jueces, puede
em p learse legítim am ente u n a escala de intervalo. E ste procedi­
m iento, así se sostiene, es esencialm ente el m ism o que se em plea
p a ra o b te n e r escalas de intervalo en o tra s disciplinas. E ste argu­
m en to p arece legítim o, a condición q u e se dé efectivam ente u n
alto grad o de consenso e n tre los jueces y a condición que éstos
dispongan de u n gran n ú m ero de m ontones en los que se pu ed an
clasificar los objetos. Así, p o r ejem plo, si se vieran obligados
a clasificar los objetos en u n o de tre s o c u a tro m ontones, po d ría­
m os c o n tar con u n grado elevado de consenso, debido sim ple­
m en te a la to squedad del in stru m en to de m edición. H abría, en
efecto, tal m argen de variabilidad d en tro de cada m ontón, que
difícilm ente p o d ría sostenerse que los objetos de los diversos
m ontones estaban a igual distancia unos de otros. P ero aun ad­
m itiendo u n a concordancia p erfec ta y la m áxim a lib ertad en el
ag ru pam iento de los objetos en m ontones, aun así sigue el m étodo
de T h u rsto n e p re sen tan d o dificultades p o r lo que se refiere al
concepto de la u n id ad de referencia. Se hace necesario p o stu lar
que es la existencia de dicha un id ad la que hace posible el acuer­
do e n tre los jueces. P uede afirm a rse razonablem ente que, en
este p u n to del desarrollo de la m edición de la actitu d , la m ayoría
de las técnicas dan unas aproxim aciones m uy m ediocres de las
escalas de intervalo. P robablem ente de m uchas de ellas no de­
b iera siq u iera considerarse que proporcio nan escalas ordinales
legítim as. Las consecuencias de ello p o r lo que se refiere al aná­
lisis estad ístico se irá n haciendo m ás claras a m edida que vaya­
m os avanzando.

II.3. M edición y estadística


Hem os visto que existen diversos niveles de m edición, con sus
p ro piedades peculiares cada uno. Debe observarse que estos dis­
tin to s niveles fo rm an u n a escala cum ulativa ellos m ism os. En
efecto, la escala o rdinal posee todas las p ropiedades de la escala
nom inal adem ás de la ordinal. A su vez, la escala de intervalo
posee todas las propiedades de las escalas nom inal y ordinal y,
adem ás, u n a u n id ad de m edida, en ta n to que la escala de p ro p o r­
ción p re sen ta el nivel m ás elevado, ya que posee n o sólo una
un id ad de m edida, sino, adem ás, u n cero absoluto. El carácter
cum ulativo de estas escalas significa que, al analizar nuestros
datos estam os siem pre autorizados a descender u n o o m ás gra­
dos en el nivel de m edición. E n efecto, si tenem os u n a escala de
intervalo, tenem os al p ro p io tiem po u n a escala ordinal, y pode­
m os servirnos de esta circunstancia en n u estro s análisis estadís­
ticos. E sto re su lta rá a veces necesario, cuando no dispongam os
de técnicas estadísticas o éstas sean en algún m odo deficientes en
cu an to a m an ip u lar la variable com o escala de intervalo. Sin
em bargo, al p ro c ed er así perdem os inform ación. Así, p o r ejem ­
plo, si sabem os que Jones tiene u n ingreso de $ 11 000 y Sm ith
un o de $ 6 000 y sólo nos servim os del hecho de que Jones cuenta
con el m ayor de los dos ingresos en cuestión, entonces desperdi­
ciam os la inform ación relativa a que la diferencia de los ingresos
es de $ 5 000. P o r lo tanto, en la m ayoría de los casos resu ltará
v entajoso servirnos del nivel de m edición m ás alto que podam os
legítim am ente adoptar.
¿Y qué pu ed e decirse del proceso inverso consistente en subir
la escala de m edición, pasando, p o r ejem plo, de la ordinal a la
de intervalo? E stam os a veces ten tad o s de hacerlo, ya que esta­
ríam os en condiciones de servirnos de técnicas estadísticas m ás
poten tes. Es incluso posible que lo hagam os sin darnos cuenta
en ab soluto de lo que h a sucedido exactam ente. Im p o rta p erca­
ta rs e de que no hay n a d a en los procedim ientos estadísticos o
m atem ático s de los que nos servim os en ú ltim a instancia que
nos p e rm ita verificar la legitim idad de n u estro s m étodos de in­
vestigación. E l em pleo de un determ inado m odelo m atem ático
supone que se ha alcanzado cierto nivel de m edición. La respon­
sabilidad en cu anto a decidir si sus procedim ientos operativos
p erm iten o no el em pleo de determ inadas operaciones m atem á­
ticas recae exclusivam ente sobre el investigador. É ste h a de deci­
dirse en p rim e r lu gar p o r el nivel de m edición adecuado, y esto
decidirá a su vez acerca del sistem a m atem ático apropiado. En
otro s térm in o s: u n determ inado m odelo m atem ático puede aso­
ciarse a cierto nivel de m edición conform e a las consideraciones
exam inadas en la sección precedente. Así, p o r ejem plo, las ope­
raciones aritm éticas corrientes sólo pueden em plearse p o r lo re ­
g u lar con las escalas de intervalo y de razón.
* Nos en fren tam os aquí u n a vez m ás con el problem a de ten er
que tra d u c ir de u n lenguaje a otro. El lenguaje operativo com­
p o rta determ in ad as operaciones físicas, tales com o el em pleo de
u n a u n id ad de m edida. El lenguaje m atem ático, a su vez, im pli­
ca un sistem a to talm en te ab stra cto de sím bolos y operaciones
m atem áticas, y es ú til no sólo porque es preciso y está altam ente
d esarrollado1, sino debido tam bién a que su carác te r ab stracto
p erm ite la aplicación a u n a gran variedad de problem as em píri­
cos. Las m atem áticas se sirven del razonam iento deductivo p o r
el que se p asa de u n co n ju n to de definiciones, supuestos y reglas
de operación a un conjunto de conclusiones m ediante u n razona­
m iento p u ram en te lógico. En sí m ism as, las m atem áticas n ad a
nos dicen acerca de la realidad, ya que todas las conclusiones
están contenidas en las definiciones, los supuestos y las reglas
originales, no habiéndose determ inado em píricam ente. Así, pues,
si h an de ser de alguna u tilid ad p ara el científico las conclusio­
nes m atem áticas han de trad u c irse inversam ente a los lenguajes
op erativ o y teórico [5].
Sostenem os, pues, que n o es legítim o servirse de un sistem a
m atem ático que com porta las operaciones de su m ar o re sta r, si
esto no está legitim ado p o r el m étodo de m edición. Aunque el
sentido de este hecho sólo nos re su ltará plenam ente claro cuando
em pecem os a servirnos de las diversas escalas de m edida, esta­
m os diciendo en realidad que no podem os re m o n ta r legítim am en­
te en la jera rq u ía de m edición, a m enos que el proceso m ism o de
la m edición haya sido m ejorado. Lo que ninguna m anipulación
m atem ática puede hacer. ¿Cómo decidim os, pues, cuál nivel de
m edición es el legítim o? In fo rtu n ad am en te , el p ro b lem a no es tan
sencillo com o p o d ría suponerse. Unos pocos ejem plos b astarán
p a ra d ar u n a id ea de la com plejidad del m ism o.
* P ara ilu s tra r u n o de estos problem as es necesario distinguir
las escalas ordinales y de in terv alo de la escala parcialm ente or­
denada que re su lta de la com binación de dos o m ás escalas ord i­
nales (o de in terv alo ) en u n solo- índice. O curre con frecuencia,
en sociología y en las o tras ciencias sociales, que aquello que p o r
lo p ro n to p arece ser u n a sim ple escala o rdinal (o de intervalo)
es en re alid ad u n a com binación de varias escalas o rd in ale s (o de
in terv alo ), con el re su ltad o de que no puede h acerse u n a clasifi­
cación inequívoca de individuos sin a d o p ta r p rev iam en te ciertas
o tra s decisiones. Tom em os, p o r ejem plo, el caso de la condición
socioeconóm ica. P or lo regular, solem os d eterm in a r la condi­
ción de u n a p erso n a exam inando cierto núm ero de crite rio s distin ­
tos, tales com o su ingreso, ocupación, educación, antecedentes
fam iliares o la zona de residencia. Si A se clasifica m e jo r que B
según todos y cada uno- de dichos criterios, entonces A puede
obviam ente clasificarse com o m ás alto que B p o r lo que se refie­
re a la condición general. Pero, ¿qué o cu rre si A tien e u n ingreso
su p erio r al de B , y éste, en cam bio, u n no m b re de fam ilia m ás
p ro m in en te? ¿Cuál de los dos ocupa e n este caso el m e jo r rango
social? Tenem os aquí v aria s/a lte rn ativ as. La p rim e ra consiste en
d e ja r de lado la noción de condición general y p e n sa r en térm inos
de dim ensiones sep arad as de la m ism a, cada u n a de las cuales
p u ed a acaso a d m itir u n nivel o rd in al de m edición. T erm inam os
así n o con una, sino con varias escalas ordinales, y la cuestión
em p írica está en sa b e r h a sta qué p u n to las d istin tas dim ensiones
pu ed an relacionarse e n tre sí. P o r supuesto, si existe u n a relación
p erfec ta e n tre to d as las dim ensiones, la cuestión se convierte en
p u ram en te académ ica, y a que A, si es su p erio r a B en cada u n a
de las dim ensiones, lo será tam b ién e n todas ellas. E n la p rá c ­
tica, sin duda, e sto no o cu rre nunca.
* N u e stra segunda altern ativ a consiste en tr a ta r de " fo rz a r” la
aplicación de u n a escala o rdinal a los datos, ad o p tan d o algunas
decisiones acerca del peso relativ o de cada dim ensión y de las
equivalencias que ello im plica. Así, p o r ejem plo, si podem os ad­
m itir que u n año suplem entario de in stru cció n equivale a $1 338.49
de ingreso su p lem entario, podem os tra d u c ir las un id ad es educa­
tivas en u n id ad es de ingreso, llegando así a u n a escala unidim en­
sional. O bviam ente, el p roblem a de tra d u c ir los antecedentes fa­
m iliares o el área de residencia es m ás com plicado todavía. El
m éto d o de m edición que aquí estam os exam inando co m porta un
tip o de con stru cción de índice. B aste decir que sem ejan te cons­
tru cció n de índice com porta usu alm en te algunas decisiones arb i­
tra ria s a p ro p ó sito de los pesos relativos que haya que a trib u ir.
Si el sistem a d e ponderación se d e ja ju stific ar, entonces puede
em plearse u n a escala o rd in al; en caso contrario, subsiste la duda
acerca de si los individuos pueden o no clasificarse legítim am en­
te en relación con el rango.
* U no de los m étodos com únm ente em pleados p a ra obtener
una escala ordinal consiste en servirse de uno o m ás jueces p ara
clasificar a los individuos conform e a u n criterio como, p o r ejem ­
plo, el del po d er o del prestigio. Supongam os, p a ra sim plificar,
que no hay m ás que un juez y que se le ha im puesto la tare a de
clasificar a los individuos según su “posición social” en la locali­
dad. Suponiendo que la p ersona coopere, el m étodo em pleado
nos garan tiza la obtención de u n a escala o rdinal independiente­
m en te de cóm o los individuos se com paren realm en te a los ojos
del juez. Es posible que, si se h u b iera em pleado otro m étodo,
no se h a b ría obtenido escala ordinal alguna. Si se h u b iera utili­
zado u n a técnica de com paraciones apareadas, en la que se p ro ­
n u n ciaran juicios en tre cada com binación p o r pares, el juez po­
d ría h ab er tasado a Sm ith m ás alto que a Brown, a éste m ás alto
que a Jones, p ero a este últim o m ás alto que al prim ero, S m ith;
violando en esta form a la propiedad de tran sitiv id ad de las esca­
las ordinales. El investigador h a de proceder ah o ra a u n a elección.
Puede llegar a la conclusión de que existe u n a escala parcial­
m ente o rd en ad a de u n a clase u otra. O puede considerar que el
juez es inconsecuente o com ete “e rro r”. Como lo' señala Coombs,
este pro b lem a relativo a lo que haya que designar como e rro r de
m edición es un dilem a básico1con el que se en cu en tra el sociólo-
fo ([7 ], pp. 485 a 488). E n térm inos generales, éste puede adop­
ta r u n alto nivel de m edición y considerar las desviaciones del
tip o que se acaba de señalar com o erro res de m edición, o puede
d escen d er a u n nivel m ás b ajo de ésta.
* Puede ilu strarse el m ism o dilem a en el caso de la escala de
G uttm an. E n el tipo perfecto de ésta, las preg u n tas tienen una
p ro p ied ad cum ulativa que ju stifica la adopción de u n a escala
o rd in al [14]. Las preg u n tas pueden o rdenarse de m odo que se
vaya pasando de un lím ite in ferio r a u n lím ite superior, de tal
m odo que el tipo exacto de re sp u esta de un individuo pueda
rep ro d u cirse a p a rtir de su puntuación total. Así, p o r ejem plo,
si se tienen cinco problem as aritm éticos que vayan del m ás fácil
al m ás difícil, la p ersona que resuelva el m ás difícil e s ta rá tam ­
bién lógicam ente en condiciones de resolver los m ás fáciles. Si
resuelve co rrectam ente tre s de los problem as, éstos serán los
tres m ás fáciles, fallando en los otros dos. E n u n a escala perfec­
ta de d istancia social, las preg u n tas relativas al p rejuicio pueden
disponerse conform e al grado de la intim idad de contacto con la
m inoría considerada. U na persona que esté dispuesta a casarse
con un negro, e sta rá dispuesta, p o r supuesto, a vivir en la m ism a
calle que uno de ellos; si lo acepta como vecino, no te n d rá in­
conveniente en sen tarse a su lado en el autobús. Así, pues, pode­
m os v er e n la escala p e rfe c ta de G uttm an que la p erso n a que
co n teste afirm ativ am en te c u a tro p re g u n ta s h a b rá co n testad o exac­
tam en te las m ism as que u n a p erso n a con tre s afirm aciones, m ás
una. Si la escala sólo estu v iera p arcialm en te ord en ad a, p o d ría
decirse que en ciertos aspectos A tien e m ás p reju icio s que B,
y en o tro s aspectos m enos, ya que los dos individuos h a n acep­
tad o com binaciones d istin tas de preguntas.
* Sin em bargo, en la p rá ctica ra ra m e n te alcanzam os u n a escala
p erfec ta de G uttm an, si es q u e la alcanzam os alguna vez. E n efec­
to, h ay siem p re algunas p ersonas cuyo tip o de re sp u estas se des­
vía del tipo ideal. ¿S on éstas acaso inconsecuentes p o rq u e acep­
ta n a u n neg ro com o vecino p e ro se niegan a se n ta rse a su lado
en el au to b ú s? T al vez. Pero, p o r o tra p arte , tal vez no sea así.
A m enos que el in vestigador esté d ispuesto a suponer q u e dispone
de u n a escala o rd inal legítim a, n o puede so sten er que el individuo
consid erad o com eta e rro r. Y si el n ú m ero de e rro re s alim enta,
em pezam os a so spechar de n u e stra escala. P or o tra p a rte , siem ­
p re estam o s dispuestos a to le ra r cierto n ú m ero relativam ente
p equeño de erro res. Es este p rin cip io el que se h alla a la base
de la decisión relativ a a a c e p ta r la escala de G u ttm an com o escala
ordinal, si el n ú m e ro de erro res, m edido p o r el coeficiente de
rep ro d u ctib ilid ad , es m uy pequeño. Sin em bargo, conviene p er­
catarse del hecho de que la decisión es h a sta cierto p u n to arb i­
tra ria , y de que en ú ltim a in stan cia nos en fren tarem o s con el
p ro b lem a de d ecidir a qué debam os llam ar erro r.
* E sto s ejem plos deberían b a s ta r p a ra in d icar que n o siem pre
es cosa fácil d ecidir cuál tip o de escala pueda em p learse legíti­
m am ente. Desde u n pu n to de vista ideal, h a b ría que servirse de
u n a técnica de reu n ió n de datos que p e rm ita los niveles m ás bajos
de m edición, si éstos son los únicos que los datos adm iten, antes
que re c u rrir a técnicas que ad a p te n violentam ente la escala a los
datos. Así, pues, el m étodo de las com paraciones ap aread as sólo
d a rá u n a escala ordinal si el juez está efectivam ente en condi­
ciones de clasificar a los individuos. P or o tra p arte, si se !e in­
v ita a colocarlos en u n orden preciso de clasificación, h ab rá de
hacerlo, así crea o n o que esto puede lograrse legítim am ente.
H abiéndose servido de este últim o m étodo de reunión de datos
y no estan d o en condiciones de d e m o stra r em píricam ente que los
individuos pueden o rd en arse sin vio len tar los datos, h ab rá de
suponer la existencia de u n solo continuo.
Con o b jeto de in sistir en el hecho de que toda técnica estadís­
tica co n sid erad a presupone siem pre u n nivel específico de me­
dición, nos aco stu m b rarem o s a in d icar siem pre el nivel de
m edición re q u erid o p o r cada procedim iento. Al elegir e n tre p ro ­
cedim ientos alternativos u n a de las preg u n tas m ás im p o rtan tes
a fo rm u lar es é s ta : "¿E s legítim o a c ep tar el nivel de m edición
que u n a d eterm in ad a técnica re q u ie re ? ” Si no lo es, ta l vez deba
e n c o n trarse u n pro cedim iento alternativo. S i la ú n ica considera­
ción fuese el nivel de m edición, se sim plificaría el p roblem a de
la elección e n tre pro cedim ientos alternativos.
E n co n tram o s con frecuencia, sin em bargo, que ciertos procedi­
m ientos que n o tien en gran d es exigencias en c u a n to a la m edida,
y que p o r ta l razón p arece n preferibles, re su lta n m enos satisfac­
torios en relación con o tra s ca racterísticas deseables. Así se ve
u n o e n fre n ta d o con decisiones difíciles, en las que está im plícita
la n ecesidad de so p esar la seriedad relativ a de las diversas cla­
ses de p resunciones violadas. E n tales casos puede re s u lta r de­
seable an alizar n u estro s d ato s m ed ian te la aplicación de diferen­
tes m étodos, observando si las conclusiones así obtenidas difieren
e n tre sí en fo rm a considerable.
E n este p u n to puede o c u rrir que n u e stro exam en d e estos
d iferen tes niveles de m edición y de los problem as de elección
e n tre p ru e b as y m ediciones alternativas, no n o s ilu stre gran cosa.
Uno de los peligros de la estad ística "de re cetario " consiste e n u n a
excesiva sim plificación de los criterios y los problem as im plícitos
en la adopción de decisiones relativas al análisis de datos. Es
im posible exagerar la im p o rtan cia que tiene, al u tiliza r cualquier
técn ica estad ística, el te n e r p re sen te las presunciones im plícitas
q u e el p ro ced im ien to requiere. E n el curso del p re sen te exam en,
u n a de las p rim era s p reg u n tas a fo rm u larse es la relativ a al nivel
de m edición que puede legítim am ente aceptarse.

II.4. O rganización del libro


La organización de los re sta n te s capítulos viene d eterm in ad a p o r
c iertas consideraciones, la p rim e ra de las cuales consiste en p re ­
se n ta r a n te to d o las ideas m ás sim ples, p asan d o gradualm ente
a las d e m ay o r com plejidad. Como cada u n a de las secciones
p resu p o n e el conocim iento de m ateriales que prev iam en te h an
sido tra ta d o s, re su lta conveniente seguir e s ta organización, p a­
san d o p o r alto solam ente los p árrafo s o secciones precedidos de
asterisco. E l capítulo xiv, p o r excepción, p u ed e se r saltad o e n su
to talid ad , o bien englobado con las p ru e b a s y procedim ientos
"no p aram étrico s" contenidos en los capítulos xvi y x v m . El ca­
p ítu lo xxi, acerca del m u estreo , puede s e r leído en relación con
el cap ítu lo ix relativo a la p robabilidad, a u n cuando el capítulo
so b re m u estreo contiene v arias secciones q u e sólo p o d rá n en ten ­
derse cuan d o hayan sido leídos los capítulos xi, x m y xvi. Lo
fu n d am en tal del cap ítulo x v n p o d rá se r asim ilado sin h a b e r p re­
v iam ente ab o rd ad o el cap ítu lo xvi sobre análisis de diferencias.
Se recom ienda, en general, que se estu d ien ios distin to s tem as
en el o rd en en que se p re sen tan .
Los in stru m en to s estad ístico s n o son fácilm ente agrupables
b a jo u n o o dos ap artad o s, y p o r ta l razón los títu lo s que o sten tan
las principales divisiones del libro son sólo parcialm ente adecua­
dos, lim itándose p o r el co n trario a c e n tra r la atención prim aria.
La Segunda P arte se lim ita al tem a de la estad ística descriptiva,
en tan to que en las p arte s T ercera y C uarta el principal, aunque
no el único, foco de atención, se refiere a la inducción, a la
p ru eb a de hipótesis y a la estim ación de p arám etro s de pobla­
ción basad a en datos de m uestreo. E n las p arte s Segunda y
T ercera nos lim itarem os casi p o r en tero a los procedim ientos
que tra e n im plícita u n a sola variable p o r vez, en ta n to que en
la C uarta P arte pasam os a problem as m ás difíciles tales como
el m an ejo sim ultáneo de dos o m ás variables.
E n trelazad a en estas distinciones e n tre descripción e inducción,
así como en tre las estadísticas univariables y bivariables o mul-
tivariables, se observa u n te rc e r principio organizativo, a sab er:
el relativo a los niveles de m edición p a ra cada u n a de las variables.
M uchos de los títulos de los capítulos señalan este nivel de
m edición, p ero tal vez el m e jo r m étodo p a ra lo g rar u n a perspec­
tiva resu m id a del contenido consista en acu d ir al cu ad ro de p ru e­
bas y m ediciones que aparece en las guardas. E n su p rim era
colum na ap arecen los procedim ientos a u sa r con variables sim ­
ples. Vemos allí que en el cap ítu lo m nos ocuparem os de las
m ediciones m uy sim ples (p o rcen tajes, proporciones y razones),
utilizados ta n to con las dicotom ías como con las escalas genera­
les nom inales con m ás de dos categorías. Las p ru e b as de hipóte­
sis relativas a escalas nom inales sim ples serán estu d iad as en los
capítulos x, xi y x n . Las m edidas (m ediana, desviación cuadril)
adecuadas p a ra ser utilizadas con u n a escala ordinal, sencillas,
serán exam inadas brevem ente en los capítulos v y vi, en ta n to que
en el capítulo x se d iscutirá u n a m uy sencilla p ru e b a (la bino­
m ial), aplicable a datos ordinales. D edicarem os algo m ás de nues­
tra atención a las escalas de intervalos y razones, las que exa­
m inarem os e n los capítulos iv a v n , relativos a procedim ientos
descriptivos univariados, y de nuevo en los capítulos xi y x n de
la T ercera P arte, relativos a la estad ística inductiva.
Com enzando con el capítulo x m volverem os n u e stra atención
a las relaciones e n tre dos o m ás variables, lo que desde luego
supone que habrem os de ocuparnos del nivel de m edición de la
variable segunda (y adicional), ta n to com o de la prim era. Las
colum nas 2 a 5 del cuadro ofrecen varias com binaciones en rela­
ción con el nivel de m edición de las dos variables. P or ejem plo:
la casilla su p erio r de la colum na 2 se refiere a aquellas situacio­
nes en que se dan dos dicotom ías relacionadas e n tre sí (p o r
ejem plo, sexo c o n tra preferencias p olíticas). E n la segunda casi­
lla de la colum na 2 se tiene en cuenta la posibilidad de que la
p rim era escala nom inal tenga m ás de dos categorías (p o r ejem ­
plo: p ro testan tes, católicos y ju d ío s). En la te rc e ra casilla una
de las variables es u n a dicotom ía (p o r ejem plo, sexo) e n tan to
que la segunda es u n a escala ordinal, y así sucesivam ente. Hay
u n a sola casilla sin ocupar, a s a b e r : aquella e n que u n a variable
se m ide en el nivel o rd in al y la segunda en el nivel de intervalo
o de razón. Aun cuando tales situaciones p u ed en p o r supuesto
s e r resu eltas, carecem os de in stru m en to s realm en te satisfactorios
que no re q u ie ran u n a p érd id a de inform ación al re d u cir el nivel
de m edición en cu alq u iera de las dos variables. No hay nece­
sid ad alguna de llen ar las casillas situadas sobre las que ocupan
la diagonal del cuadro, ya que las cu b ren aquellas situadas b ajo
dicha diagonal.
R esu lta p re m a tu ro en estos m om entos p o n er a discusión cada
u n a de las posibilidades relacionadas en el cuadro. El pu n to m ás
im p o rta n te a señalar es el de que el nivel de m edición afectado
co nstituye u n a de las consideraciones m ás im p o rtan tes al llevar
a cabo u n a elección e n tre diversos procedim ientos. La elección
es relativa, aunque no en teram ente, sim ple, en tan to u n o se en­
cu e n tre lim itado al uso de sólo dos variables. R esulta m ucho
m ás difícil en el caso del análisis m ultivariado, en el que con
frecuencia pued e u n o tra b a ja r con cinco o incluso h a sta quince
o veinte variables al m ism o tiem po, y donde re s a lta com o sum a­
m en te im p ro b ab le que todas ellas sean m edidas al m ism o nivel,
y donde a m enudo es poco deseable u tiliz a r dem asiados m étodos
de p ru e b a y m edición. E n los capítulos xv, xvx, xix y xx se exa­
m in an estos p roblem as de análisis m ultivariado. E n ciertos luga­
res, p a rtic u la rm e n te al final de los capítulos xiv y xx, se en­
co n tra rán , en fo rm a resum ida, algunas de las consideraciones
relativ as a la selección e n tre procedim ientos alternativos.
Como se observará, n o todas las com binaciones posibles son
m an ejad as e n este texto con el m ism o grado de m inuciosidad.
O curre así, no sólo p o r lim itaciones de espacio y p o r la necesidad
de d eten erse en el exam en de las ideas fundam entales, sino p o r­
q ue la teo ría estad ística se en cu en tra m ucho m ás avanzada en
ciertos aspectos. Se h a tra b a ja d o m ucho m ás, en p artic u la r,
en el sec to r de la llam ada “e stad ística p a ra m é tric a ”, relativa a las
escalas de in terv alo y de razón, que en el de los procedim ientos
ordinales, p o r lo cual n u estro s in stru m en to s p a ra el uso de las
escalas de in terv alo y de tiem p o e stán m ucho m ás desarrollados,
especialm ente en el caso del análisis m ultivariado. La diferencia
e n tre las escalas de in terv alo y razón no h a sido tam poco explo­
ta d a en la teo ría estadística, p o r lo m enos h a sta el nivel que a
n o so tro s nos in teresaría. La razón b ásica e strib a en que los m o­
delos estad ístico s con los que generalm ente tra b a ja m o s e stán b a ­
sados en u n a ecuación lineal general que es aditiva, en lugar de
a b a rc a r razones o variables. P o r tal m otivo, y p a ra todo objetivo
p ráctico , no es necesario te n e r p re sen te ta l distinción según se
avanza en la lectura. S erá em p ero n ecesario a c u d ir periódica­
m en te al cu ad ro de las guardas.
G losario

El lector h a rá bien en acostum brarse a explicar en sus propios té r­


m inos el significado de los conceptos im portantes. Los nuevos con­
ceptos introducidos en este capítulo son:

la escala de intervalo,
la escala nom inal,
* la definición operativa,
la escala ordinal y
la escala de razón.

B iblio g rafía
1. Blalock, H. M .: "The Measurement Problem: A Gap between the
Languages of Theory and Research” ; en H. M. Blalock y Ann B.
Blalock (E.) Methodology in Social Research, McGraw-Hill Book
Company, Nueva York, 1968, cap. 1.
2. Bridgman, P. W .: The Logic of Modern Physics, The Macmillan
Co„ Nueva York, 1938, pp. 1-39.
3. Cohén, M. R. y E, Nagel: An Introduction to Logic and Scientific
Metkod, Harcourt, Brace and Company, Inc., Nueva York, 1937,
caps. 12 y 15.
4. Coleman, James S.: Introduction to Mathematical Sociology, The
Free Press, Nueva York, 1964, cap. 2.
5. Coombs, C. H., H. Raiffa y R. M. Thrall: "Some Views on Mathe­
matical Models and Measurement Theory", Psychological Review,
vol. 61, pp. 132-144, marzo de 1954.
6. Coombs, C. H.: A Theory of Data, John Wiley & Sons, Inc., Nue­
va York, 1964.
7. Coombs, C. H .: "Theory and Methods of Social Measurement”,
en L. Festinger y D. Katz (ed.), Research Methods in the Behavio-
ral Sciences, The Dryden Press, Inc., Nueva York, 1953, pp. 471-535.
8. Lundberg, G. A.: Foundations of Sociology, The Macmillan Com­
pany, Nueva York, 1939, caps. 1-2.
9. Northrop, F. S. C., The Logic of the Sciences and the Humanities,
The Macmillan Company, Nueva York, 1947, caps. 5-7.
10. Radcliffe-Brown, A. R.: A Natural Science of Society, The Free
Press of Glencoe, 111., Nueva York, 1957, pp. 2842.
11. Selltiz, C., M. Jahoda, M. Deutsch y S. W. Cook: Research Me­
thods in Social Relations, Henry Holt and Company, Inc., Nueva
York, 1959, caps. 5 y 10.
12. Senders, V. L., Measurement and Statistics, Oxford University
Press, Nueva York, 1958, cap. 2.
13. Stevens, S. S.: "Mathematics, Measurement, and Psychophysics",
en S. S. Stevens (ed.), Handbook of Experimental Psychology,
John Wiley & Sons, Inc., Nueva York, 1951, pp. 1-49.
14. Stouffer, S. A., et ai.: Measurement and Prediction, Princeton Uni­
versity Press, Princeton, N. J., 1950, caps. 1 y 3.
15. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 2.
S eg u n d a P a rte

E S T A D ÍS T IC A D E S C R IP T IV A UNIVARIADA
I I I . ESCALAS N O M IN A L E S : P R O P O R C IO N E S ,
P O R C E N T A JE S Y R A ZO N ES

E s m u c h o m ás sencillo re su m ir los datos que com portan escalas


nom inales que en el caso en que se em plean escalas de intervalo.
La operación aritm ética b ásica es, en el p rim e r supuesto, la
de c o n tar el n ú m ero de los casos al in te rio r de cada categoría y de
a n o ta r sus tam años relativos. Un grupo determ inado puede cons­
ta r de 36 varones y 24 m u jeres, o de 25 p ro testan te s, 20 católi­
cos y 15 judíos. Sin em bargo, p a ra p o d er estab lecer com para­
ciones con otro s grupos, hay que te n e r en cu en ta el n ú m ero de
casos en cada un o de los grupos considerados. Las m edidas que
se exam inan en el p re sen te capítulo p erm iten establecer com pa­
raciones e n tre diversos grupos, m ediante norm alización esencial­
m en te en relación con el tam año. Sin d u d a alguna, dos de las
m edidas en cuestión, la de las proporciones y la de los p o rc en ta­
jes, son ya conocidas de todos.

I I I .1. P roporciones
Con o b jeto de p o d er servirnos de las proporciones, hem os de
p re su m ir que el m éto do de clasificación h a sido ta l que las cate­
gorías son m u tu am en te exclusivas y exhaustivas. E n o tro s térm i­
n o s: cada individuo h a sido pu esto en u n a categoría y en u n a
sola. Con fines de sim plificación, tom em os u n a escala nom inal
q u e co n ste d e c u a tro categorías, con N u N 2, N s y N 4 casos re s­
pectivam ente. S upongam os que el nú m ero to ta l de los casos sea
N. La pro p o rció n de casos en cualquier categoría dada e s tá defi­
n id a com o el nú m ero en la categoría dividido e n tre el nú m ero
to tal de casos. P o r lo ta n to , la proporción de individuos de la
p rim e ra categoría se halla d ad a p o r la ca n tid ad N 1/N , y las p ro ­
porciones de las dem ás categorías son respectivam ente de N 2/N ,
N 3/ N y N J N . Es obvio que el valor de u n a proporción n o puede
ser m ay o r que la unidad. .En efecto, com o q u iera que

Nj. + N 2 + N 3 + N é = N

tenem os que

Nx N2 Ns Ni N
_ J_ + __L + _ L = -------- = i
N N N N N

Así, pues, si adicionam os las proporciones de los casos en todas


las categorías (m u tu am en te exclusivas), el re su ltad o es la unidad.
43
Es ésta u n a p ro p ied a d im p o rta n te de las p ro porciones que se
d eja ex ten d er fácilm ente a cu alq u ier n ú m ero de categorías.
Ilu strem o s el em pleo de las proporciones con los datos dados
en el cu ad ro I I I .1.

C uadro II I .l. N ú m ero de delincuentes y de no delincuentes en


dos localidades hipotéticas

Sujetos Localidad 1 Localidad 2


Delincuentes
Prim er delito 58 68
Reincidentes 43 137
No delincuentes 481 1081
Total 582 1286

R esulta m ás bien difícil decir cuál de las dos localidades cuenta


con m ayor n ú m ero de delincuentes, p o rq u e son diversam ente
grandes. E n cam bio, si expresam os los datos en térm in o s de
proporciones, podem os establecer u n a com paración directa. E n
efecto, la p ro p o rció n de p rim ero s delitos es, en la com unidad 1,
de 58/582, o .100; la de la localidad 2, en cam bio, es de 68/1 286
o sea .053. Las dem ás proporciones pu ed en calcularse en form a
análoga, resu m ien d o los re su ltad o s en fo rm a de c u a d ro (cu ad ro
III.2 ). El cu ad ro en cuestión nos p e rm ite ap re c ia r que los núm e­
ro s relativos de delincuentes son m u y parecidos en las dos lo­
calidades, p ero que la segunda de ellas contiene u n núm ero
considerablem ente m ás b a jo de p rim ero s delitos y u n a p ro p o r­
ción m ás a lta de reincidentes.

C uadro III.2. Proporciones de delincuentes y de no delincuentes


en dos localidades hipotéticas

Sujetos Localidad 1 Localidad 2


Delincuentes
Prim er delito .100 .053
Reincidentes .074 .107
No delincuentes .826 .841

Total 1.000 1.001

La sum a de las proporciones d e la localidad 2 n o d a exacta­


m en te la unidad, debido a los e rro re s de redondeo. E n ocasiones
es conveniente p re s e n ta r los dato s de ta l m odo que las sum as
sean ex actam en te igual a 1.000. E sto puede acaso exigir el aju ste
de algunas de las proporciones de las categorías, en cuyo caso
m odificam os p o r convención las cifras de las categorías que com ­
p re n d en el m ay o r n ú m ero de casos.1 E l argum ento en favor de
ese pro ced im ien to está en que u n cam bio en la ú ltim a cifra deci­
m al de u n a p ro p o rció n m ayor es relativ am en te m enos im por­
ta n te que el m ism o cam bio en u n a cifra m enor. Así, p o r ejem plo,
p o d ría cam b iarse la pro p o rció n de los no delincuentes de la lo-
calid ad 2 en .840, d e m odo q u e la su m a re s u lta n te sea igual a la
unid ad .
El cu ad ro III.2 com prende proporciones del n ú m ero to tal de
casos en cada u n a de las com unidades. Supóngase, sin em bargo,
que el in terés se c e n trab a sobre to d o en los delincuentes, y que
deseábam os conocer la p ro p o rció n de los reincidentes entre los
delincuentes. E l n ú m ero to ta l de delincuentes e n las dos localida­
des es resp ectivam ente de 101 y 205. P o r lo tan to , e n tre los delin­
cuentes, las pro p orciones de los reincidentes son respectivam ente
de 43/101, o .426 y 137/205, o .668. A p rim e ra vista estas cifras
p u ed en p ro p o rcio n ar u n a im presión lig eram en te diferente de la
del p rim e r co n ju n to de proporciones. H abríam os de g u ard arn o s
especialm en te de concluir que el segundo espécim en es “m ás
delictivo" que el p rim ero. P o r supuesto, este ú ltim o co n ju n to de
p ro p o rcio n es n ad a nos dice en absoluto acerca de las cifras rela­
tivas de no delincuentes en los dos especím enes considerados.
E s obvio q ue no existe su stitu tiv o alguno de la lectu ra a te n ta de
los cuadros. C onstituye u n bu en principio aco stu m b rarse a de­
te rm in a r siem pre las categorías que se hallan com prendidas en
el nú m ero to tal de casos que sirve de denom inador de la p ro p o r­
ción. El lecto r debiera siem pre p re g u n ta r: "¿de qué es esto la
p ro p o rció n ?” Y la re sp u esta re su lta rá clara del conjunto.

I1I.2 P orcentajes
Los p o rcen tajes pueden o b ten erse de las proporciones m ultipli­
cando sim plem ente p o r 100. La p a la b ra p o rc en taje significa por
ciento. P or lo tan to , al servirnos de los p o rc en tajes norm alizam os
en relación con el volum en, calculando el n ú m ero de individuos
que h ab ría en u n a categoría d eterm in ad a si el to ta l de los casos
fu era 100, perm aneciendo in altera d a la p roporción en cada cate­
goría. Y com o q uiera que las proporciones sum adas dan la uni­
dad, es obvio que los p o rcen tajes sum arán 100, a m enos que las
categorías no sean m u tu am en te exclusivas o exhaustivas.
Al re p ro d u cir resultados, los p o rcentajes se em plean con
m ucha m ayor frecuencia que las proporciones. Las cifras del cua­
dro XII.2 h ab ría n podido expresarse lo m ism o e n térm inos de
i Puede utilizarse exactamente el mismo procedimiento en el caso de por-
oentajes.
p o rcen tajes. M ejor que servirnos de los m ism os datos, tom em os
o tro cuadro que puede servir p a ra iiu s tra r otros diversos aspec­
tos. Supongam os que tenem os tres agencias de servicios dom és­
ticos con u n a distribución de casos com o la que se indica en el
cu ad ro III.3.
Como es usual, los p o rcen tajes se h an dado h a sta el p rim er
decim al y se h an operado los aju stes de los últim os dígitos, de
m odo que los totales den exactam ente 100. Aquí el núm ero de ca­
sos de cada agencia es lo suficientem ente grande com o p a ra ju s ­
tificar el em pleo de p orcentajes. Sin em bargo, si el núm ero de
casos h u b iera sido m enor, el em pleo de aquéllos h a b ría resultado
equívoco'. E n efecto, supóngase que la agencia C h ab ía trata d o
sólo 25 casos en total. Si h u b iera hab id o cu a tro m ad res solteras
y siete p arejas de novios, los po rcen tajes en dichas categorías
h ab ría n sido respectivam ente del 16 y del 28 p o r ciento. Y com o
q u iera que m uchas personas aco stu m b ran m ira r sólo los p o r­
cen tajes y no el núm ero efectivo de casos com prendidos, po­
d ría fácilm ente o btenerse la im presión de que h ab ía m uchas m ás
p arejas de novios que de m ad res solteras. Como se verá cuando
lleguem os a la estad ística inductiva, la diferencia e n tre cuatro
y siete casos p u ed e deberse perfectam en te a factores pu ram en te
casuales. El em pleo de los p o rc en tajes y las proporciones com­
p o rta p o r lo re g u lar u n a estabilidad m ucho m ayor de las cifras.
P o r lo tan to , he aquí dos reglas generales im p o rta n te s: 1) indí­
quese siem pre el núm ero de casos ju n ta m en te con los porcentajes
o las proporciones, y 2) n o se calcule nunca u n porcentaje, a m e­
nos que el n ú m ero d e casos en que está basado se halle a proxi-

Cuadro I I I .3. D istribución de los n úm eros y porcentajes de casos


tratados p o r tres agencias hipotéticas de servicios dom ésticos

Agencia A Agencia B Agencia C Total


Clase de casos
N? % Ni °/0 M % N°- %
Matrimonios 63 47.3 88 45.5 41 36.6 192 43.8
Divorciados 19 14.3 37 19.2 26 23.2 82 187
Novios 27 20.3 20 10.4 15 13.4 62 14.2
Madres solteras 13 9.8 32 16.6 21 18.8 66 15.1
Otros 11 8.3 16 8.3 9 8.0 36 8.2
Total 133 100.0 193 100.0 112 1.00.0 438 100.0

m id a d de los 50 o más. Si el núm ero de casos es m uy pequeño,


será preferible in d icar el núm ero efectivo de ellos en cada cate­
goría, sin re c u rrir a los po rcen tajes. En el caso an terio r, por
ejem plo, indicaríam os sim plem ente que la agencia C había tra ­
ta d o cu a tro m ad res solteras y siete p arejas de novios.
Véase ah o ra la colum na del to tal que indica la distribución en
p o rcen tajes de las tres agencias ju n tas. E sas cifras se han ob­
tenido sum ando el n ú m ero de casos de cada tipo y el núm ero
to tal de casos trata d o s p o r las tres agencias ju n tas. P a ra el
cálculo de ios p o rcen tajes totales se utilizó, pues, com o base
u n N de 438. Supóngase, sin em bargo, que el núm ero de casos
no nos h u b iera sido dado en el cuerpo del cuadro, sino que se
h u b iera presentado- com o en el cuadro III.4. E n tal caso po­
d ría d arse la tentación de o b ten er los po rcen tajes totales to­
m an d o directam ente la m edia aritm ética de los tres p o rc en ta­
je s de cad a hilera. S em ejante p rocedim iento n o ten d ría en cuenta
el hecho de que las tre s agencias h ab ían tra ta d o núm eros di­
feren tes de casos; sólo se ju stific aría si los núm eros de éstos
fu e ran efectivam ente iguales. El procedim iento correcto consis­
tiría en p o n d e ra r cada p o rc en taje p o r el núm ero correspondien­
te de casos. Uno de los m edios p a ra hacerlo consistiría en calcu­
la r h acia a trá s p a ra o b ten er el nú m ero efectivo de casos de cada
casilla. Lo que p o d ría efectuarse m ultiplicando el núm ero to tal
de casos tra ta d o s p o r la agencia p o r la proporción de u n a catego­
ría d eterm in ad a. P or ejem plo, (133)(.473) = 63.

Cuadro III.4. D istribución en porcentajes de los casos tratados


p o r tres agencias hipotéticas d e servicios dom ésticos, con los
porcentajes dispuestos verticalm ente

Agencia A Agencia B Agencia C


Clase de casos (N = 133) (N = 193) (N = 112)
% Vo %
Matrimonios 47.3 45.5 36.6
Divorciados 14.3 19.2 23.2
Novios 20.3 10.4 13.4
Madres solteras 9.8 16.6 18.8
Otros 8.3 8.3 8.0

Total 100.0 100.0 100.0

O bsérvese que los p o rc en tajes dados en los cuadros III.3 y


III.4 tien en p o r objeto- co n te sta r a ciertas p reg u n tas y n o otras.
Nos p erm iten ex am inar cada agencia p o r sep arad o y v er la dis­
trib u ció n de los casos tra ta d o s. P erm iten adem ás la com para­
ción de las agencias e n tre sí e n relación con los casos trata d o s.
Así, p o r ejem plo, las agencias B y C tra ta ro n relativ am en te m ás
m ad res solteras y perso n as divorciadas de las que tra tó la agen­
cia A. Supóngase, sin em bargo, que nos in tere sa b an a n te todo
los casos de cierto tip o y el n ú m ero relativo de ellos tra ta d o s p o r
cada agencia. Así, p o r ejem plo, p o d ría eventualm ente interesar-
Cuadro III.5 . D istribución en porcentajes de los casos tratados
p o r tres agencias hipotéticas de servicios dom ésticos, con los
porcentajes calculados horizontalm ente

Agencia A Agencia B Agencia C Total


Clase de casos (N = 133) (N = 193) (N = 112) (N = 438)
% % % %
Matrimonios (N= 192) 32.8 45.8 21.4 100.0
Divorciados (N =82) 23.2 45.1 31.7 100.0
Novios (N = 62) 43.5 32.3 24.2 100.0
Madres solteras ( N- 6 6 ) 19.7 48.5 31.8 100.0
Otros ( N~36) _* _* _* __ *

* Los porcentajes no se calculan cuando la base es inferior a 50.


n o s sab e r el p o rc en taje de todos los m atrim onios que pasaron
p o r la agencia B . E n estas condiciones re su lta ría m ás conve­
nien te calcu lar los p o rcen tajes a través del cuadro. E a efecto,
po d ríam o s to m a r el n ú m ero to ta l de m atrim onios y v er cuáles
p o rcen tajes de dicha categoría fu e ro n tra ta d o s respectivam ente
p o r las agencias A, B y C. Los p o rcen tajes su m arían entonces
100 en el sen tid o horizontal del cuadro, y no en el vertical, y los
resu ltad o s se resu m irían com o en el cuadro III.5.
De m odo que los p o rcen tajes pueden calcularse tan to en sen­
tid o vertical com o en sentido horizontal. Por lo tan to , los cua­
dros h an de exam inarse siem pre cuidadosam ente p a ra ver exac­
tam en te cóm o se h an calculado aquéllos. P ara los casos en que
la p ro p ia teo ría nos dicta cuál es la variable que debe ser tom a­
da com o cau salm ente dependiente y cuál ha de ser considerada
causalm ente p rim a ria o independiente, p o d rá b astarn o s u n a sim ­
ple regla em pírica. Si tenem os la costum bre de s itu a r la varia­
ble independiente en la p a rte alta del cuadro, y la variable de­
p endiente al lado izquierdo, los p o rcen tajes su m ará n 100 hacia
abajo, y las com paraciones se h a rá n de izquierda a derecha. En
el ejem plo relativo a la com paración de niveles de delincuencias
en dos localidades, ca b ría n o rm alm en te su p o n er que ciertas ca­
racterísticas locales pueden te n e r influencia sobre la delincuen­
cia, m ás bien que a la inversa.
Cuando com putam os los p o rcen tajes p ara que sum en 100 hacia
abajo, lo que en re alid ad hacem os es norm alizar los tam años de
las localidades, ya que reconocem os que los factores que se refie­
re n a sus tam años relativos, o los m uestreos realizados dentro
de cada localidad, no dependen causalm ente de sus niveles de
delincuencia. Al co m p u tar hacia ab ajo los po rcen tajes estam os
controlando aquellos factores que afectan al tam añ o de los dos
m uestreos. E ste p u n to qu ed ará m ás en claro u n a vez que haya­
m os considerado el concepto de inclinación de u n a línea recta
en la que u n a de las variables fig u ra com o dependiente de la o tra
(v e r cap ítu lo xvrr).
R esu ltará que los po rcen tajes com putados en la dirección su­
gerida p u ed en ser considerados com o casos especiales de dichos
declives.

II I.3. R azones
La razón de u n n ú m ero A con respecto a o tro núm ero B se de­
fine com o A dividido e n tre B . La cantidad que precede se pone en
el n u m erad o r, en tan to que la que sigue fo rm a el denom inador.
S upóngase que en una elección local se hallan inscritos 365 re p u ­
blicanos, 420 dem ócratas y 130 independientes en calidad de vo­
tan tes. E n este caso la razón de los republicanos a los dem ócra­
tas es de 365/420, y la de los republicanos y los dem ócratas a los
independientes es de (365 + 420)/130. O bsérvese que, a diferen­
cia de la proporción, la razón puede to m a r u n valor su p erio r a
la unidad. Vemos asim ism o q u e la expresión que precede o que
sigue pueden constar, u n a y o tra, de cantidades d istin tas ( v.gr.
republicanos y d em ócratas). G eneralm ente la razón se reduce a
su expresión m ás sim ple elim inando en el n u m era d o r y el deno­
m in ad o r los factores com unes. Así, pues, la razón de los dem ó­
cratas a los independientes se escrib irá com o 42/13 o bien, en
fo rm a equivalente, com o 42:13. En ocasiones es conveniente ex­
p re s a r la razón en térm inos de u n denom inador form ado p o r la
unidad. P o r ejem plo, la razón de los dem ócratas a los indepen­
d ientes pu ed e escribirse com o 3.23 a 1.
E s obvio que las proporciones re p resen tan u n tip o especial de
razón en la que el denom inador es el nú m ero to tal de los casos
y el n u m era d o r u n a cierta fracción de aquél. Sin em bargo, el
térm in o de razón se em plea p o r lo re g u lar p a ra re ferirse a casos
en los q ue A y B re p re se n ta n categorías separadas y distintas.
P odríam os, p o r ejem plo, estab lecer la razón de los delincuentes
a los n o delincuentes, o de los m atrim onios a los novios. Es evi­
d ente que con cu atro o cinco categorías el n ú m ero de razones
posibles susceptible de calcularse es m uy grande. En consecuen­
cia, a m enos que el in terés se cen tre a n te to d o en uno o varios
p ares de categorías, será en general m ás económ ico y m enos su­
je to a confusión p o r p a rte del lecto r servirse de los p o rcentajes
y las proporciones. O bsérvese que, si las categorías sólo son dos,
será posible calcular la proporción d irectam en te a p a r tir de la
razón y viceversa. Así, p o r ejem plo, si sabem os que la razón de
los varones a las m u jeres es de 3 :2, entonces en cada cinco p er­
sonas h a de darse u n prom edio de tres varones y dos m ujeres.
La p ro p o rció n de los varones es, pues, de 3/5, o .6.
Las razones pu eden ex presarse en térm inos de cualquier b ase
que re su lte conveniente. L a base de la razón está indicada p o r la
m ag n itu d del d enom inador. Así, p o r ejem plo, las razones relati­
vas al sexo se in d ican convencionalm ente en térm in o s del núm ero
de varones p o r 100 m u jeres. P o r lo tan to , u n a razó n de 94 en
m ateria de sexo in d icará que el n ú m ero de los varones es ligera­
m en te in fe rio r al de las m u jere s, en ta n to que u n a razón de
sexos de 108 significaría u n a ligera p re p o n d eran cia de los p ri­
m eros. Las bases que co m p o rtan núm eros grandes, tales como
1 000 o 100 000, se em plean a m enudo al calcular cuotas, o tro tipo
de razón, cuando el em pleo de las proporcion es o los po rcen tajes
co n d u ciría a valores decim ales pequeños. Las cuotas de n atali­
dad, p o r ejem plo, suelen d arse e n térm in o s del n ú m ero de naci­
m ien to s vivos p o r 1 000 m u jeres e n ed ad de p ro c rea r. Las cuotas
de asesinatos pueden darse en térm in o s del n ú m ero de asesinos
p o r 100 000 h ab itan tes.
Las cuotas de crecim iento constituyen o tro tip o co rrien te de
razón. Al calcu lar u n a de estas cuotas, tom am os el crecim iento
efectivo d u ra n te el perio d o considerado, dividido e n tre el volum en
al principio del periodo. Así, p o r ejem plo, si la población de una
ciu d ad au m en ta de 50 000 a 65 000 e n tre 1940 y 1950, la cuota de
crecim iento d u ra n te el decenio en cuestión s e rá de
65 000 - 50 000
---------- — ---------- = .30
50 000
o 30 p o r ciento. E n el caso de cuotas de crecim iento, es obvio
q ue los p o rc en tajes se p re s ta n bien m ás allá del 100 p o r ciento,
en ta n to que serán negativos si la ciu d ad h a experim entado un
descenso de población.

G losario

Porcentaje
Proporción
Tasa
Razón
E j e r c ic io s

1. Supóngase que se da el siguiente cuadro que m uestra la relación


entre la asistencia a la iglesia y el año de clase en una determinada
universidad:

Asistencia Año de clase


a la Total
iglesia 1er. Año 2ü Año Inferior Superior
Asistencia regular 83 71 82 59 295
Asistencia irregular 31 44 61 78 214
Total 114 115 143 137 509
a) ¿Cuál es el porcentaje de asistencia regular en el conjunto? Res­
puesta, 57.96 %.
b ) ¿Cuál es la razón de los estudiantes de primer año a los del año
superior?
c) E ntre los asistentes regulares, ¿cuál es la razón de los años infe­
riores a los superiores (de los 1? y 2? años a los años inferior y
superior)? Respuesta, 1.09 a 1.
d) ¿Cuál es la proporción de los asistentes irregulares entre los es­
tudiantes del año superior? ¿La proporción de estudiantes de año
superior entre los asistentes irregulares? Respuesta .364; .569.
e) ¿Hay relativamente más asistentes irregulares entre los estudian­
tes de 1* y 2° años que entre los de las clases inferior y superior?
Exprésense los resultados en porcentajes.,
f) Resúmanse los datos en varias proposiciones.
2. Al estudiar la relación entre la productividad industrial y el tipo
de líder de los grupos, un psicólogo social obtiene los siguientes datos,
que m uestran los niveles de productividad agrupados en tres tipos
distintos de dirección:

Grupos de tipo de líder del grupo


Productividad Total
Democrático Liberal Autoritario

Alta 37 36 13 86
Mediana 26 12 71 109
Baja 24 20 29 73
Total 87 68 113 268

a) ¿En qué dirección preferiría el lector calcular los porcentajes?


¿Por qué?
b ) Calcúlense los porcentajes y resúmanse los datos en forma breve.
c) ¿Cuál es la razón de los productores de nivel alto a los de nivel
bajo en cada uno de los grupos? En relación con estos datos par­
ticulares, ¿resumen las tres razones la situación de modo ade­
cuado? Expliqúese.

3. Si la razón de los blancos a los no blancos es de 8/5 en una deten


minada localidad, ¿cuál es la proporción de los no blancos? Supóngase
que la razón de los blancos a los negros fuera de 8/5, ¿podría obte­
nerse la proporción de negros en la misma forma? ¿Por qué, o por
qué no?
4. Si una ciudad tenía una población de 153 468 habitantes en 1940
y de 176118 en 1950, ¿cuál fue la tasa de crecimiento (expresada en
porcentaje) entre 1940 y 1950? Respuesta, 14.76%.
5. Si en un determinado condado hay 12160 varones y 11913 mu­
jeres, ¿cuál es la razón entre los sexos (expresada en términos del
número de varones por 100 mujeres)?
B iblio g ra fía
1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2* ed.,
Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 24 a 31.
2. Freeman, L. C.: Elementary Applied Statistics, John Wiley & Sons,
Inc., Nueva York, 1965, cap. 4.
3. Hagood, M. J. y D. O. Price: Statistics for Soeiologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 7.
4. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 4.
5. Zeisel, H ans: Say I t w ith Figures, 5? edición, Harper and Row,
Publishers, Incorporated, Nueva York, 1968, caps. 1 y 2.
IV . ESCA LAS D E IN T E R V A L O : D IS T R IB U C IO N E S D E
F R E C U E N C IA Y R E P R E S E N T A C IÓ N GRÁFICA

E n e l p re se n te capítulo nos ocuparem os de m étodos p a ra el re ­


su m en de datos m uy p arecid o s a los del capítulo precedente.
V am os a ag ru p a r las escalas de intervalo en categorías, a o rd e n a r
éstas y a servirnos de dichos grupos p a ra d a r u n a visión con­
ju n ta de la d istrib u ción d e los casos. Al p ro c ed er en esta form a,
p odem os re d u c ir la in form ación relativ a a u n n ú m ero m uy gran­
de de casos a u n a fo rm a m uy sim ple, que p e rm ita al le c to r
re p re se n ta rse en q u é fo rm a están d istrib u id o s los casos. M ás
a d e la n te co m probarem os que ag rupando los datos podem os asi­
m ism o sim p lificar considerablem ente ciertos cálculos. E n los dos
cap ítu lo s siguientes nos ocuparem os de m étodos de resu m en de
dato s en fo rm a m ás com pacta, de m odo que p u ed an se r descri­
to s p o r varios n ú m eros expresando m edidas que re p re se n ta n
fo rm as típ icas y grado de hom ogeneidad.

IV .l. D istribuciones de frecuencia: agrupam iento de los datos


E n el cap ítu lo p reced en te nos hem os en c o n trad o con sólo pocas
decisiones im p o rtan tes, si h a h ab id o alguna, en relación con el
re su m e n de los datos. E sto se debe al h echo de que, presu m ib le­
m ente, las clases estab a n y a d eterm inadas y lo único que h abía
q ue h a c e r era c o n tar el nú m ero de casos en cada clase y luego
n o rm alizar en relación co n el n ú m ero de casos del espécim en
co n ju n to , calculando u n a proporción, u n p o rc e n ta je o u n a razón.
E n cam bio, si los datos de la escala de in terv alo h an de re su ­
m irse del m ism o m odo, hay que a d o p tar u n a decisión inicial en
relación con las categorías q u e se van a u tilizar. Ya que p o r lo
re g u la r los datos e sta rá n d istrib u id o s de m odo continuo, sin o con
p eq u eñ as lagunas, e n tre cifras contiguas, el esq u em a de clasifi­
cación p u ed e se r m uy a rb itra rio . S erá m en este r decidir cu án tas
categorías se van a u tiliza r y en dónde deban establecerse los

39.2 % 11.6% 36.3 % 26.3 % 37.1 % 15.3 % 27.3 % 23.5 % 13.3 %


28.1 263 27.1 35.1 23.0 26.1 31.0 36.3 27.3
22.8 33.4 25.6 21.6 46.8 7.1 16.8 26.9 46.6
44.3 58.1 33.1 13.4 27.8 33.4 22.1 42.7 33.0
36.3 20.7 9.3 26.3 29.9 39.4 5.3 24.3 17.8
18.2 37.1 21.6 17.5 12.3 23.6 37.2 37.1 25.1
27.1 28.8 27.8 33.6 26.5 28.3 26,9 24.8 41.0
33.6 19.3 43.7 28.2 19.9 83.6 47.1 4.8 9.7
39.5 32.3 22.4 15.1 26.3 26.1 29.2 14.3 14.6
21.6 37.9 37.1 24.9 10.0 20.7 11.8 22.9 36.0
46.1 21.5 13.3
53
pu ntos de intersección. In fo rtu n ad am en te, no- existen reglas sim ­
ples p a ra h acer esto, ya que la decisión depende de los objetivos
perseguidos p o r m edio de la clasificación. Sirvám onos, p a ra ilus­
tr a r el carác te r del problem a, de u n ejem plo sencillo. Supóngase
que los núm eros indicados al final de la página a n te rio r re p re­
sen tan el p o rc en taje de electores elegibles que vo tan en la elec­
ción de u n consejo escolar, en 93 colegios electorales de u n a de­
term in ad a ciudad.
Los datos b ru to s p resentados en esta fo rm a n o sirven p rá cti­
cam ente de n ad a en cu an to a p ro p o rcio n ar al lecto r u n a idea cla­
ra de lo que está sucediendo. Y esto es ta n to m ás así cuanto
m ayor sea el n ú m ero de los casos. Supóngase que deseáram os
co m p arar dicha localidad con o tra en relación con la p articip a­
ción electoral. Una rá p id a o jead a echada a los datos indica que la
m ayoría de los d istrito s tuvieron u n a participación de 20 a 40 %
y que h u b o u no con u n a cifra extrem adam ente alta.
R esulta sin em bargo realm ente difícil ob ten er u n a id ea clara de
la distribución total.
N ú m ero y m a gnitud de los intervalos. Con o b jeto de represen­
tarn o s dicha d istribución total, será ú til clasificar las cifras ve­
cinas en u n a m ism a categoría. Sin em bargo, nos encontram os
en seguida con un problem a. ¿De cuántos intervalos habrem os
de servirnos al a g ru p ar los datos? ¿Cuál ha de se r su extensión?
P o r lo pro n to , no tiene o b jeto em plear intervalos de am plitud
o lím ites peculiares. Así, pues, escogerem os m ás bien intervalos
de am plitud 5, 10 o 20 que u n o de am plitud 4.16, pongam os p o r
caso. Y tam bién nu estro s puntos term inales, o lím ites de clase
com o se los suele llam ar, serán p o r lo regular núm eros redondos,
tales com o 5.0 o 10.0. Si tenem os duda acerca de los intervalos
de los que h ab rem os de servirnos definitivam ente es preferible
clasificar las cifras sirviéndonos de u n nú m ero m ayor de in ter­
valos relativam ente pequeños. La razón de ello es obvia: si nos
servim os de intervalos pequeños, siem pre podem os agrupar, in­
m ediatam ente, los casos en intervalos m ayores. E n ta n to que si
em pezáram os con u n pequeño nú m ero de intervalos grandes, no
podem os luego subdividirlos, com o no sea rehaciendo todos los
cálculos. P o r lo tan to , nos decidirem os probablem ente a clasifi­
ca r los datos en intervalos de am p litu d 5 p o r ciento, com o en el
cuadro IV .l.
Y si exam inam os ah o ra las frecuencias en cada categoría, ve­
m os que la im agen que p re sen tan es relativam ente angulosa e
irreg u lar. Podem os probablem ente explicarnos las variaciones
en tre categorías contiguas en térm inos de fluctuaciones casuales.
Si hub iera hab ido m ás casos, habríam os podido c o n tar con u n a
distribución m ás suavizada. El razonam iento que se halla a la
base de este ju icio intuitivo se d estacará m ás claram en te en ca­
pítulos u lterio res. B aste de m om ento decir que em píricam ente
Cuadro IV .1. D istribución de la frecuencia, con datos agrupados
en intervalos de 5 por ciento

Intervalo Frecuencia, f Intervalo Frecuencia, f

0.0-- 4.9 1 45.0 - -49.9 4


5.0-- 9.9 4 50.0--54.9 0
10.0--14.9 9 55.0--59.9 1
15.0--19.9 8 60.0--64.9 0
20.0--24.9 16 65.0 - -69.9 0
25.0--29.9 23 70.0--74.9 0
30.0--34.9 8 75.0--79.9 0
35.0--39.9 14 80.0--84.9 1
40.0--44.9 4 —
93

siem p re p arece o c u rrir así. S in em bargo, dado n u estro N d e 93


d istrito s, lo m e jo r que podem os h a c e r p a ra o b ten er u n a d istri­
bu ció n de aspecto m ás re g u la r es servirnos de u n nú m ero m en o r
de in terv alo s m ás am plios. S irviéndonos de intervalos de 10 en
10, obtenem os el cu ad ro IV.2.

C uadro IV .2. D istribución de la frecuencia, con datos agrupados


en intervalos de 10 por ciento

Intervalo Frecuencia, f

0.0— 9.9 5
10.0— 19.9 17
20.0 — 29.9 39
30.0 — 39.9 22
40.0 — 49.9 8
50.0 — 59.9 1
60.0 — 69.9 0
70.0 — 79.9 0
80.0 — 89.9 1
93

Si hu b iéram o s em pleado intervalos m ayores todavía, digam os,


p o r ejem plo, de 20, el c u a d ro se p re se n ta ría com o el cuadro IV.3.
Aquí em pezam os a o scu recer ya la m ayor p a rte de n u e stra in­
fo rm ación inicial. E n efecto, sabem os sólo que aproxim adam en­
te las dos terceras p a rte s de los casos se sitú an e n tre 20.0 y 39.9,
p ero viendo los datos en esta form a, no podem os decir m ucho
acerca de dónde se sitú e el grueso de los casos al in te rio r de ese
C uadro IV.3. D istribución de las f recuencias con datos agrupados
en intervalos de 20 por ciento

Intervalo Frecuencia, f
0.0 — 19.9 22
20.0 — 39.9 61
40.0 — 59.9 9
60.0 — 79.9 0
80.0 — 99.9 1
93

in terv alo realm ente m uy grande. E n resum en, hem os de encon­


tr a r u na fo rm a a m odo de servirnos de gran nú m ero de in­
tervalos de m odo que la visión n o re su lte dem asiado detallada
o irregular, n i servirnos de ta n pocos que se p ierd a dem asiada
inform ación. Y dicho sea de paso, observam os que, al resu m ir
los datos de la escala de intervalo, se pierde prácticam ente siem ­
pre algo de inform ación im portante. E n ta n to que, p o r o tra p a r­
te, incluir to d a la inform ación conduce a p re se n ta r ta n to detalle,
que la visión re su lta m ás bien oscurecida que aclarada.
Pese a que se h an indicado fórm ulas m atem áticas que pueden
serv ir de guía p o r lo que se refiere al nú m ero de intervalos a
utilizar, esas fórm ulas dan a m enudo la im presión de exactitud,
en tan to que la m e jo r decisión se b a sa rá norm alm ente en el sen­
tid o com ún y en el o b jeto a que se destine la tab la de frecuencia.
In d ep endientem ente del n ú m ero de casos o de la reg u larid ad de
la línea, lo m ás p ru d e n te consiste en seguir la regla práctica
de que el in terv alo n o debería ser m ayor que la m ag n itu d de di­
ferencia e n tre valores que pueden ignorarse sin perjuicio. Una
diferencia de $ 5 e n tre precios de casas, p o r ejem plo, es insignifi­
cante, en ta n to que no es así si se tra ta de los precios de cam isas.
P o r consiguiente, el intervalo d eberá com prender los casos cuyos
valores pu ed an considerarse p a ra fines prácticos com o sem e­
jantes.
Los datos indicados m ás a rrib a p resen tan o tro problem a. ¿Qué
p asa con el único colegio que o sten ta u n a participación del 83.6
p o r ciento a la vista? Si nos servim os de intervalos de u n a am ­
p litu d de 10, varias clases quedan vacías, con dicho único colegio
abandonado, p o r así decir, a sí m ism o. Sin duda, esto es lo que
hay que h acer, si es que los datos h an de resu m irse cuidadosa­
m ente. Dicho colegio es efectivam ente único. P or o tra p arte , en
d eterm inadas circunstancias puede se r conveniente ab rev iar la
tabla. Si los p o rcentajes fu eran bien m ás allá de 100 y si hubiera
varios extrem os que se extendieran p o r sobre de 10 o m ás in ter­
valos, nos en frentaríam os a u n a decisión m ás difícil todavía. E n
tal caso, en efecto, se p re se n ta n varias alternativas. P rim ero,
podem os serv im o s de intervalos de am p litu d es diversas, p erm i­
tien d o que los intervalos extrem os sean m u ch o m ás grandes que
los otro s. Así, p o r ejem plo, podríam os serv im o s de u n solo in­
terv alo de 50.0 a 89.9, lo que com prendería las dos m arcas m ayo­
res. P o r supuesto, al p ro c ed er en esta fo rm a perdem os in fo rm a­
ción, ya que ah o ra tenem os u n a indicación m ucho m enos precisa
de las cifras correspondientes a los dos casos extrem os.
E n segundo lugar, podríam os servim os de u n intervalo abierto
p a ra co m p ren d er los casos extrem os. La ú ltim a categoría po d ría
leerse en tal caso com o "50 p o r ciento o m ás". Aquí, sin em ­
bargo, perdem os todavía m ás inform ación que an teriorm ente,
au n q u e sabem os que en este ejem plo concreto los po rcen tajes no
pued en ir m ás allá de 100. P ero si los datos se re firiera n a ingre­
sos y que el últim o in terv alo fu e ra de "$ 20 m il o m á s”, el lector
n o te n d ría en ab so luto m an era alguna de adivinar, sobre la b ase
de la sola tabla, cuáles pu d iero n h a b e r sido los ingresos m ás
altos. Conviene observar, con todo, que e n d eterm inadas circuns­
tancias pued e no re v estir im p o rtan cia alguna sa b e r cuáles sean
esos ingresos m ás altos. E n ta l caso, las sim plificaciones in tro ­
ducidas m ed ian te el em pleo de intervalos ab ierto s pu ed en com ­
p e n sa r con v en taja los inconvenientes. Con distribuciones que
p re se n ta n xm nú m ero red u cid o de casos m uy extrem os, p u ed e no
darse altern ativ a satisfac to ria alguna. Si alguien desea, p o r ejem ­
plo, in d icar los ingresos de los ciudadanos m ás ricos sin desfigu­
r a r su tab la, le re su lta rá m ás fácil hacerlo e n el tex to de su
exposición. Como lo verem os en capítulos sucesivos, no debieran
em p learse in tervalos abiertos si el objetivo p rim ero de la ag ru ­
pación de los datos consiste en sim plificar los cálculos y n o en
exponer aquéllos de m odo significativo.
L ím ite s verdaderos. El lecto r h a b rá observado que, al indicar
los intervalos, los lím ites de las clases se h a n establecido de tal
m odo que éstas no se en tre co rten . De hecho, existe u n pequeño
vacío e n tre u n a y o tra . Los lím ites suelen p o r lo regular fija rse
en esta fo rm a p a ra ev itar to d a am bigüedad fre n te al lector. E n
efecto, si se h u b iera fijad o com o de 10 a 20, de 20 a 30, etcétera,
se h a b ría p lan tead o la cuestión de qué hacem os con u n a m arca
de 20 exactam ente. E n realidad, siem pre h a b rá am bigüedad, cual­
q u ie ra q u e sea la fo rm a e n q u e se fijen los intervalos, com o p o ­
dem os ap reciarlo al p re g u n ta rn o s ah o ra qué h a b rá que h ac er con
un caso q ue se sitúe e n tre 19.9 y 20. O bservam os, p o r supuesto,
q ue no hay tales casos, p e ro u n poco de reflexión nos convencerá
de q ue esto es debido al hecho de que los datos se h an redon­
deado a la décim a del p o rc en taje m ás próxim o. P or lo tan to ,
hem os d e co n testa r a la siguiente cuestión: "¿cuáles casos corres­
ponden en realid ad a un intervalo determ inado, puesto que los
datos se h a n red ondeado?” V em os in m ed iatam en te que los ver­
daderos lím ites d e las clases n o son los m ism os que los que se
h a n fijado. Si hu biéram os seguido las reglas convencionales del
redondeo, u n colegio con u n a particip ació n ligeram ente superior
a 19.95 se h a b ría redondeado en 20.0, situ án d o lo en el intervalo
de 20.0 a 29.9. Y si el p o rc en taje h u b ie ra quedado p o r deb ajo de
19.95, p o r poco que así fuera, lo habríam os red o n d ead o en 19.9,
colocando el colegio en cuestión en la categoría inm ediatam ente
in ferio r. P o r lo tan to , los verdaderos lím ites efectivam ente em ­
pleados son los sig u ien tes:

d e -0 .0 5 a 9.95
de 9.95 a 19.95
de 19.95 a 29.95
etcétera.

Vemos que, al servim os de los verdaderos lím ites, cada in ter­


valo tien e u n a am p litu d exactam ente de 10.0 (m ás bien que de 9.9)
y que el lím ite su p erio r de u n intervalo coincide exactam ente con
el lím ite in ferio r del siguiente.1 Si la m arc a h u b ie ra sido exacta­
m en te de 9.95000, h ab ríam o s seguido el p rocedim iento conven­
cional red o n d ean do hacia arrib a, ya que el n ú m ero dígito que
preced e al ú ltim o cinco es im par.2 Podem os, pues, asig n ar a cada
caso, de m odo inequívoco, su in terv alo propio. O bsérvese que si
el red o n d eo se h a operado h ac ia la cifra próxim a, com o suele
se r el caso, el v erd ad ero lím ite co m p o rta rá siem pre la separa­
ción de la diferencia e n tre los lím ites fijados de dos intervalos
contiguos. Así, p o r ejem plo, si p artim o s la d iferencia e n tre 19.9
y 20.0, obtenem os 19.95. La convención consiste e n in d icar las
cifras de ta l m odo que se exprese el grado de ex actitu d de la
m edición, o sea que 10.45 indica u n a ex actitu d a dos lugares deci­
m ales, 10.450 a tre s y 10.4 a uno. Dicho grado de ex actitu d debe
ind icarse siem pre, d e m odo que el le c to r p u ed a averiguar los
lím ites v erdaderos si desea servirse d e ellos en sus cálculos. Así,
p o r ejem plo, si se indica que los lím ites son respectivam ente 10.00
a 19.99, sabem os que la m edición es exacta h a s ta dos decim ales,
que el red o n d eo se h a operado a la próxim a centésim a d e -----
100
del 1 p o r ciento, y que, en consecuencia, los v erdaderos lím ites
van de 9.995 a 19.995. Si los lím ites se h u b iera n indicado com o
1 Si el límite más bajo es cero y que los valores no pueden ser negativos
(como en el caso de los porcentajes), consideramos de todos modos que to­
dos los intervalos son de la misma amplitud, imaginando que el límite in­
ferior del primer intervalo es en realidad —.05 y que las marcas se han re­
dondeado en 0.00.
2 Obsérvese que en el caso de los intervalos de los que nos hemos servido
habría una desviación muy ligera, ya que los casos que quedan exactamente
entre intervalos se situarán siempre en la categoría superior. En la mayoría
de los casos prácticos dicha desviación puede ignorarse.
10 a 19, entonces los verdaderos lím ites h ab ría n sido, p o r su­
puesto, 9.5 a 19.5.
E n unos pocos casos, como, p o r ejem plo, el de la edad en re la ­
ción con el ú ltim o aniversario, los datos pueden n o hab erse
red o n d ead o en la fo rm a convencional. S in em bargo, si nos pregun­
tam os a cuál intervalo corresponda u n caso determ inado, la re s­
p u esta h a b ría de ser siem pre clara. Como q u iera que, en efecto,
u n a p erso n a que vaya a cu m p lir 20 años m añ an a cuenta hoy 19,
es obvio que el intervalo fijad o com o de 15 a 19 tiene com o ver­
daderos lím ites los valores 15 y 20. Pese a que p u ed a p arece r que
andam os con sutilezas al distinguir e n tre los lím ites indicados
y los lím ites verdaderos, verem os, sin em bargo, en los capítulos
sucesivos q ue estos últim os h a n de utilizarse en los cálculos, au n ­
que p o r lo reg u lar n o se indiquen explícitam ente al p re sen tarse
los dato s en form a de d istribución de frecuencia.
D atos discretos y continuos. Los datos de los que nos hem os
servido son continuos, en el sentido de que cualquier valor h u ­
b iera p odido obtenerse teóricam ente p a ra u n porcentaje, a con­
dición que la ex actitud de m edición fu e ra lo suficientem ente p re­
cisa y q ue los intervalos fu e ran m uy grandes. Así, p o r ejem plo,
el v alo r de 17.4531 p o r ciento es ta n posible com o el de 17.0000
p o r ciento. Algunos otros tipos de datos son discretos, ya que no
todos los valores son posibles. E n efecto, u n a m u je r puede ten er
ex actam ente 0, 1, 2 o inclusive 17 niños, p ero no puede te n e r 2.31
niños. El ingreso y el volum en de u n a ciudad son variables teó­
ricam en te discretas, y a que n o es posible te n e r u n ingreso de
$ 3 219.5618, o que u n a ciudad tenga u n a población de 43 635.7 h a ­
b itan tes. Debido a las lim itaciones de to d o in stru m en to de m e­
dición y a la necesidad subsiguiente de h ab e r de red o n d ear en u n
p u n to u o tro, los datos em píricos vienen siem pre en fo rm a dis­
c re ta ; p ero en m uchos casos podem os p o r lo m enos concebir u n a
distrib u ció n continua susceptible de alcanzarse con un in stru ­
m en to de m edición perfecto. Como lo verem os en el capítulo
relativ o a la curva n orm al, los m atem áticos h an de d esa rro llar
a m en u d o distribuciones teóricas que ad o p tan u n a variable con­
tinua.
E n algunos casos, com o los del ingreso o n ú m ero de h ab itan tes
de u n a ciudad, n o re su lta dem asiado difícil concebir los datos
com o continuos, aunque se tra te en realidad de unidades m uy pe­
queñas (centavos, p erso n as) que no se d ejan subdividir. Pero,
¿qué o cu rre con el n ú m ero de niños en u n a fam ilia? Aquí p a re ­
ceríam os v io len tar excesivam ente los hechos si adm itiéram os
continuidad. Al p re s e n ta r los datos en u n a distribución de fre­
cuencia no se nos o cu rrirá, p o r supuesto, servim os de intervalos
que vayan de 0.5 a 2.4 o de 2.5 a 4.4 niños. E m plearem os senci­
llam en te intervalos com o de 0 a 2, de 3 a 4, etcétera, y no h ab rá
am bigüedad alguna p o r lo que se refiere a los huecos e n tre aqué-
líos. E n algunos cálculos, sin em bargo, se rá necesario, p o r razo ­
nes p ragm áticas, tr a ta r los casos com o continuos y d isp o n er m a r­
cas discretas en in tervalos pequeños. E n efecto, p o r ra ro que se
n o s p u ed a a n to ja r, podem os n ec esitar c o n sid erar a las m adres
con u n h ijo com o e n u n in terv alo d e 0.5 a 1.5 niños. P a ra la m a­
y o ría de los o b jeto s obtendrem os lo s m ism os re su ltad o s que
o b ten d ríam o s m an teniendo los datos en fo rm a discreta. Con el
fin de ad a p ta rse a los m odelos establecidos p o r los m atem áticos,
en este y otro s casos será necesario h a lla r u n com prom iso con la
realidad. A condición de que nos dem os p erfec ta cu en ta de lo que
estam os haciendo, n o re s u lta rá de ello confusión alguna o sólo
m uy poca.

IV.2. D istribuciones de frecuencia cum ulativa


P a ra algunos o b jeto s es conveniente p re se n ta r los d ato s e n u n a
fo rm a algo d istin ta. E n lugar de in d icar el n ú m ero d e casos en
cad a intervalo, podem os in d icar el n ú m ero de m arc as que son
m enores (o m ay o res) que xm v alor determ inado. E n el caso de
los intervalos de los que nos hem os estad o sirviendo, n o hay, p o r
supuesto, colegios electorales con u n a p articip ació n de votantes
in ferio r a cero, hay cinco con m enos del 9.95 p o r ciento, 22 con
m enos del 19.95 p o r ciento, y los 93 ju n to s tienen u n a p artic ip a­
ción in ferio r al 89.95 p o r ciento. Así, pues, podem os p re se n ta r
los datos en fo rm a acum ulada, ta l com o se indica en el cuadro
IV.4. O bsérvese que podem os acu m u lar lo m ism o h acia a rrib a
que h a d a a b a jo p re g u n ta n d o cuántos casos están p o r encim a de
u n valor d eterm inado. Las frecuencias cximulativas su elen indi­
carse p o r lo re g u la r con u n a F m ayúscula, en lu g ar de la mi-

Cuadro IV.4. D istribución de frecuencia cum ulativa

Acumulación hacia arriba Acumulación h ada abajo


Número de Frecuencia Número de Frecuencia
casos por acumulada, Por ciento casos por acumulada, Por ciento
debajo de F encima de F
0.0 0 0.0 0.0 93 100.0
9.95 5 5.4 9.95 88 94.6
19.95 22 23.7 19.95 71 76.3
29.95 61 65.6 29.95 32 34.4
39.95 83 89.2 39.95 10 10.8
49.95 91 97.8 49.95 2 2.2
59.95 92 98.9 59.95 1 1.1
69.95 92 98.9 69.95 1 1.1
79.95 92 98.9 79.95 1 1.1
89.95 93 100.0 89.95 0 0.0
núscula. Si querem os, podem os convertir las frecuencias efecti­
vas en p o rcen tajes. T endrem os ocasión de servim os d e las
distrib u cio n es cum ulativas en el capítulo v al calcular las m edia­
nas, así com o m ás ad elan te en el capítulo xiv.

IV.3. P resentación gráfica: histogram as, polígonos de frecuencia


y ojivas
H ay p erso n as que sienten re p aro en in te rp re ta r los cuadros y
que ca p ta n m e jo r los m ateriales presen tad o s en fo rm a gráfica

%
-43.0

-32.3

-21.5

-10.8

0 10 20 30 40 50 60 70 80 90 100
F ig . IV .l. H istogram a de intervalos iguales.

o visual. U no de los m odos m ás sencillos y útiles de p re se n ta r


los dato s de tal m an era que las diferencias e n tre las frecuencias
se d estaq u en fácilm ente consiste en servirse de figuras de áreas
o a ltu ra s p roporcionales a las frecuencias en cada categoría.
Puede, p o r ejem plo, u tilizarse u n a b a r ra p a ra re p re se n ta r cada
categoría, ind icando la a ltu ra de la m ism a s u m ag n itu d relativa.
Si la escala es nom inal, la ordenación efectiva de las b a rra s no
rev iste im p o rtan cia. P o r lo que se refiere a las escalas ordinales
y de in terv alo , las b a rra s pueden disponerse en s u p ro p io orden,
con lo q ue d an u n a b u en a indicación visual de la distribución
de la frecuencia. La fig u ra re su lta n te se llam a histogram a. La
frecu en cia ab so lu ta o la p roporción de los casos pueden indi­
ca rse a lo larg o de la ordenada, com o en la fig u ra IV .l.
H ay que o b serv ar que si las alturas de las b a rra s se tom an
com o p roporcionales a las frecuencias en cada intervalo de clase,
el c u a d ro visual puede re s u lta r confuso, a m enos q u e todos los
in terv alo s sean cerrados y d e am p litu d igual. Supóngase, p o r
ejem plo, q u e u n o de los intervalos cen trales h u b iera sido de
an cho 20 e n lu g ar de 10. E n co n traríam o s en consecuencia un
m ay o r n ú m ero de casos en el intervalo, y el re su lta d o sería
com o e n la fig u ra IV.2. Es obvio que si deseam os o b ten er un
h isto g ram a que re p resen te los datos en form a m ás adecuada,
debiéram os d a r a la b a rra la m ita d solam ente del alto, ya que he-

t %
40 -43.0

30 -32.3

20 -21.5

10 -10.8

0 --- --- --------1


t____i—
— ..... ,
—■■ -- ■
.
0 10 20 30 40 50 60 70 80 90 100
Fig. IV.2. H istogram a de intervalos desiguales y alturas
proporcionales a las frecuencias.
m os doblado el ancho y, en prom edio, hem os incluido u n doble
n ú m ero de casos en el intervalo m ay o r d e lo q u e sería el caso
en uno u o tro de los dos intervalos de tam añ o norm al. E sto nos
d aría u n h isto g ram a (véase figura IV.3) m ucho m ás sem ejante al

%
-43.0

-323

-21.5

-10.8

.... i ________ _ , _________1 j


0 10 20 30 40 50 60 70 80 90 100
Fig. IV.3. H istogram a d e intervalos desiguales y áreas
proporcionales a las frecuencias.
o btenido inicialm ente. Una breve reflexión nos convencerá de
que si hem os de p e n sa r en térm inos de áreas m ás que en altu ­
ras, podrem os m an ip u lar m ás fácilm ente los datos que com por­
tan intervalos desiguales. E n o tro s térm in o s: dejam os que las
áreas de los rectángulos sean proporcionales al n ú m ero de los
casos. E n el caso especial im p o rtan te en que todos los in terv a­
los sean de ancho igual, las altu ra s serán tam bién, p o r supuesto,
prop o rcio n ales a las frecuencias. Si el ancho de cada rectángulo
se to m a com o u n id ad y si las altu ra s se re p resen ta n com o p ro ­

f %
dnLdxn

1 i- i___ i________ u-« i


0 10 20 30 40 50 60 70 80 90 100
F ig . I V .4. Polígono de frecuencia.

porciones, entonces el á re a to ta l com prendida en el histo g ram a


será la un id ad . Así, p o r ejem p lo :

1(5/93) + 1(17/93) + 1(39/93) + .......... + 1(1/93) = 1

Al e stu d ia r la curva n o rm al en el capítulo v n , verem os que es


necesario' tr a ta r con áreas, antes que con a ltu ra s, y será conve­
n ien te to m a r el área to ta l b a jo el histo g ram a com o unidad.
O tro m odo m uy p arecid o de p re se n ta r g ráficam ente u n a dis­
trib u ció n de frecuencia es el del polígono de frecuencia. P ara
ob ten erlo , u nim os sim plem ente los p u n to s m edios de los lados
su p erio res de cada rectángulo p o r m edio de re ctas y b o rram o s
luego los rectángulos, com o e n la fig u ra IV.4. O bsérvese q u e los
p u n to s extrem os del polígono de frecuencia se h a n colocado so­
b re la lín ea b ase (e je h o rizo n ta l) en los p u n to s m edios de los
intervalos a uno y o tro lad o de los dos intervalos de los extre­
m os. N o rm alm en te n o nos serviríam os de los dos tipos de figu­
ras, p ero, su p erp oniendo el polígono de frecuencia sobre el h isto ­
gram a, vem os que el á re a delim itada p o r las dos figuras h a de
ser igual. E sto es así p o rq u e p o r to d o trián g u lo que queda al
in te rio r del polígono de frecuencia, p ero ex terio rm en te al h isto ­
gram a, hay u n trián g u lo idéntico debajo del histogram a, p ero
fu e ra del polígono d e frecuencia. Así, pues, podem os tam bién
co n sid erar com o u n id ad el á re a delim itada p o r dicho polígono.
Obsérvese, sin em bargo, q u e n o hem os hecho m ás q u e conectar
p o r m edio de re ctas cierto n ú m ero de puntos. Los puntos m is­
m os pu ed en re p re s e n ta r el n ú m ero de casos en cad a intervalo,
p ero hem os de guardarnos de in fe rir que hay cierto nú m ero de
casos en cu alq u ier o tro p u n to a lo largo del trazo continuo. Así,
p o r ejem plo, no hem os d e in fe rir que hay aproxim adam ente 28
casos con m arcas de 20 exactam ente.
Los polígonos de frecuencia pueden em plearse asim ism o p ara
re p re se n ta r d istribuciones de frecuencia cum ulativa. La figura

F %
93.00 -100 , , ' , -

69.75 -75 -------------,

46.50 -50 /

23.25 -25 /

0, —-"i i i
0 10 20 30 40 50 60 70 80 90 100
Fig. IV.5. Ojiva que representa una distribución d e frecuencia
acum ulativa.

q ue en ta l caso re su lta se designa com o ojiva. A lo largo de la


o rd en ad a o eje Y podem os in d icar frecuencias o porcentajes. Co­
locam os, en cam bio, las m arcas de la variable de escala de in­
tervalo a lo larg o del e je de las X (a b scisa), lo m ism o que
an terio rm en te, e n el b ien en tendido de que las frecuencias re­
p resen tad as in dican el n ú m ero d e casos de valor inferior al eje
de la X . P o r ejem plo, en la fig u ra IV.5 vem os q u e aproxim ada­
m en te el 75 % de las m arc as son m enores que 34. P or lo tanto,
las ojivas se pueden u s a r com o u n m étodo gráfico de determ i­
n a r el n ú m ero de casos p o r encim a o p o r deb ajo de u n cierto
valor. E s obvio que la fo rm a d e la ojiva h a b rá de se r siem pre
o creciente o decreciente según que se acum ule hacia a rrib a o
h acia ab ajo . La curva será, e n cam bio, horizontal e n los in te r­
valos vacíos. Si la distrib u ció n de frecuencia es del tip o de nues­
tro s datos anterio res, con el nú m ero m ayor de casos en los in te r­
valos que quedan cerca del cen tro de la distribución, la ojiva
te n d rá fo rm a de S, con la inclinación m ás rá p id a a proxim idad
de los in tervalos que contienen el m ayor nú m ero de casos.
Glosario
Datos continuos y datos discretos
Distribución cumulativa
Distribución de frecuencia
Polígono de frecuencia
Histograma
Ojiva
Límites verdaderos

E j e r c ic io s

1. Supóngase que las cifras a continuación representan los ingresos


anuales de un grupo de residentes de una localidad:

$ 2 760 $3 850 $ 3 340 $ 3 890 $ 2 860


4340 4 360 4350 11740 4 350
5210 2140 2610 3 560 7 310
3410 3330 8190 2740 3 550
4570 7 810 4250 7110 4210
9300 5 340 3 460 10300 5 490
3 320 2 970 19310 4440 2110
1790 4140 2 670 3 370 23 400
4560 3 000 3 100 5170 3 760
3 800 1610 5130 3160 4170
13 460 4 570 1710 2 800 6170
5 210 1940 4320 3180 2 350
2 690 2 780 9 830 4 240 8 340

a) Constrúyase una distribución de frecuencia y una distribución


cumulativa.
b) ¿Cuáles son los verdaderos límites?
c) Trácese un histograma, un polígono de frecuencia y una ojiva.
2. En un examen de tipos de visita entre amigos íntimos y parien­
tes, 81 interrogados son invitados a indicar el número de los amigos
y parientes que visitan por lo menos una vez al mes. Los resultados
son los siguientes (las cifras indican el núm ero efectivo de personas
regularmente visitadas):

3 5 2 3 3 4 1 8 4
2 4 2 5 3 3 3 0 3
5 6 4 3 2 2 6 3 5
4 14 3 5 6 3 4 2 4
9 4 1 4 2 4 3 5 0
4 3 5 7 3 5 6 2 2
5 4 2 3 6 1 3 16 5
3 11 4 5 19 4 5 2 2
4 3 14 5 2 1 4 3 4

a) Constrúyase una distribución de frecuencia y una distribución


cumulativa.
b) Justifiqúese lo m ejor que se pueda la elección de los intervalos.
c) Trácese un histograma, un polígono de frecuencia y una ojiva.

3. Indíquense los límites verdaderos en cada uno de los siguientes


intervalos:
a) 1000 — 1900 c) 1.000— 1.999 (Respuesta,
2000 — 2 900 2.000 — 2.999 0.9995 — 1.9995)
b) 1000 — 1 999 d) .010— .019
2000 — 2 999 .020— .029
¿Qué se ha supuesto en cada uno de los casos a propósito del méto­
do de redondeo?

B ibliografía

1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2- edv


Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 4.
2. Downie, N. M. y R. W. H eath : Basic Statistical Methods, 2' ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 3.
3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, caps. 4 y 5.
4. McCollough, C., y L. van A íta: Introduction to Descriptive Statis­
tics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 1.
5. Mueller, J. H., K. Schuessler y H, L. Costner: Statistical Rea-
soning in Sociology, 2‘ ed. Houghton Mifflin Company, Boston,
1970, cap. 4.
6. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 5.
V i m o s que las escalas nom inales pueden resu m irse fácilm ente en
térm inos de porcen tajes, proporciones o razones, y que dichas
m edidas de resum en son fundam entalm ente intercam biables. En
o tro s térm in o s: b asta u n tipo determ inado de m edida p a ra des­
c rib ir los datos. E n el caso de las escalas de intervalo, a su vez,
vimos que los datos pueden describirse p o r m edio de u n a distri­
bución de frecuencia. Podem os servirnos tam bién de tipos dis­
tin to s de m edidas, siendo las m ás im p o rtan tes de ellas las de
tipism o o de tendencia central y las de heterogeneidad o dis­
persión. Verem os que existe en cada caso cierto núm ero de m e­
didas d istin tas e n tre las que podem os elegir, cada u n a de las
cuales reú n e propiedades, ventajas e inconvenientes aigo diferen­
tes. P o r lo tan to , el resu m en de las escalas de intervalo es algo
m enos directo que en el caso de las nom inales. E n el p resen te
capítulo nos ocupam os de las m edidas de tipism o, en ta n to que
en el siguiente exam inarem os las de dispersión. Tom ados ju n ­
tos, dichos dos tipos de m edidas re su ltarán norm alm ente ade­
cuados p a ra la descripción de los datos de escala de intervalo.
La idea que tiene el lego a p ropósito del térm in o prom edio pro­
pende a ser m ás bien vaga o am bigua. E n efecto, puede n o darse
cu en ta de que existen varias m edidas diversas del tipism o y que,
en d eterm inadas circunstancias, dichas m edidas dan resultados
m uy d istintos. El hecho de que sea posible o b ten er tales m edi­
das diferen tes de tendencia central supone que es necesario
co m p ren d er las v en tajas y los inconvenientes de cada u n a de
ellas. Im p o rta, pues, sab e r en cuáles circunstancias cada u n a
sea adecuada. ¿P o r qué la Oficina del Censo indica ingresos m e­
dianos y n o ingresos m edios? ¿T endría algún sentido in d icar al
lego que la fam ilia "m ed ia” tiene 2.3 hijos y vive en u n a casa de
4.8 cu arto s? ¿E n cuáles circunstancias es de poca im portancia
la m ed id a que se em plee? É stas son algunas de las num erosas
cuestiones que p o d rían p lan tearse acerca del tip o de prom edio
que hem os de calcular.

V .l. La m edia aritm ética


H ay dos m edidas im p o rtan tes de tendencia cen tral em pleadas en
la investigación sociológica: la m edia aritm ética (designada a
continuación sim plem ente com o m e d ia ) y la m ediana. La m edia
es con m ucho la m ás com ún de las dos y se define com o la sum a
de las m arcas dividida p o r el núm ero to tal de los casos com pren­
didos. P a ra in d icar la m edia se utiliza p o r convención el sím bolo
67
X, au n q u e a veces se em plee tam b ién la le tra M. P o r lo tanto,
la fó rm u la de la m ed ia aritm é tic a es la sig u ie n te :
N
2 X'
—■ X-± -V*X%“1"..........
x = — ------- — ----------------- — = ------------- ' ( V .l )
N N

en la que X x re p re se n ta la p u n tu ació n del p rim e r individuo, X 2


la del segundo, y X t la del individuo general.1 Si no existe am bi­
güedad, podem os p re sc in d ir de los subíndices y e sc rib ir sim ple­
m en te

- 2X
X = -------
M

en donde se en tien d e que to d as las cantidades se sum an.


La m ed ia posee la p ro p ied a d algebraica de que la sum a de las
desviaciones de cada m arc a con re sp ecto a la m ed ia será siem ­
p re cero. S im bólicam ente esto pu ed e exp resarse m ed ian te la
ecuación sig u ien te:

2 (X «-X ) = 0
«=*i

E ste hecho n o h a de so rp re n d e r en absoluto si tenem os e n cuen­


ta la definición de la m edia. La p ru e b a es sencilla. Como quiera
que tenem os u n a sum a de n ú m ero s cada u n o de los cuales, es
en realidad, u n a diferencia, podem os descom poner la expresión
in d icad a en la diferencia d e dos sum as. E n la siguiente fo rm a :

y — » y _
2 (Xt - X ) = 2 Xt - 2 X
<=*1 1=1 i= 1

Pero, com o q u iera que X es u n a constante, ten em o s:


N
2 X*
& _ _ i=l N
.2 X = N X = N ------------ = 2 X*
í= i JV C i 1

y vem os in m ed iatam en te que la d iferencia es cero.


La p ro p ied ad m encionada p u ed e u tilizarse p a ra sim plificar el

1 Para el examen de la notación de adición véase el Apéndice I.


cálculo de la m edia. Supóngase, p o r ejem plo, que hem os de
calcu lar la m edia de los n úm eros 72, 81, 86, 69 y 57. S um ando
y dividiendo p o r cinco obtenem os u n a X — 73.0. Si sustraem os
ah o ra esta m edia de cad a u n a de las cifras y adicionam os los re ­
siduos, verificam os que la su m a re su lta n te es cero.

X X-73 X-70
72 - 1 2
81 8 11
86 13 16
69 - 4 - 1
57 -1 6 -1 3

0 15

Supóngase, en cam bio, que hubiéram os an ticip ad o u n a m edia


de 70 y la hu b iéram o s re sta d o de cada u n a de las cifras en cues­
tión. E ntonces la su m a re su lta n te n o es cero, sino que observa­
m os q ue cada u n a de las nuevas diferencias es m ayor en tre s
u n id ad es (e n dirección positiv a) que las diferencias originarias.
Vem os así q ue hem os an ticip ad o u n a m ed ia que es dem asiado
p eq u eñ a en tre s u n idades. Si añadim os a h o ra u n fa c to r de co­
rrecció n de tre s a la m edia anticipada, obtenem os la m edia correc­
ta. E n la p ráctica, sin em bargo, no co m p araríam o s los dos ju e ­
gos de diferencias e n esta form a, sino que, observando q u e la
su m a del segundo g ru p o de diferencias es de + 15 y sabiendo
q ue h ay cinco térm in os, e sto indica que en pro m ed io estábam os
de 15/5, o sea 3.0 u n idades, p o r deb ajo de la m ed ia verdadera.
Y com o pued e v erificarse fácilm ente, si h u b iéram o s anticipado
u n v alo r dem asiado alto, entonces la su m a de las diferencias
h a b ría sido negativa, y hubiéram os debido su stra e r de la m edia
an ticip ad a p a ra o b ten er la correcta. Si X' re p resen ta la m e­
dia anticip ad a, podem os estab lecer u n a fó rm u la de la m edia en
térm in o s d e la m edia su p u esta y de u n fa c to r de corrección:

1 ( X i - X ’)
X = X ’ + — ----------------- ( V.2)
N
o bien, en p a la b r a s :

la suma de desviaciones de ésta


La media verdadera = a la media supuesta + --------------------------------------------.
número de casos
Con o b jeto de verificar la corrección de esta fórm ula desarrolla­
m os la expresión de la derecha y o b te n e m o s:
N N _
S xt 2 X'
i=i i=i
X' + - •= X ' + -
iV JV Af
N
2 X*
t=i NX’
= X' + -
A? N
N
2 Xi
i= l
■= x
“ ÁT

Pese a que p u ed a p arece r que nos hayam os to m ad o m ucha


m olestia calculando X p o r rodeo en esta form a, este m étodo p er­
m ite sin em bargo ah o rra rse a m enudo u n a considerable cantidad
de tra b a jo cuando no se dispone de calculadoras de escritorio.
E l em pleo de u n a m edida an ticip ad a p erm ite p o r lo re g u lar re ­
d u cir la m ag n itud de los núm eros que h a n de adicionarse. En
efecto, cu an to m ás cerca quede la m edia su p u esta de la verda­
dera, ta n to m en ores serán en m agnitud las diferencias resu ltan ­
tes. E ste p rin cipio nos será p artic u la rm en te ú til cuando em pren­
dam os el cálculo de las m edias de datos agrupados.
O tra p ro p ied ad de la m edia puede fo rm u larse com o sigue: la
sum a de las desviaciones cuadradas d e cada cifra con respecto
a la m edia es m en o r que la sum a de las desviaciones cuadradas
con resp ecto a cualquier o tro núm ero. O en o tro s té rm in o s :

2 (Xi ~ X ) 2 = m ínim o.
i= l
* La p ru eb a de esta propiedad es m uy sencilla. C onsiderem os
las desviaciones de X t alrededor de cualquier o tro n ú m ero X ' que
previam ente hayam os tra ta d o com o m edia anticipada. S um ando
y re sta n d o la m edia real X de cada u n a de dichas expresiones
podrem os a n o ta r :

Xi - X ' = ( X í - X ) + ( X - X ' )

Elevando los dos térm inos al cu ad rad o obtenem os:

(X i - X' ) s = ( X t - X )2 + 2( Xi - X ) ( X - X ’) + ( X ~ X ’)2

R esum iendo p a ra todos los casos N o b te n d re m o s:


2 ( X i - X ') 2 ^ 2 ( X i - X p
í= i i= i

+ 2(X — X ') 2 ( X * - X ) + 2 ( X - X ' ) 2


í = i i= i

en do n d e h a sido posible esc rib ir la ca n tid a d 2(X — X ') fre n te al


signo d e su m ar en el segundo térm ino, ya q u e se tra ta de u n a
co n stan te. In m ed iatam en te verem os que to d o el segundo térm in o
N
debe s e r igual a cero, pues acabam os de m o s tra r que 2 ( X¿ —
_ i= l
X ) = 0. P o r o tra p a rte , el últim o térm in o co n sta de N térm inos,
to d o s iguales a (X — X ')2. T endrem os p o r ta n to

2 2 (X j — X )2 + N ( X — X ')2
i=i <=i

y así se co m prueba que la sum a de las desviaciones a lre d ed o r de


X ' al cu a d rad o es igual a la su m a de las desviaciones alred ed o r
de la m ed ia verd adera, al cuadrado, m ás u n té rm in o al cuadrado
que n u n ca pu ed e s e r negativo.
C uanto m ás g ran d e sea la diferencia e n tre X ' y X, ta n to m ayor
será el segundo térm in o situ ad o a la derecha.
T endrem os frecuentes ocasiones p a ra u tiliza r e sta p ro p ied ad
¡v _
de los cu ad rad o s de la m edia, y la ca n tid a d 2 (X* — X )2 h a b rá de
t= i
a p a re c e r en g ran p a r te d e lo que sigue, com o u n a m edida de la
variación to ta l o heterogeneidad.

V.2. La m ediana
A m en u d o necesitam os localizar la posición del caso m edio cuan­
do los d ato s se h a n o rd e n ad o de m ay o r a m enor. O podem os
d iv id ir u n g rupo de estu d ian tes en p o rc en tajes localizando los in­
dividuos q ue tienen exactam ente el 10 p o r ciento de la clase que
q u ed a d eb ajo de ellos, ex actam ente el 32 p o r ciento d eb ajo de
ellos, etcétera. Las m ed id as de este tip o se designan a m enudo
com o m ed id a s de posición, ya que localizan la posición de algún
caso típ ico (o atípico) en relación con o tro s individuos. La m e­
d ian a es ta l vez la m ás im p o rta n te de estas m edidas de posición.
D efinim os la m ed ian a com o u n núm ero que posee la pro p ied ad
d e te n e r el m ism o n ú m ero de m arcas con valores m enores que
las que h ay de valores m aypres. La m ed ian a divide h ab itu alm en ­
te el to ta l de los datos en dos m itades. Si el n ú m ero de los ca­
sos es im p ar, la m ed ian a será sim plem ente la m arca del caso
del m edio. Si N es p ar, no h a b rá caso cen tral y, de hecho, cual­
q u ier n úm ero e n tre los valores de los dos casos centrales ten d rá
la p ro piedad de dividir las m arcas e n dos grupos iguales. Así,
pues, si N es p ar, la m ediana queda definida am biguam ente. Por
convención tom am os entonces com o valor único de la m ediana
la m edia aritm ética de los dos datos centrales.
Si tuviéram os los núm eros 72, 81, 86, 69 y 57, la m ediana sería
72 (e n ta n to que la m edia es 73). Si h u b iera u n sexto térm ino,
digam os, p o r ejem plo, 55, las dos m arcas centrales serían 69 y 72,
y tom aríam os com o m ediana (69 + 72)/2, o sea 70.5. Si se da el
caso de que los dos casos centrales tengan la m ism a m arca,
la m ediana será, p o r supuesto, este m ism o dato. O bsérvese que
si N es im par, la m ediana será el dato (N + l) /2 . Si el núm ero
de los datos es p ar, la m ediana se en c o n trará en el ce n tro e n tre
el dato N /2 y el d ato (N + l)/2 . Así, p o r ejem plo, si N = 251, la
m ediana será el dato del caso centésim o vigésim o sexto, y si
N = 106, tom am os u n valor m edio e n tre las cifras de los casos
quincuagésim o terc ero y quincuagésim o cuarto. E stas fórm ulas
re su ltarán ú tiles p o r lo re g u lar cuando N sea relativam ente
grande.
Vimos que la m edia posee las propiedades sig u ien tes:

S (X í - X ) = 0
i= l
y
1 (X t —X )2 = m ínim o.
i=l
La razón de que la p rim e ra pro p ied ad se verifique es fundam en­
talm en te que, cuando se su strae la m edia de cada u n o de los
datos, las diferencias resu ltan tes son tales que las m arcas nega­
tivas se eq u ilib ran exactam ente con las positivas. P ero supóngase
que h ubiéram os prescindido p o r com pleto de los signos, consi­
deran d o to d as las diferencias com o positivas, ¿qué o c u rrirá en
este caso? P uede d em o strarse que si se h u b iera re sta d o la m e­
diana de cada u n a las m arcas prescindiendo del signo de las di­
ferencias y sum ando los residuos, se o b ten d ría u n a sum a m enor
que la cifra co m parable de cu alq u ier o tra m edida de tendencia
central. E n sím bolos esto se expresa a s í :
y
2 |Xi —M d | = m ínim o
<=i
en donde M d re p resen ta la m ediana y las b a rra s a am bos lados
de la expresión (X i — M d ) indican q u e hay que to m a r el valor
positivo (o "ab so lu to ” ) de cada diferencia. A unque esta p ro p ie­
d ad de la m ediana posea ta l vez algún interés, n o parece, sin em ­
bargo, te n e r aplicaciones directas de alguna significación socio­
lógica.

V.3. Cálculo de la m edia y la m ediana de datos agrupados


M étodo largo para el cálculo de la m edia. C uando el nú m ero de
datos se hace gran de y los cálculos se realizan a m ano, el com pu­
ta r la m ed ia o la m ediana puede re su lta r tedioso. La m ayoría
de los científicos sociales cu en tan con p rogram as de com putación
q ue resuelven estos y o tro s cálculos con facilidad. E n general
re su lta p referib le u tiliza r tales program as cuando así parece con­
veniente, pues así dism inuyen los riesgos de in c u rrir en e rro res
de com putación y redondeo, a la vez que se obtiene u n a econo­
m ía considerable e n tiem po y dinero. Debe, sin em bargo, conocer­
se el p rocedim iento p a ra co m p u tar varias m edidas sin re c u rrir
a tales pro g ram as, ya que con frecuencia re su lta inconvenien­
te d isp o n er los datos en fo rm a adecuada p a r a su m an ejo p o r
co m p u tad o ras rápidas. E n tales casos re su lta ú til a g ru p ar los da­
tos p o r categorías, com putando la m edia o la m ediana, tom ando
com o base las re su ltan te s distribuciones de frecuencias. E n oca­
siones se tr a ta de datos que nos son dados ya en fo rm a agrupada,
pud ien d o re su lta r im posible o inconveniente re g re sa r a los datos
originales p a ra p ro ced er a su com putación. Un ejem plo de da­
tos en grupos lo constituyen los censos. P or ellos sabrem os que
hay cierto n ú m ero d e p ersonas con edades d e 0 a 4 o d e 5 a 9
años, p e ro desconocerem os la edad exacta de cad a individuo.
Como verem os m ás abajo, el em pleo d e los datos agrupados
puede sim plificar n u e s tra la b o r considerablem ente. Pero, p o r o tra
p arte, al agru p arlos en categorías, perdem os sin poderse evitar
inform ación. Podem os sa b e r solam ente, p o r ejem plo, que hay
17 p erso n as con ingresos e n tre $ 2 000 y $ 2 900, p ero n o sabem os
cóm o se h allan d istrib u id as exactam ente en el in te rio r de dicho
intervalo. Con o b jeto de calcu lar la m edia o la m ediana de tales
datos agrupados, hem os d e p ro c ed er a h a c e r ciertos supuestos
sim plificadores acerca de la posición de los individuos en el in te­
rio r de cad a categoría. E n el caso de la m edia, tra ta re m o s todos
los casos com o si se h allaran concentrados en los p untos m edios
de sus in tervalos respectivos. Y al calcular la m ediana supon­
drem os que aquéllos se h allan esparcidos a distancias iguales en
el in te rio r de cada intervalo. P o r supuesto, esas sim plificaciones
llevan a p a re ja d a c ierta inexactitud. E n efecto, no podem os es­
p e ra r o b ten er en esta fo rm a exactam ente los m ism os resu ltad o s
que nos p ro p o rcio n arían los datos b ru to s. Pero, p o r o tra p arte ,
si el n ú m ero de datos es grande, las distorsiones introducidas
s e rá rrp o r lo re g u la r insignificantes y com pensarán so b rad am en te
el ah S rro de tiem po. Es obvio, p o r lo dem ás, q u e cuanto m ás an ­
gostos sean los intervalos, ta n to m enos inform ación perderem os
y tan to m ay o r será la exactitud. Así, p o r ejem plo, si sabem os que
hay 17 casos e n tre $ 2 000 y $ 2 900 y 26 casos e n tre $ 3 000 y $ 3 900,
podem os o b ten er resu ltad o s m ás exactos im aginando que los 17
casos se h allan en el p u n to m edio del p rim e r in terv alo y los
26 en el p u n to m edio del segundo, que si hu b iéram o s de situ ar
los 43 casos ju n to s en el p u n to m edio del in terv alo m ay o r de
$ 2 000 a $ 3 900. E stas sim plificaciones tienen m ayores pro b ab i­
lidades de co n d u cir a e rro re s en el caso de intervalos extrem os,
ya q ue los d ato s de dichos intervalos pueden re s u lta r desviados
hacia el ce n tro de la distrib u ció n to tal. E n e s ta form a, si hay
17 casos en el in terv alo m ás bajo , la m ayoría de ellos pueden
e n c o n trarse en la m ita d su p erio r del m ism o. Sin em bargo, si el
n ú m ero de los individuos e n dichos intervalos extrem os es m uy
pequeño, com o suele suceder, es p ro b a b le que la d isto rsió n in tro ­
ducida sea insignificante.
De ah í q u e al calcu lar la m edia de datos agrupados tratem os
todos los casos com o si estuvieran situ ad o s e n el p u n to m edio
de sus in tervalos respectivos. Si lo p refiriéram o s, podríam os su­
ponerlos esparcidos a distancias iguales en el in te rio r del in te r­
valo, pero, com o es fácil verificar, esto conduciría a los m ism os
resu ltad o s, ya que la m edia de cada in terv alo q u ed a ría exactam en­
te en el p u n to m edio del m ism o. Como q u iera que todos los ca­
sos de u n in terv alo se tra ta n com o si tu v ieran el m ism o valor,
podem os m u ltip licar el n ú m ero de casos de cada in terv alo p o r
su v alo r com ún, en lu g ar de ad icio n ar los datos separadam ente.
Así, p o r ejem plo, si hem os colocado 26 casos a la a ltu ra del valor
d e 3 450, el p ro d u c to de 26 X 3 450 se rá igual a la su m a de 26
m arcas sep arad as de 3 450 cada una. Y si hacem os esto con to­
dos los intervalos, sum am os los p ro d u cto s y dividim os e n tre el
n ú m ero to ta l de casos, ob ten d rem o s la m edia aritm ética. La
fó rm u la de ésta se convierte e n ta l caso e n :
fc Te
2 fitr ii 2 /¡Mj
__ 4=1 i= 1
X = ---------------------------------- (V.3)
N 2n

en la q ue /¡ = n ú m ero de casos de la categoría ¿-ésima con 2 / t=A/


m{ = p u n to m edio de la categoría í-ésima
k = n úm ero de las categorías.

E l ejem plo expuesto en el cu ad ro V .l a c la rará el proceso.


E n el cu ad ro V .l todos los intervalos son de la m ism a am pli­
tu d . E sto no es esencial, a condición q ue se em pleen puntos m e­
dios correctos. S in em bargo, es necesario servirse de intervalos
cerrados. Supóngase, en efecto, que el últim o intervalo hubiera
sido de $ 7 000 p a ra arrib a . ¿Qué p u n to m edio tom aríam os? No
poseem os abso lu tam ente base alguna qué nos p e rm ita juzgar, a
m enos que nos rem ontem os a los datos originales. Algunas ve­
ces esto resu lta posible, ya que las categorías extrem as sólo com ­
p ren d en a m enudo relativam ente pocos datos. E n éstos re su lta
p o r lo re g u lar m ás lógico servirse de la m ed ia real de los datos

Cuadro V .l. Cálculo de la m edia de datos agrupados por el


m étodo largo

Puntos medios
Límites fijados Límites verdaderos ft fimi
("«i)
$2000-2 900 $ 1 950-2 950 $2450 17 $ 41650
3 000-3 900 2 950-3 950 3 450 26 89700
4 000-4 900 3 950-4 950 4 450 38 169100
5000-5900 4 950-5 950 5450 51 277 950
6000-6 900 5950-6950 6450 36 232 200
7 000-7 900 6 950-7 950 7 450 21 156450
Totales 189 $967050

2 /„«,
967050
X = - = $5117
~Ñ 189

de la categoría ex trem a que del p u n to m edio de algún intervalo


m ayor. E n los casos en que n o re su lta posible rem o n tarse a los
datos originales, será necesario ad o p ta r u n supuesto razonable
en relación con el v alor del p u n to m edio. De ah í que sea decidi­
d am en te m ás ventajoso p a ra nosotros servirnos de intervalos
cerrad o s siem pre que h ay a de calcularse u n a m edia. Según ve­
rem o s en el cap ítulo vi, esto se aplica asim ism o al cálculo de la
desviación están dar, la m edida m ás com únm ente em pleada de
dispersión.
M étodo corto para el cálculo de la m edia. El m étodo a rrib a in­
dicado co m p o rtará p o r lo re g u lar la m ultiplicación de núm eros
b a sta n te grandes (v.gr., 2 450X 17), a m enos que re su lte que los
p u n to s m edios son n úm eros sim ples. Con u n a calculadora m o­
d e rn a dichos p ro d u cto s pueden calcularse y acum ularse fácil­
m ente. Pero, si los cálculos h an de h acerse a m ano, existe un
m edio m u ch o m ás sencillo de calcular la m ed ia de datos agru­
pados. E ste m étodo, llam ado "co rto ”, parece a p rim e ra vista com ­
p o rta r m ás tra b a jo que el "largo", pero, u n a vez dom inado, se
revela com o m ucho m ás sencillo que el otro. F undam entalm ente,
el m éto d o co rto consiste en an ticip ar u n a m edia y servirse en
e sta fo rm a de n ú m eros m ás pequeños en la m ultiplicación. Lue­
go se añade, com o an terio rm en te, u n fa c to r de corrección a la
m edia supuesta.
Con o b jeto de sim plificar n u estro s cálculos, tom em os com o
m edia an ticip ad a el p u n to m edio de u n o de los intervalos. E n el
ejem p lo a rrib a tra ta d o podem os v er p o r inspección que la m edia
será algo in ferio r a $ 5 450, p u n to m edio del c u a rto intervalo. La
v en taja de serv irn o s de u n p u n to m edio com o m edia su p u esta es
obvia. E n efecto, todos los dem ás datos e starán en ta l caso a
cierto n ú m ero de intervalos de distancia de la m edia supuesta,
ya que cad a m arc a se supone h allarse en u n o u o tro de los puntos
m edios. Si restam o s ah o ra la m edia su p u esta de cad a u n a de las
m arcas, o b ten d rem os diferencias de exactam ente $ 1 000, $ 2 000
o $ 3 000 en am b as direcciones. M ultiplicam os luego esas diferen~
d a s p o r las frecu encias ap ro p iad as p a ra o b ten er el fa c to r de
corrección q u e h a de añ ad irse a la m edia anticipada. E n o tro s
térm inos, h a b rá 17 casos con m arc as de exactam ente $ 3 000 m e­
nos que aq u élla; h a b rá 26 casos con u n a diferencia de $ 2 000,
etcétera. Si nos servim os de u n a colum na di que re p re se n te la
diferencia e n tre las m arcas efectivas y la m edia anticipada, p o d e­
m os m o d ificar la fó rm u la (V.2) y esc rib ir la fó rm u la de la m edia
com o sigue:
¿ fA
x = r + _ LL— ( v .4)
N
donde
di = X t - X '
y podem os d isp o n er n u estro s cálculos en u n cu ad ro com o en el
cu ad ro V.2. Una vez m ás, el fa c to r de corrección se obtiene to ­
m an d o la desviación to ta l con re sp ecto a la m ed ia an ticip ad a
(a q u í —63 000) y después dividiendo e n tre el n ú m ero de casos, lo
q ue d a la ca n tid ad prom edio en que la m edia an ticip ad a se sepa­
ra de la verdadera.
E n este ejem plo, el fa c to r de corrección h a re su lta d o se r ne­
gativo, in dicando que la m edia an ticip ad a e ra dem asiado grande.
H ay que o b serv ar que si hubiéram os an ticip ad o p a ra la m edia
o tro v alo r cualquiera, h ab ríam o s llegado al m ism o resu ltad o . Si
se elige com o m ed ia an ticip ad a el p u n to m edio de te rc e r in te r­
valo ($ 4 4 5 0 ), el fa c to r de corrección es de $667, el cual, adicio­
nado a $ 4 450 d a el re su ltad o correcto. Dicho sea de paso, esto
constituye u n m edio de control m uy ú til de n u e s tra lab o r. Ob­
sérvese que si h u b iéram os elegido el p u n to m edio d e cualquier
o tro intervalo, h ab ríam o s realizado m ás trab a jo , y a q u e los n ú ­
m eros a su m a r en la colum na /td4 h a b ría n sido n u m éricam ente
m ayores. Y si h u b iéram os fallad o en serv im o s de u n p u n to m e­
dio, las desviaciones resp ecto de la m edia su p u esta h ab ría n com ­
p o rta d o n ú m ero s m ucho m enos sim ples, con lo que n o nos
h ab ríam o s a h o rrad o tra b a jo alguno. U na vez que el proceso se
h ay a com prendido bien, es posible o m itir en el cu ad ro de cálculo
la colu m n a de los p u n to s m edios.
E l lecto r h a b rá sin d u d a observado que cada u n a de las desvia­
ciones resp ecto de la m edia p re su n ta del ejem plo a n te rio r es un

Cuadro V.2. Cálculo de la m edia de datos agrupados p o r el


m éto d o corto

Limites Puntos
verdaderos medios n ¿i fA

$1950-2950 $2450 17 $ - 3 000 $ -5 1 0 0 0


2950-3 950 3 450 26 - 2 000 -5 2 0 0 0
3 950-4950 4 450 38 -1 0 0 0 - 3 8 000
4 950-5950 5450 51 0 0
5950-6950 6450 36 1000 36 000
6 950-7 950 7450 21 2 000 42 000
Totales 189 $ - 6 3 000
le
2 fA
— _ «—1

X = * ' i+---
=A -—
N
-6 3 0 0 0
= 5450 + „ = 5 450 333
189
= $5117

m ú ltip lo exacto de 1 000, o sea la m agnitud del intervalo utilizado.


E sto será siem pre así, a condición que todos los intervalos ten ­
gan la m ism a am plitud. P o r lo tan to , podem os p o n e r la am p litu d
del in terv alo com o fa c to r en cada u n o de los p ro d u cto s fA> m ul­
tip lican d o p o r d icha a m p litu d u n a vez te rm in a d a la adición. E n
o tro s té rm in o s : pudim os h a b e r obtenido la su m a de — 63 000 de
la m an era sig u iente:
- 63 000 = 1 000( — 51 - 52 - 38 + 0 + 36 + 42).

En lo que equivale a lo m ism o, pudim os h a b e r expresado las


desviaciones originales en té r m inos del n ú m ero de intervalos (o
“ desviaciones g ra d u an tes” ) resp ecto de la m edia supuesta. P or
lo tan to , d eterm inam os cu án to s intervalos d ista la m edia supues­
ta de la v erd ad era y, finalm ente, tran sp o rta m o s la m agnitud del
e rro r h acia a trá s a las unidades originales, m ultiplicando este
fa c to r de corrección p o r la m agnitud del intervalo. Designando
la desviación en am plitudes de intervalo com o d', podem os re ­
visar n u e stro cu ad ro en la fo rm a indicada en el cu ad ro V.3.
Si se han em pleado interválos desiguales, h a b rá que m odificar
esta segunda fó rm ula del m étodo breve. A algunas personas les
p arece rá m ás fácil re m o n ta rse al m étodo an terio r, sirviéndose

Cuadro V.3. Cálculo de la m edia de datos agrupados p o r el m étodo


corto y de las desviaciones graduales

Límites Puntos medios


verdaderos U *i U*i

$ 1 950-2 950 $2 450 17 -3 -5 1


2 950-3 950 3 450 26 -2 -5 2
3 950-4 950 4 450 38 - 1 -3 8
4 950-5 950 5 450 51 0 0
5 950-6 950 6450 36 1 36
6 950-7 950 7 450 21 2 42
Totales 189 -6 3

La fó rm u la m odificada es a h o ra :

A udi
X = X ' + _1JL----- i (V.5)
N
en donde i re p resen ta la am p litu d de intervalo. P or co n siguiente:

X - 5 450 + 1 000 = 5 117


189
de d t en lugar de d \ y escribiendo las diferencias efectivas en
las u n id ad es originales. Y alternativam ente, si sólo difieren del
re sto en cuanto' a am p litu d u n o o dos intervalos, podem os to m ar
com o am p litu d i de in terv alo la am p litu d de la m ayoría de los
intervalos de clase. Las desviaciones de los p u n to s m edios de
los intervalos re sta n te s resp ecto de la m edia su p u esta pueden
en este caso ex presarse en fo rm a de fracciones de los interva­
los enteros. Así, p o r ejem plo, si el últim o intervalo h u b iera sido
de $ 6 950 a $ 8 950, en lu g ar de $ 6 950 a $ 7 950, entonces el p u n to
m edio h a b ría sido $ 7 950 en lu g ar de $ 7 450. P o r lo tanto, la
desviación resp ecto de la m edia p re su n ta h a b ría sido de $ 2 500,
o sean 2.5 am p litudes de intervalo. Si el intervalo h u b iera ido
h a sta $ 9 950, el v alor d \ h u b iera sido de 3.0, según se deja com ­
p ro b a r fácilm ente.
Cálculo de la m ediana. Al calcular la m ed ian a de datos agru­
pados, tra ta re m o s todos los casos al in te rio r de u n intervalo dado
com o si estuvieran d istribuidos a distancias iguales en el m ism o.
Localizam os p rim ero el intervalo que contiene el caso m edio,
e interp o lam o s luego p a ra en c o n trar la posición exacta de la
m ediana. Al d eterm in a r el intervalo que contiene a ésta, es p o r

C uadro V.4. Cálculo de la m ediana de datos agrupados

Límites verdaderos F Ni de casos


í inferiores a
11 950-2 950 17 17 $2950
2 950-3 950 26 43 3 950
3 950-4950 38 81) (4950
4 950-5 950 51 132) 15 950
5 950-6 950 36 168 6950
6 950-7950 21 189 7 950
Total 189

lo re g u la r conveniente o b ten er la distrib u ció n de frecuencia


acum ulativa. Pese a que no es absolutam ente necesario, es p re­
ferib le ac o stu m b ra rse a disponer p o r e sc rito la distribución
acu m u lativ a com pleta y a in d icar en u n a colum na sep arad a el
significado de cada u n a de las cifras de dicha colum na (F ). La
d istrib u ció n acum ulativa de los datos an terio res se da en el cua­
d ro V.4. A títu lo de co n tro l de n u e stra adición, observam os que
todos los 189 casos h a n de q u ed a r p o r d eb a jo de $ 7 950.
A continuación localizam os el intervalo q u e contiene el dato
m edio o él JV/2-ésimo. Aquí es 189/2 = 94.5, de m odo que busca­
m os el in terv alo que contenga los casos nonagésim o c u a rto y
nonagésim o quinto. O bsérvese que, si los datos n o h u b iera n es­
ta d o agrupados, h ab ría m o s localizado el d ato (N + l)/2-ésim o,
o sea el nonagésim o quinto. La razón de esta inconsecuencia
ap a ren te se ex am in ará m ás abajo. Como q u iera que hay 81 ca­
sos p o r deb ajo de $ 4 950 y 132 p o r debajo de $ 5 950, la m ediana
h a de q u ed a r en algún lu g ar del in terv alo que va de $ 4 950 a
$ 5 950. C onstituye u n b u en p rocedim iento m a rc a r dicho in te r­
valo con Un p arén tesis, y a que se d a a veces la tendencia de leer
los dato s a p a r tir de la cifra 81, con lo que se obtiene el intervalo
incorrecto' de $ 3 950 a $ 4 950.
E xam inem os ah o ra m ás de cerca el intervalo que contiene la
m ediana. H ay en éste 51 casos y, en consecuencia, habrem os
de d iv id ir el in terv alo e n tero en 51 subintervalos de am plitud
$ 1 000/51, o $49.61 cada uno. S ituam os cada uno de los 51 casos
en el p u n to m edio de su subintervalo propio. El caso octogésim o
p rim ero q u ed a rá así situ ad o en el últim o sub in terv alo del in ter­
valo de $ 3 950 a $ 4 950, y el caso 132-avo será sólo ligeram ente
in ferio r al lím ite su p erio r del intervalo que contiene la m ediana.
Ahora procedem os sim plem ente a c o n ta r subintervalos h asta
lleg ar a aquélla. Si los datos no estuvieran agrupados, h ab ría­
m os localizado la m arc a del caso (N + \ )/2, o sea el nonagésim o
quinto. De acuerdo con n u e stra convención, dicho caso se situa­
ría en el p u n to m ed io del decim ocuarto subintervalo o, exacta­
m ente, a 13.5 subintervalos del lím ite in ferio r del intervalo. Ob­
sérvese que este m ism o valor se h u b iera obtenido re sta n d o 81

81 94.5 132
-----J | +H I I I I l-l H I I | l | -------------------------------- ■---------------- I !
4,950 5,950
de 94.5 o N /2 . Es p o rq u e estam os operando con p u n to s m e­
dios de in tervalos pequeños que contam os exactam ente N /2
intervalos, con o b jeto de localizar la posición del caso {N + l)/2 .
El v alo r de la m ed ian a pu ed e ah o ra o b ten erse m ultiplicando
sim plem ente el n ú m ero de subintervalos ab arcad o s p o r la m ag­
n itu d de cada u no de ellos y añadiendo el re su lta d o al lím ite
in ferio r del intervalo. E l procedim iento co n ju n to pu ed e resu­
m irse en la fó rm u la siguiente:

N /2 — F
M d = t + -------------- i (v .6 )

en la que F = frecuencia acum ulativa co rresp o n d ien te al lím ite


in ferior,
/ = n ú m ero de casos del intervalo q u e contiene la me-
diana,
l = lím ite in ferio r del intervalo q u e contiene la m e­
diana,
i = am p litu d del in terv alo que contiene la m ediana.
La can tid ad i / f re p resen ta la m ag n itu d de cada subintervalo, y
N /2 — F da la d istan cia (e n su b in terv alo s) e n tre el lím ite inferior
del in tervalo y la m ediana. E n n u estro p roblem a tenem os, pues :

M d = 4 950 + — 5 ~ 81 1 000 = 4 950 + 13.5 - i — -


51 51
= 4 950 + 265 = $ 5 215.
E xiste u n cam ino alternativo, p e ro equivalente, de re p resen ta r
el proceso conducente a la obtención de la m ediana. E n efecto,
en lu g ar de b u sca r la m agnitud de cada subintervalo y m ultipli­
cando p o r el nú m ero de los subintervalos, podem os d iscu rrir
que, com o quiera q ue hay 51 casos en el intervalo en tero y que
hem os de re c o rre r 13.5 de estos intervalos m ás pequeños p a ra
llegar a la m ediana, hem os de re co rre r 13.5/51 del intervalo en­
tero. P o r lo tan to , si m ultiplicam os la m ag n itu d del intervalo
(1 000) p o r la fracción de la distancia to tal que hem os de reco­
rre r, obtenem os el re su ltad o deseado llam ado interpolación. Al
u tiliza r la fórm ula es indiferente, p o r supuesto, cuál de las dos
explicaciones nos parezca m ás satisfactoria. Con objeto de no
h acem o s dem asiado dependientes de la fórm ula, es m ejo r discu­
r r ir el proceso cada vez, sirviéndonos de aquélla com o control,
h a s ta que se haya co m prendido a fondo. A títu lo de o tro control
hay que observ ar que la m ediana pudo h a b e rse asim ism o obte­
n ido restando cierta ca n tid ad del lím ite superior u. Como püede
d em o strarse fácilm ente, la fórm ula se convierte en ta l caso e n :

Md = u ~ ¿ (V.7)

en la q ue F re p resen ta ah o ra la frecuencia acum ulativa co rresp o n ­


d iente al lím ite su p erio r del intervalo. N um éricam ente esto d a :

132 * 94.5 __
M d = 5 950 --------- —----- 1000 = $5 215.

V.4. C om paración de la m edia y la m ediana


H abiendo exam inado los m étodos de cálculo utilizados en la ob­
tención de la m edia y la m ediana ta n to de datos agrupados com o
no agrupados, tócanos ah o ra co m p arar sus propiedades. Saltan
a la v ista varias diferencias e n tre las dos m edidas. P rim ero, la
m edia u tiliza m ás inform ación que la m ediana, p o r cuanto al calcu­
la r la m edia nos servim os de la totalidad de las m arcas exactas,
e n ta n to q ue la m ediana sólo com porta la m arc a del caso m edio.
Volviendo a las m arcas 72, 81, 86, 69 y 57, vem os que si la m arca
m ás a lta h u b iera sido 126 en lu g ar de 86, la m ediana h ab ría
p erm an ecid o in alterada, en ta n to que la m edia h ab ría aum en­
tad o considerablem ente. Y en fo rm a análoga, si la m arca infe­
rio r h u b iera sido cero, la m edia h a b ría b ajad o , perm aneciendo
la p W ia n a nuevam ente inalterada. P or consiguiente, podem os
estab lecer u n a diferencia m uy im p o rtan te e n tre am bas m edidas,
a sab e r :\ La m edia resulta afectada por cam bio de los valores
extrem os, en tanto que la m ediana perm anece inalterada, a m e­
n os que cam bie asim ism o el valor del caso medió'. E n nuestro
ejem plo, m ien tras 72 siga siendo el te rc e r caso después del re o r­
denam iento, la m ediana p erm an ecerá inalterada.
E s ta im p o rta n te d iferencia e n tre las dos m edidas nos perm ite
decid ir en la m ayoría de los casos cuál de ellas re su lta m ás a p ro ­
p iada. P o r lo re g u la r deseam os q u e n u e s tra m ed id a se sirva de
to d a la info rm ación disponible. E n u n a fo rm a u o tra ponem os
in tu itiv am en te m ás fe e n la m ed id a que cum ple dicha condición.
P ese q ue al p re sen te n o sea posible re fo rza r dicha fe con un
sólido razo n am iento estadístico, p u ed e darse, con todo, cierta
ju stificació n de la p re fere n cia de la m edia en las circunstancias
co rrien tes. R esulta, en efecto, que la m edia es p o r lo re g u la r
u n a m ed id a m ás estab le que la m ediana, en c u a n to v a ría m enos
d e u n a m u e s tra a o tra. C uando enderecem os n u e s tra atención
a la E stad ístic a inductiva, verem os q u e p o r lo re g u la r el inves­
tig ad o r tien e m ás in te ré s e n generalizar a p ro p ó sito d e la pobla­
ción q u e en su m u e stra p a rtic u la r. E stá p erfectam en te p ercatad o
d e que si se h u b ie ra to m ad o o tra m u e stra los re su lta d o s n o h a­
b ría n sid o ex actam ente los m ism os. Si se h u b iera to m ad o u n a
g ran can tid ad d e m u e stra s del m ism o tam año, h a b ría podido ver
sim p lem en te e n cuánto las m edianas de las m u estras diferían
e n tre sí. Lo q ue aquí decim os es q u e las m edianas de las m ues­
tr a s d ifieren d e u n o a o tro de ellos m ás que las m edias corres­
p o n d ien tes. P ero com o q u iera que en la p rá c tic a sólo extraem os
p o r lo re g u la r u n a sola m u estra, im p o rta sab e r q u e la m edida
q u e em pleam os d a rá re su ltad o s seguros, en cu a n to q u e h a b rá u n
m ín im o de v ariab ilid ad de u n a m u e stra a la próxim a. Podem os,
p o r consiguiente, estab le cer la siguiente regla p rá c tic a : en caso
d e duda, em pléese la m edia con preferencia a la m ediana.
D ebido al h echo de que u tiliza todos los datos, en ta n to que
la m ed ian a n o depende de los valores extrem os, la m edia puede
p ro p o rcio n ar e n d eterm in ad as circunstancias re su ltad o s m uy
am biguos. H em os de te n e r p re se n te que, al serv im o s de u n a
m ed id a de ten d en cia central, tra ta m o s de o b te n e r u n a sim ple
descripción de lo q u e e n n u e stro s datos hay de "típico". Supón­
gase, p a ra to m a r u n caso extrem o, q u e en la serie de cinco n ú ­
m eros el d ato su p e rio r fu e ra la de 962. La m ed ian a seguiría sien­
do en n u e s tro caso 72, e n ta n to que la m ed ia su b iría a 1 241/5,
o sea 248.2. A hora bien, ¿es este v alo r "típ ico ”, en alguna form a,
de los d ato s? C iertam ente no. N o se e n c u e n tra en p a rte alguna
cerca de los d ato s de los cinco casos. Es verdad, p o r supuesto,
que en u n ejem plo ta n extrem ado nin g u n a m ed id a p a rtic u la r p o ­
d ría utilizarse p a r a d escrib ir adecuadam ente el caso típico, pero,
com o q u iera q u e c u a tro de los cinco datos se sitú an alrededor
de 72, el em pleo de la m ed ian a re su lta ría m an ifiestam en te m e­
nos equívoco. Podem os, pues, d ecir q u e: siem pre que una dis­
tribución es fu ertem e n te asim étrica, esto es, siem pre que hay
consid erab lem ente m ás casos extrem os en u n a dirección que en
o tra, la m ediana será por lo regular m á s apropiada que la media.
La relación e n tre la desviación y las posiciones relativas de la
m edia y la m ediana se indica en la figura V .l. Como q uiera que
puede re su lta r afectad a p o r unos pocos valores extrem os, la m e­
dia se v erá "em p u ja d a” en la dirección de la asim etría, esto es,
h acia la cola. Si la distribución es p erfectam ente sim étrica, la
m edia y la m ediana coincidirán. Sabem os que las distribuciones
relativas a los ingresos suelen e sta r desviadas p o r lo regular

Simétrica

. . . x
Asim étrica negativa Asim étrica positiva

Fig. V .l. R elación entre la asim etría y las posiciones relativas


d e la m edia y la m ediana

h acia los ingresos superiores, con m uy pocos de ellos extrem a­


d am en te altos. R esultaría, pues, m uy im preciso p re se n ta r ingre­
sos m edios en el m arco de u n a corporación o de u n a localidad
pequeña. P o r ello los d ato s relativos al ingreso se d an p o r lo
re g u la r sirviéndose de la m ediana, m ás que de la m edia. Sin
duda, si la d istribución e s tá m uy desviada, el hecho debería
m encionarse al p re se n ta r los datos. E n tales casos, puede resu l­
ta r ú til in d icar am bas cosas, la m edia y la m ediana, pese a que
esto sólo ra ra m e n te se hace así en la práctica.
La m ed ia tien e u n a segunda p ro p ied ad que n o posee la m e­
d ian a: se deja m an ip u lar algebraicam ente con m ayor facilidad.
Así, p o r ejem plo, p recisa o b ten er a m enudo u n prom edio pon­
d erad o d e varios conjuntos de datos. Supóngase que tenem os
los siguientes ingresos m edios correspondientes a las tres locali­
dades A, B y C :
Localidad Habitantes Media
A 10000 $3 518
B 5000 4760
C 8000 4122

Si el n ú m ero d e h a b ita n te s de las tre s localidades fu e ra el m is­


m o, po d ríam o s to m a r la m edia de esos tre s datos com o m edia
general. P ero es el caso que la localidad A es dos veces m ayor
que la localidad B, o sea, e n o tro s térm inos, que la cifra $ 3 518
re p re se n ta u n doble n ú m e ro de casos de los que re p resen ta la
cifra $ 4 760. Si los 23 m il h a b ita n te s se h u b iera n p u esto ju n to s
calculándose la m edia general, la cifra re su lta n te h a b ría refle­
ja d o dicho hecho. P ara o b te n e r la m edia co rrecta, hem os de
p o n d e ra r cada m edia sep a rad a p o r el n ú m ero p ro p io de casos,
sum ando luego y dividiendo fin alm en te e n tre el n ú m ero to tal de
éstos (23 000). O btenem os en esta fo rm a :

2 N tX x
X = — --------- (V.8)
N

en donde N t y X { re p re se n ta n respectivam ente el n ú m e ro de ca­


sos y la m ed ia de la categoría i-ésima, indicando k el n ú m ero de
las categorías. Tenem os, p o r consiguiente:
- _ 10 000(3 518) + 5 000(4 760) + 8 000(4 122)
Ji. — ........... ......... —
23 000
91 956 000
=$ 3 998.09
23 000

Podem os ju s tific a r fácilm ente ese p rocedim iento d e p o n d era­


ción observando que la m edia de la categoría i-ésim a fu e en re a­
lid ad o b ten id a adicionando los datos y dividiendo p o r A^.2 P or
lo tan to , el p ro d u c to N iX t re p re se n ta la sum a de todos los datos
d e dicha categoría. Así, pues, la adición de los p ro d u cto s y la di­
visión e n tre N nos d a el m ism o re su lta d o que se h a b ría obtenido
si se h u b iera n ignorado las categorías p o r com pleto. E ste tipo
de m anipulación algebraica de la m ed ia re su lta en ocasiones m uy
ú til. N o h a d e re s u lta r difícil d arse cu en ta q u e la m ediana
general de los d ato s com binados n o p u ed e o b ten erse en dicha
2 Casi siempre ponderemos X i con w{, representando la expresión '2wiX i/
2 w4 nuestra media ponderada. Por lo regular hacemos la ponderación en
tal forma que suma una cantidad conveniente como la unidad (esto es,
= 1) o la muestra total de tamaño N, como en el ejemplo anterior.
form a. E n efecto, si conociéram os los valores de los casos m e­
dios de cad a u n a de las categorías separadas, nos fa lta ría toda­
vía conocer el v alor del caso m edio de los datos com binados.
Obsérvese, finalm ente, u n a diferencia im p o rtan te e n tre la m e­
dia y la m ediana. El cálculo de la m edia re q u ie re u n a escala de
in terv alo . E n efecto, sin u n a escala de in terv alo no te n d ría sen­
tido alguno h a b la r de su m ar m arcas. E s m an ifiestam en te nece­
sario suponer, p o r ejem plo, que la su m a de los n ú m eros 30 y 45
equivale a la de los n ú m ero s 20 y 55, ya que am bos p ares poseen
la m ism a m edia. La m ediana, en cam bio, puede em plearse ta n to
con la s escalas o rd in ales com o con las de intervalo. La m arca
n u m éric a real de la m ed ian a carecerá de sentido, a m enos que
dispongam os de u n a escala de intervalo, p e ro será sin du d a
posible situ a r la m a rc a m edia. E sto significa que, e n tre o tro s, po­
dem os se p a ra r los casos en u n a o dos categorías, según que
aquéllos queden p o r en cim a o p o r d eb ajo d e la m ediana. P o r lo
ta n to , las m ed id as de posición pu ed en em plearse con escalas
o rd inales, hecho que re su lta m uy ú til p a ra el desarrollo' de p ru e ­
b a s que n o req u ieren escalas de intervalo.

V.5. O tras m edidas de tendencia central


E x isten todavía algunas o tra s m edidas de tendencia cen tral, nin­
guna de las cuales, sin em bargo, e n c u e n tra u n em pleo m uy co­
rrie n te en la investigación sociológica. U na de ellas es el m odo,
q u e es sim plem ente la m arc a m ás frecuente. Si, p o r ejem plo,
to m am o s las tre s series de n úm eros siguientes:

(1) 71, 75, 83, 75, 61, 68


( 2) 71, 75, 83, 74, 61, 68
(3) 71, 75, 83, 75, 83, 68

podem os decir que la p rim e ra tien e u n m od o de 75, ya que hay


d os térm in o s de dicha m arca, en ta n to q u e ninguna o tra a p a re ­
ce dos veces. N o h ay m odo alguno en la segunda serie de nú m e­
ros, p e ro los h ay dos, en cam bio, e n la te rc e ra (75 y 83). E l
m odo re su lta ta l vez m ás ú til cuando se d a u n núm ero m ayor
de casos y cu an do los datos h an sido agrupados. E n ta l caso
h ablam os a veces de u n a categoría m odal, to m an d o el p u n to
m edio de la m ism a com o m odo. E n los datos agrupados que
hem os utilizado, la categ o ría m odal sería la de $ 5 000 a $ 5 900.
E n u n a d istribución de frecuencia, el m odo re s u lta rá indicado
p o r el p u n to m ás elevado de la curva. E n u n a distrib u ció n sim é­
tric a con u n solo m odo en el centro, la m edia, la m ediana y el
m odo serán p o r supuesto, idénticos. Podem os d istin g u ir asim is­
m o e n tre d istrib uciones "unim odales" y "bim odales”, tom ando
esta ú ltim a la fo rm a que aparece en la fig u ra V.2. Al h a b la r de
distribuciones bim odales, n o solem os p o r lo re g u la r su p o n er que
am b as cúspides tengan exactam ente el m ism o alto, com o p are­
cería deducirse de la definición. H ay que o b serv ar que, com o
q u iera que el m odo se refiere a la categoría con el m ayor núm e­
ro de casos, podem os servim os de dicho concepto ta n to al des­
c rib ir escalas nom inales, com o ordinales o de intervalo. De esta
m an era en el caso de las escalas nom inales p o d rá considerarse la

categoría m odal com o u n tip o d e tendencia central, siem pre que


se tenga bien p re sen te que ello n o supone u n ordenam iento de
categorías.
O tras dos m edidas de tendencia central que prácticam ente
n o se ven n u n ca en la lite ra tu ra sociológica son la m edia arm ó­
nica y la m edia geom étrica. Se definen respectivam ente p o r las
siguientes fó rm u las:
N
M edia arm ónica = ---------------
ir i
2 ——
« -1 Xi
N ___________ _
M edia geom étrica = > / ( X x) ( X 2) ........ ( X N)

E n esta ú ltim a fórm ula, la N a rrib a del radical indica que to ­


m am os la raíz JV-ésima del p ro d u c to de N datos.

V.6. Deciles, cuartiles y percentiles


Al exam inar la m ediana, señalam os que hay o tras m edidas po-
sicionales, ta le s com o los percentiles, que pueden utilizarse p ara
fija r la p o sición de datos m ayores que u n a proporción determ i­
n ad a de casos. E sas m edidas, au n q u e n o sean necesariam ente
m edidas de tip ic id a d o de tendencia central, son análogas di­
rectam en te a la m ediana. Así, p o r ejem plo, en lugar de buscar
u n n ú m ero q u e tenga la m ita d de los datos p o r encim a o p o r
d eb ajo de sí m ism o, podem os q u e re r d e te rm in a r el v alor del p ri­
m e r cu artil, que posee la p ro p ied a d d e que u n cu a rto de los datos
sean de m en o r m ag n itu d que la suya. Y en fo rm a sem ejante, el
te rc e r cu a rtil re p re se n ta la m arc a que tien e p o r deb ajo d e ella,
e n cu an to a m agnitud, a los tre s cu a rto s de los casos. Si se p re­
fiere, se pu ed e dividir la d istrib u ció n en 10 deciles, fijan d o m a r­
cas q u e tengan u n a décim a, dos décim as o nueve décim as d e los
casos con valores m enores. Tal vez el lecto r esté m ás fam iliari­
zado con los p ercentiles, q u e dividen la d istrib u ció n e n 100 p o r­
ciones d e tam añ o igual. Así, p o r ejem plo, el e stu d ia n te que falla
en el nonagésim o p rim e r p ercen til sabe q u e el 91 p o r ciento de
los dem ás estu d ian tes ten ían puntuaciones m ás b ajas q u e él.
E l cálculo de los deciles, los cuartiles y los p ercentiles es direc­
ta m en te análogo al de la m ediana. E n el caso d e dato s ag ru p a­
dos, d eterm in arem os p rim e ro el in terv alo e n cuyo in te rio r que­
d a la m ed id a de posición deseada. S irviéndonos luego de los
d ato s del cu ad ro V.4, ob ten d rem o s el p rim e r cu a rtil localizando
la posición del caso N /4 o 47.25-ésimo. De la colum na de la fre­
cuencia cum ulativa vem os que el p rim e r cu a rtil h a de situ arse
en algún lu g ar e n tre el in terv alo de $ 3 950 a $ 4 950. Y com o
q u iera que en dicho in terv alo hay 38 casos, hem os de re c o rre r
los (47.25 — 43 )/38 de e sa distancia. Así, pues, el valor del p rim e r
c u a rtil Q i será:

47 25 — 43
Q1 = 3 950 + — ^---------- 1 000 = 3 950 + 112 = $ 4 062
38

O tras m edidas de posición pueden calcularse en fo rm a análoga.


Obsérvese, in cid entalm ente, que p o r definición la m ediana es
equ iv alen te al segundo cu artil, al q u in to decil, y al quincuagé­
sim o p ercen til. Si b ien los deciles, cu artiles y percentiles sólo
se em plean m uy ra ra m e n te e n la investigación sociológica, con­
viene p o r lo m enos conocer su sentido.

G losario
Decil
Media
Mediana
Modo
Percentil
Cuartil
Distribución asim étrica

E je r c ic io s

1. Indíquense la media, la m ediana y el modo de los números siguien­


tes: 26, 37, 43, 21, 58, 26, 33 y 45, Respuesta, 36.1; 35; 26.
2. Calcúlense una media y una mediana de los datos compilados en
el ejercicio 1, cap. iv. Hágase lo mismo en relación con el ejercicio 2,
cap. iv.
3. Calcúlense el tercer cuartil, el cuarto decil y el septuagésimo pri­
m er percentil de los datos del ejercicio 1, cap. iv.
4. Los siguientes datos (hipotéticos) m uestran la distribución del
porcentaje de las familias granjeras en 60 distritos. Calcúlense la
media y la mediana. Respuesta, 32.83; 32.83.
Intervalo Frecuencia
%
10-19 7
20-29 16
30-39 21
40-49 12
50-59 4
60

5. Sirviéndose de los datos del ejemplo anterior, indique el lector


en qué form a resultarían afectadas la media y la mediana (aumenta­
das, reducidas, inalteradas) si:
a) el último intervalo se ampliara de 50 a 69, permaneciendo las
mismas frecuencias. Respuesta, aum entada; la misma.
b) si se añadiera un 10 por ciento a cada intervalo (haciendo los
intervalos 20 a 29, 30 a 39, etcétera), con frecuencias inalteradas;
c) los intervalos permanecieran inalterados, pero pasando dos ca­
sos de la categoría 20 a 29 a la categoría 30 a 39 (haciendo que las
frecuencias fueran 7, 14, 23, 12 y 4);
d) los intervalos permanecieran inalterados, pero se doblaran to­
das las frecuencias.
_6. Un grupo de 10 muchachos y 7 muchachas participaron en un acer­
tijo algebraico. Supóngase que la puntuación media de los muchachos
íue 84 y su mediana 74, en tanto que, en relación con las mucha­
chas, tanto la media como la mediana resultaron en 79. El m aestro
concluye que en esa prueba los muchachos obtuvieron un resultado
mejor que las muchachas. ¿Está su conclusión justificada? ¿Por qué,
o por qué no? ¿Cómo cabría explicar la gran diferencia entre la media
y la mediana en los muchachos?
7. Supóngase que se ha encontrado que la edad media de los 50 go­
bernadores (de los Estados Unidos) es de 51.6 años, la de 100 sena­
dores 62.3, y la de 435 diputados de 44.7. ¿Cuál es la edad media de
todos esos políticos? Supóngase que las cifras anteriores indicaran
medianas, ¿podría obtenerse la mediana general del mismo modo?
¿Por qué, o por qué no?

B iblio g rafía

1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2? ed.,


Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 5.
2. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2' ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 4.
3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holí and Company, Inc., Nueva York, 1952, cap. 8.
4. McCollouhg, C. y L. van Atta: Introduction to Descriptive Statis­
tics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 2.
5. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Rea-
soning in Sociology, 2* ed. Houghton Mifflin Company, Boston,
1970, cap. 5.
6. Weinberg, G. H., y J. A. Schumaker: Statistics: An Intuitive Appro-
ach, Wadsworth Publishing Company, Inc., Belmont, Cal. 1962,
caps. 2 y 6,
V I. ESCA LA S D E IN T E R V A L O : M ED ID A S
D E D IS P E R S IÓ N

E n la investigación sociológica la atención se con cen tra en m u­


chos casos en m edidas de tendencia central. P o r ejem plo, pode­
m os q u e re r c o m p arar varios tipos de religión en relación con la
asisten cia m ed ia a la iglesia o el nivel m edio de ingreso. Pode­
m os tam b ién d esear o btener, sin em bargo, m ed id as de hom oge­
neidad. Tal vez hayam os p a rtid o de la hipótesis que u n a de las
religiones ex tra e rá sus adeptos en m ay o r g ra d o que las o tras de
u n a m ism a capa social. S in em bargo, au n si estam o s interesados
an te to d o en c o m p arar m edidas de tendencia cen tral, necesita­
m os, con todo, sab e r algo acerca de la dispersión en cada grupo.
Nos dam os cu en ta in tu itiv am en te d e que, si cada religión fu e ra
ex trem ad am en te heterogénea en cuanto al ingreso y a la asis­
ten cia a la iglesia, u n a d iferencia d eterm in ad a e n tre sus m e­
d ias (digam os de $ 2 000) n o sería ta n im p o rta n te o indicativa
com o se ría el caso si cada g ru p o fu e ra p erfectam en te hom o­
géneo.
C uando lleguem os a la estad ística inductiva, estarem o s en con­
diciones de ju stific a r dicha intuición y de a p re c ia r p o r qué las
m edidas de d ispersión son ta n im p o rtan tes. E n el p re sen te capí­
tu lo vam os a co n cen trarn o s en el m ecanism o, en tan to que en el
siguiente darem os u n a in terp re tació n de la m edida de dispersión
m ás im p o rta n te : la desviación están d ar.

V I.l. E l recorrido
De las d istin tas m edidas de dispersión que vam os a exam inar en
este capítulo, el re co rrid o es con m ucho el m ás sim ple. El reco­
rrid o se define com o la diferencia e n tre la m arc a m ás a lta y la
m ás b aja. Así, pues, e n relación con los datos proporcionados en
el capítulo a n te rio r (72, 81, 86, 69 y 57), el re c o rrid o sería la dife­
ren cia e n tre 86 y 57, o sea 29. P o r lo re g u lar solem os in d icar el
re co rrid o ya sea p o r m edio de la diferencia real (29), o dando
las dos m arc as extrem as, v.gr. 57 y 86. Si los datos se h a n agru­
pado, tom am os com o re co rrid o la diferencia e n tre los puntos
m edios de las categorías extrem as. Así, pues, si el p u n to m edio
del in tervalo in ferio r es 2 450 y el del intervalo su p e rio r 7 450, el
re co rrid o será de 5 000.
La sim plicidad extrem a del re co rrid o com o m ed id a de disper­
sión p re sen ta a la vez ven tajas e inconvenientes. E n efecto, el
re co rrid o pued e re s u lta r m uy ú til si se tr a ta de o b ten er unos
cálculos m uy rápidos que p u ed an p ro p o rcio n ar u n a indicación
b ru ta de la dispersión, o si los cálculos h a de hacerlos alguna
90
p erso n a que n o esté fam iliarizada con la estad ística. Si los datos
h an d e p re sen tarse a u n a audiencia relativ am en te ingenua, el reco­
rrid o será tal vez la ú n ica m edida de dispersión que aquélla esté
en condiciones de in te rp re ta r fácilm ente. S in em bargo, el nivel de
p re p aració n de los sociólogos está alcanzando ráp id am en te u n
p u n to tal, que podem os legítim am ente su p o n er que en ten d erán
tam b ién m edidas algo m ás com plicadas y satisfactorias. E l in­
conveniente del re co rrid o es obvio: se b a sa exclusivam ente en
dos casos, que son, adem ás, los dos casos extrem os. Y com o
q u iera que los casos extrem os suelen se r ra ro s o poco com unes
en la m ay o ría de los problem as em píricos, nos dam os cu en ta que
p o r lo re g u lar es u n a cuestión de az ar q u e obtengam os u n o o dos
de ellos en n u e stra m u estra. Supóngase, p o r ejem plo, que en la
localidad investigada hay u n m illonario. Si escogem os 10 perso­
nas al azar, es p ro b ab le que aquél n o e sté incluido e n tre ellas.
Pero, supóngase que sí está. E n ta l caso el re co rrid o de los in­
gresos será ex trao rd in ariam en te am plio y m uy engañador en
cu an to m edida de dispersión. Si nos servim os del re co rrid o
com o m edida, n a d a sabem os acerca de la variación de las m a r­
cas e n tre los dos valores extrem os, excepto que éstas se sitú an
en algún lu g ar en el in te rio r de dicho re co rrid o . Así, pues, com o
re su lta del ejem plo a n terio r, el re co rrid o v a ria rá considerable­
m en te de u n a m u e stra a o tra. P or o tra p a rte , el re co rrid o será
p o r lo re g u la r m ayor en las m u estras grandes que en las peque­
ñas, sim plem ente p o rq u e e n los p rim ero s tenem os m ás p ro b a ­
bilidades de in clu ir a los casos individuales extrem os. É sta es
la razón de que el re c o rrid o n o se em plee p o r lo re g u la r en so­
ciología, excepto al nivel de tipo m ás exploratorio.
O tra m ed id a su m am ente sim ple, la razón de variación, puf de
s e r utilizada e n el caso de los datos en grupo, lo que re su lta
especialm ente adecuado en el caso de las escalas nom inales.
C onsiste b ásicam ente en u n a m edida del grad o en que se con­
ce n tran los dato s en la categoría m odal, en lu g ar de que se les
e n cu en tre distrib u idos u n iform em ente a lo larg o de to d as las ca­
tegorías. Se define a s í :

V i?. = 1 - f moaJ N ,

en donde /modaj se re fiere al nú m ero de casos en la categoría mo­


dal, y N al n ú m ero to ta l de casos. E s evidente que e sta m edida
re s u lta insensible a la distrib u ció n de casos en las categorías no
m odales, siendo p o r o tra p a rte dependiente del proceso de cate-
gorización. S u v en taja ra d ic a en su sencillez extrem a y en su
atracció n intuitiva, adem ás del hecho de que en el caso de las
escalas nom inales no es posible h a c e r uso d e u n a ordenación de
categorías que p erm ita h a b ilita r m edidas de u n m ayor re fin a­
m iento.
VI.2. La desviación cuartil
O tra m ed id a em pleada algunas veces en los cam pos de la psico­
logía y la enseñanza, p ero que ra ra m e n te ap arece en la lite ra tu ra
sociológica, es la desviación cu a rtil o re co rrid o sem i-intercuartil.
La desviación cu artil Q es u n tipo de reco rrid o , pero, en lugar
de re p re se n ta r la diferencia e n tre los valores extrem os, sé define
a rb itra ria m e n te com o la m ita d de la d istancia e n tre el p rim ero
y el te rc e r cu artiles. O en fo rm a sim bólica:

en donde Qi y Q3 re p resen ta n respectivam ente al p rim e ro y te r­


cer cu artiles. O bsérvese que la desviación c u a rtil m ide el reco­
rrid o ocupado p o r la m ita d ce n tral de los casos. Como quiera
que Qi y Q3 v aria rán m enos de u n a m u e stra a o tra que los casos
m ás extrem os, la desviación c u a rtil re p re se n ta u n a m ed id a m u­
cho m ás estab le que el re co rrid o . P or o tra p a rte , e n cam bio, no
saca provecho del co n ju n to de la inform ación. N o estam os m i­
diendo la v ariabilidad e n tre los casos cen trales ni tom am os en
consideración lo que o cu rre en los extrem os de la distribución.
De ahí, pu es, q u e enderecem os n u e s tra atención, a o tra s dos m e­
didas que sí poseen esta p ro p ied a d deseable.

VI.3. La desviación m edia


Si deseam os serv im o s de todos los datos, el sentido com ún nos
su g erirá que to m em os las desviaciones de cada d ato con resp ecto
a alguna m ed ida de tendencia cen tral y que calculem os luego
alguna especie de p ro m ed io d e dichas desviaciones, con o b jeto
de co n tro lar el n ú m ero de casos com prendidos. S ería posible
to m a r com o m ed id a de ten d en cia c e n tral la m ed ian a o el m odo,
p ero p o r lo re g u la r tom am os la m edia, ya que é s ta es en la
m ay o ría de los casos la m ed id a p a rtic u la r m ás satisfactoria.
Supóngase que sum áram os sim plem ente las desviaciones efecti­
vas resp ecto d e la m edia. P o r desgracia, com o sabem os, el resu l­
ta d o sería siem p re cero, y a que las diferencias positivas y nega­
tivas se com pensan m u tu am en te. E sto sugiere que, p a ra o b ten er
u n a m ed id a de d ispersión a lre d ed o r de la m edia, hem os de des­
h acem o s e n u n a fo rm a u o tra d e los signos negativos. Se nos
o cu rren in m ed iatam en te dos m éto d o s: 1) ig n o rar los signos y
to m a r sólo los valores absolutos d e las diferencias, o 2) cu a d rar
las diferencias. E sto s dos m étodos conducen efectivam ente a las
dos m edidas re sta n te s de dispersión que hem os d e exam inar en
este capítulo, a sa b e r: la desviación m edia y la desviación es­
tán d ar.
La desviación m edia se define com o la m edia aritm ética de las
diferencias absolutas de cada m arca con resp ecto a la m edia,
£> en sím b o lo s:
2 )Xt - X \
<==1
Desviación m edia = ------------------ (V I.2)
N
La m edia de los n úm eros 72, 81, 86, 69 y 57 es 73.0. Si su stra e ­
m os 73.0 de cada u n o de dichos núm eros, ignorando los signos, y
luego adicionam os los re su ltad o s y dividim os en tre 5, o b te n e m o s:
y _
2 |j^ ._x \
' 1 + 8 + 13 + 4 + 1 6 42
8.4
N 5 5
Podem os p o r consiguiente decir que el prom edio de los datos
d ifiere de la m ed ia en 8.4.
Pese a que la desviación m edia p re sen ta u n a in terp retació n
in tu itiv a m ás d irecta que la desviación están d a r, tiene, con todo,
varios inconvenientes graves. P rim ero, los valores absolutos no
se d ejan m an ip u lar algebraicam ente con facilidad. Segundo y m ás
im p o rtan te, la desviación m edia no es de fácil in terp re tació n
teó rica ni conduce a re su ltad o s m atem áticos sim ples. Con fi­
nes p u ra m e n te descriptivos, la desviación m edia puede se r ade­
cuada, pese a que, según verem os, la desviación e stá n d a r se
d eja in te rp re ta r m ás fácilm ente en térm inos de la curva norm al.
C uando lleguem os a la estad ística inductiva verem os que la des­
viación e stá n d a r se u tiliza sobre todo a cau sa de su su p erio rid ad
teórica. É sta es la razó n de que sólo ra ra m e n te encontrem os
en la lite ra tu ra sociológica referencias a la desviación m edia.

VI.4. La desviación estándar


H abiendo elim inado m ás o m enos o tras varias m edidas de dis­
p ersión, podem os ah o ra d irig ir n u e stra atención a la m ás útil
y frecu e n te de las m ed id as: la desviación estándar. É sta se de­
fin e com o la raíz cu a d rad a de la m edia aritm é tic a de las desvia­
ciones cu ad rad as con resp ecto a la m edia, o en sím b o lo s:

(Xt-X)*
(V I.3)
N
en donde s se em plea p a ra designar la desviación están d ar.1 O en
1 Algunos textos definen s con N —1 en el denominador en vez de N. La
razón de ello no resultará clara hasta e n el capítulo XI.
p a la b ra s : tom am os la desviación de cad a m arc a con respecto
a la m edia, a la d ra m o s cada diferencia, sum am os los resultados,
dividim os e n tre el n ú m ero de casos y extraem os la raíz cuadrada.
P ara conseguir u n a re sp u esta correcta, es indispensable que las
operaciones se efectúen exactam ente e n el o rd e n indicado. E n
n u e stro ejem plo n um érico la desviación e stá n d a r p o d ría conse­
guirse com o sigue:

*« (X.-X) (Xt - X P

72 - 1 1
81 8 64
86 13 169
69 - 4 16
57 -1 6 256
--- ---
X = 73.0 0 506
s = V506/5 = V101.2 = 10.06

E l significado intuitivo de la desviación e s tá n d a r n o nos aparece­


r á claram en te h a s ta m ás adelante, cuando nos sirvam os de s p a ra
d am o s las á re a s b a jo la curva norm al. P o r el m om ento la acepta­
m os sim plem ente com o u n n ú m ero ab stracto . Sin em bargo, algu­
n a s p ro p ied ad es de la desviación e stán d a r son y a m anifiestas
desde ah o ra. O bservam os, en efecto, que cu an to m ay o r es la dis­
persió n alred ed o r d e la m edia ta n to m ayor es la desviación están­
dar. Si to d o s los cinco valores h u b iera n sido cero, las desviaciones
alred ed o r de la m edia h a b ría n sido cero, y s tam b ién h ab ría sido
cero. P o r o tra p a rte , vem os que las desviaciones extrem as con
resp ecto a la m edia p esan m ás, con m ucho, en cu an to a deter­
m in a r el v alo r d e la desviación están d a r. E n efecto, los valores
169 y 256 dom inan las o tra s tre s desviaciones cuadradas. Al
c u a d ra r las desviaciones, pese a que después extraigam os la raíz
cu ad rad a, estam os en re alid ad dando m ás peso relativo a los va­
lores extrem os todavía de lo que e ra el caso al calcu lar la m edia.
E sto sugiere q u e hem os d e m itig ar n u e stro en tu siasm o inicial
a p ro p ó sito de la desviación e stá n d a r e n cu an to "la m e jo r" m edida
p a rtic u la r de dispersión. C iertam ente, si hay varios casos extre­
m os, querem os que n u e stra m ed id a lo señale. P ero si la d istri­
bución p re se n ta unos pocos casos m uy extrem os, la desviación
no rm al pued e conducir a re su ltad o s engañosos, e n cu an to pue­
de se r ex tra o rd in aria m e n te grande. E n tales casos nos serviría­
m os p ro b ab lem en te com o m edida de tendencia ce n tral de la m e­
diana y, ta l vez, de la desviación cu a rtil com o m edida de
dispersión. S in em bargo, p a ra la m ayoría de los datos la des­
viación n o rm al re su lta rá adecuada.
E s razonable p re g u n ta r: "¿p o r qué m o lestarse en e x tra e r la
raíz cu a d rad a al calcu lar u n a m edida de d ispersión?” U na re s­
p u esta fácil, au n q ue poco satisfactoria, sería la d e decir que así
es com o se define la desviación e stán d a r. P o d ría ju stific arse la
extracción de la raíz c u a d ra d a señalando que, y a que hem os cu a­
d ra d o cada desviación, lo que hacem os es com pensar dicho paso
an terio r. Sin em bargo, re s u lta m ás com prensible ju stific a r la ex­
tracció n de la raíz en térm in o s d e su c a rá c te r práctico. Como quie­
r a que, en efecto, m ás ad elan te habrem os d e h a c e r u n em pleo
considerable de la cu rv a norm al, la desviación están d a r, ta l com o
se la h a definido, re s u lta se r u n a m ed id a m uy ú til. P a ra o tro s
fines nos servirem os del cu ad rad o d e la desviación n o rm al o va­
riancia, que se define com o:

2 ( Xt - X P
<=i
V ariancia = s2 = -------—-----------
N

Los m atem ático s h a n en co n trad o q u e el concepto de variancia


poseía m ay o r v alor teó ric o que la desviación están d ar. A p a r tir
del cap ítu lo xvi, h arem o s u n uso creciente d e la variancia, p ero
d e m o m en to podem os lim ita r n u e stra atención a la desviación
e stá n d a r. Los dos conceptos son p o r lo dem ás ta n fácilm ente in­
tercam b iab les, q ue podem os p a s a r sin dificu ltad del u n o al otro .
Que se defina la v arian cia com o cu a d rad o d e la desviación es­
tá n d a r o ésta com o raíz cu a d rad a d e la variancia, esto n o reviste
im p o rtan cia alguna.
Cálculo de la desviación estándar de datos no agrupados. Si
b ien la desviación e stá n d a r puede calcularse siem pre a p a r tir
de lá fó rm u la b ásica que se acaba de dar, re s u lta a m enudo m ás
sencillo servirse de fó rm u las de cálculo que n o req u ieren la sus­
tracció n de la m edia de cada m arc a sep arad a. E n efecto, no sólo
la m ed ia n o será p o r lo re g u la r u n n ú m e ro entero, sino que
u su alm en te se co m eterán e rro re s d e redondeo al em p lear la
fó rm u la an tes indicada. Con o b jeto de v er de qué m odo poda­
m os sim p lificar los cálculos, desarrollem os la expresión que está
a b a jo del radical. T en e m o s:

2 2 { X ? - 2X j l + X*)
i= l Í=1
. _ _ _

2 X ? - 2X 2 X i + N X 2
«—i t=i
N
O bsérvese que, com o q u iera que X es constante, pudim os tom ar­
la fre n te al signo de sum ación en el segundo térm in o del n u m era­
dor. E n el te rc e r térm ino, a su vez, nos hem os servido del hecho
de que, p a r a to d a co nstante k, te n e m o s :

2 k = N k.
i=l
_ w
Pero, com o q u iera q u e X = 2 X J N , el térm ino cen tral del nu-
í =*i
m era d o r se red u ce a — 2X 2, y podem os e s c rib ir:
X _ 2 N 2 .V 2
2 (X t ~ X ) 2 X,2 X 4
i= l 4=1 _, ___ i= l ___
2X2 + X2 = ------------X2
N N M

P o r lo ta n to :

V N
ír 2
2 X,

\T
-X * (W .4)

Algunas o tras fórm ulas de cálculo altern ativ as son las sig u ien tes:

v ^-(4y (VI.5)

(^X
i)
N 2 \ 4=1
2 X ¿--------------------
í= i jv
/

-V (V I.6)3

1 I N 2 / N \ 2
(VL7)

Si b ien cu alquiera de las form as precedentes puede utilizarse


com o fó rm u la de cálculo, la ecuación (V I.7) es la que com porta,
2 La obtención de las ecuaciones (VI.6) y (VI.7) a partir de la ecuación
(VI.5) se deja como ejercicio.
con todo, m enos errores d e redondeo, p o r ello se la recom ienda.
Sirvám onos de u n a de dichas fórm ulas de cálculo (ec. VI.7) en
el p roblem a an terio r, e n donde N = 5.

Xi *<2
72 5184
81 6561
86 7 396
69 4761
57 3 249
365 27151
E n adición al n ú m ero to ta l de casos, las dos cantidades requeri-
-V !f 2
das son S I , y 2 X t. A m bas sum as pueden acum ularse sim ul-
«=i i=i „
tán eam en te con las m odernas calculadoras de oficina. Calcula­
m os ah o ra s a p a r tir de (V I .7):

s = 1/5 V 5(27 151) - (365)2 = 1/5 V 135 755 - 133 225 = 10.06

Nos hem os servido de este problem a m uy sencillo p a ra ilu s tra r


q u e Ja fó rm u la de cálculo d a el m ism o re su ltad o num érico que la
fó rm u la b ásica de la ecuación (V I.3). Como q u iera que X resu ltó
ser u n en tero , la fó rm u la de cálculo h a com portado en realidad
m ás tra b a jo que la fórm ula original. P ero norm alm ente, p o r su­
p uesto, esto n o será así.
* Cálculo de la desviación estándar de datos agrupados. Si los
datos h an sido agrupados, podem os sim plificar n u e stra lab o r
considerablem ente tra ta n d o cada caso com o si se h allara en el
p u n to m edio de u n intervalo y sirviéndose de u n a m edida su­
pu esta. Sin du d a introducim os con ello alguna inexactitud, p ero
el ah o rro de tiem po es sustancial. Siguiendo u n a convención co­
rrie n te , supongam os que = X t — X . E n consecuencia, las x m i­
núsculas re p resen ta n desviaciones resp ecto de la m edia, y la
fó rm u la básica de la desviación está n d a r se convierte e n :

Podem os m odificar ah o ra la fórm ula tom ando en cuenta el he­


cho de que h a b rá u n gran n ú m ero de casos trata d o s todos com o
si tu v ieran el m ism o valor, esto es, uno de los p untos m edios. Si
m u ltiplicam os el n ú m ero de casos en cada clase p o r el p u n to
m edio p ro p io y sum am os luego los p ro d u cto s, nos podem os
a h o rra r el tra b a jo de su m a r todos los N casos. La fó rm u la de la
desviación e stá n d a r se convierte así en :

(V I.8)

en donde /{ es el n ú m ero de casos del intervalo i-ésimo y A: el


n ú m ero de intervalos.8
S upongam os a h o ra que anticipam os u n a m ed ia y tom am os las
desviaciones con re sp ecto a ésta, e n lu g ar de re sp ecto de la m e­
dia v erd ad era. M ostram os en el cap ítu lo a n te rio r que la sum a de
las desviaciones c u a d rad a s de la m edia será m en o r —que cual­
q u ier o tro v alor— que la su m a d e las desviaciones cuadradas. E n
p artic u la r, la su m a de las desviaciones cu a d rad a s de la m edia
an ticip ad a se rá m ay o r que la cifra o b ten id a sirviéndonos de
la m ed ia v erdadera, a m enos, p o r supuesto, que aquélla coincida
con ésta. Puede, pues, d em o strarse que cu an to m ás cerca queda
la m ed ia su p u esta de la v erdadera, ta n to m en o r re su lta la sum a
de las desviaciones cu ad rad as de la m edia supuesta. E n o tro s
té rm in o s: si nos servim os de u n a m ed ia su p u esta, esperam os
o b ten er u n a sum a de cu ad rad o s dem asiado grande. Lo m ism o
que an terio rm en te, podem os servirnos d e u n fa c to r de correc­
ción, al que su straem o s luego del valor o b ten id o utilizando la
m ed ia an ticipada. La fó rm u la de la desviación está n d a r se con­
v ierte e n tal caso e n :

en donde los d¡ re p re se n ta n las diferencias e n tre cada m arc a y


la m ed ia an ticip ad a y son d irec tam en te análogos a los x, de la
ecuación (V I.8).
Antes de to m a r u n ejemplo- num érico, exam inem os la fó rm u la
p reced en te con m ay o r atención. El segundo térm in o d eb ajo del
rad ical re p re se n ta el fa c to r de corrección que h a de su strae rse
de las desviaciones cu ad rad as de la m edia supuesta. R ecordando
la fó rm u la de la m edia expresada en térm in o s de la m edia su ­
p u esta, o sea:

8 Obsérvese que no se elevan al cuadrado las frecuencias ji que aparecen


en el numerador de la expresión bajo el radical.
k
2 fA

vemos que
&
i—1
=X-X'
N
y que, p o r lo ta n to :
fc V
2 ] fA \

De este modo, el fa c to r de corrección re su lta se r el cu ad rad o de


la diferencia e n tre las m edias verd ad era y la supuesta. Vemos
inm ed iatam en te que, si hubiéram os an ticip ad o la m edia exacta­
m ente, el facto r de corrección h a b ría sido cero. P o r lo tanto,
cu an to m ay o r sea la diferencia e n tre las m edias verd ad era y su­
p u esta ta n to m ayor será el fa cto r de corrección. Una suposición
deficiente conducirá siem pre al re su ltad o correcto, p ero com­
p o rta rá m arcas n u m éricas m ayores en am bos térm in o s de la
fórm ula.
É sta puede m odificarse m ás todavía si p referim os p en sa r en
térm in o s de desviaciones graduales d¿. Lo m ism o que e n el capí­
tulo v, ponem os en fa c to r la am plitud del intervalo de cada dt
y m ultiplicam os el re su ltad o final p o r i, lina vez el proceso te r­
m inado. La fó rm u la se convierte así e n :
=i ' V n ¿ w ~( i ) 2 (w

O bsérvese q u e efectivam ente n o hem os hecho m ás q u e sac ar la


am p litu d i del intervalo, de d eb a jo del radical.
Al calcu lar la desviación e stá n d a r de d ato s agrupados, pode­
m os ah o ra ex ten d e r el p rocedim iento em pleado p a r a la m edia,

Cuadro VI. 1. Cálculo d e la desviación estándar utilizando datos


agrupados

Límites verdaderos Puntos medios fi Wt W


$1950-2950 $2450 17 -3 -5 1 153
2 950-3 950 3450 26 -2 -5 2 104
3 950-4 950 4450 38 -1 -3 8 38
4 950-5950 5450 51 0 0 0
5950-6950 6 450 36 1 36 36
6 950-7 950 7 450 21 2 42 84
Totales 189 -6 3 415

k / k \ 2

V
= 1 000 J __ ( = 1000 V 2.1%—.111
" 189 V 189 /
= 1444

añ adiendo la colum na f idi’2. Atraque en re alid ad p odríam os ob­


te n e r las desviaciones cu ad rad as d i2 y m u ltip licar luego p o r f u
re su lta rá con to d o m ucho m ás sim ple m u ltip licar las dos últim as
colum nas em pleadas en o b te n e r la m edia (e sto e s : d{ x f{d{). En
efecto, h ab ien d o m u ltiplicado d / p o r sí m ism o, vem os que todos
los nú m ero s negativos se h acen ah o ra positivos.4 Calculem os
ah o ra la desviación e stá n d a r de los datos agrupados utilizados
en el cap ítu lo precedente. Con fines de ilu stració n nos servire­
m os de la ecuación (V I.10), p ese a q u e p o r lo re g u la r la (V I.12)
co m p o rta rá m enos e rro re s de redondeo.
* Obsérvese bien que la última columna del cuadro VI.l no se obtiene
elevando al cuadrado la columna ftdv ya que al hacerlo traería consigo ele­
var también al cuadrado.
O btuvim os en esta fo rm a u n a m edia de $ 5 117 y u n a desvia­
ción e stá n d a r de $ 1 444. E stos dos n ú m ero s pueden serv ir ah o ra
p a ra re su m ir los d ato s o p a ra co m p ararlo s con datos de o tra
m u estra. Según verem os m ás ad elan te que p u ed en em plearse
tam b ién p a ra v erificar hipótesis o p a ra ap re c ia r m edidas de
población.

VI.5. E l coeficiente d e variabilidad


E s a veces conveniente c o m p arar varios grupos en relación con
su hom ogeneidad relativa, en casos en que dichos gru p o s tienen
m edias d istin tas. P odría, pues, re s u lta r engañoso co m p arar las
m agnitudes ab so lu tas de las desviaciones e stá n d a r. C abría es­
p e ra r que, con u n a m edia m uy grande, p o d ría en c o n trarse p o r
lo m enos u n a desviación e stá n d a r suficientem ente grande. Así,
pues, alguien p o d ría in te re sa rse en p rim e r lu g ar p o r el tam añ o
de la desviación e s tá n d a r en relación con el d e la m edia. E sto
sugiere que podem os o b te n e r u n a m ed id a de la variabilidad re la ­
tiv a dividiendo la desviación e stá n d a r e n tre la m edia. El resu l­
tad o se h a llam ado coeficiente de variabilidad y se designa con
u n a V. Así, p u e s: c

P ara ilu s tra r las v en tajas del coeficiente de variabilidad con


resp ecto a la desviación e stá n d a r, supóngase q u e xm psicólogo
social tr a ta de d e m o stra r que p a ra todos los fines prácticos dos
grupos son ig u alm ente hom ogéneos en relación con la edad. En
u n o de los grupos la e d a d m ed ia es d e 26, con u n a desviación
e stá n d a r de 3. E n el o tro la ed ad m edia es de 38 años, con u n a
desviación e s tá n d a r de 5. P o r lo tan to , los coeficientes de varia­
b ilid a d son resp ectiv am en te 3/26 = .1 1 5 y 5/38 = .132, o sea u n a
diferencia m u ch o m ás peq u eñ a que la q u e se d a e n tre las dos
desviaciones e stán d a r. E n vista del hecho d e que p o r lo re g u lar
la ed ad exacta re su lta m enos im p o rtan te, al d eterm in a r in te re ­
ses, capacidades y posición social, a m ed id a que au m en ta la edad
pro m ed io de los m iem bros del grupo, la com paración de los dos
coeficientes de v ariabilidad p o d ría re s u lta r m uy bien, e n este
caso, m u ch o m enos engañosa que si se em p learan las desviacio­
nes están d a r.
Si se desea, puede u tilizarse tam b ién u n a variancia relativa.
P o r desgracia, estas m edidas relativ as d e dispersión se hallan
citad a s con m uy p oca frecu en cia en la lite ra tu ra sociológica. Es
m u ch o m ás frecuente, efr efecto, e n c o n tra r las m edias y las des­
viaciones e s tá n d a r relacionadas en colum nas adyacentes.
VI.6. Otras m edidas resum idas
Sólo hem os exam inado dos tipos de m edidas resum idas : las de
tendencia central y las de dispersión. Son posibles, adem ás, o tras
m edidas, au n que sólo se las utiliza ra ra m e n te en la investigación
sociológica. Sin duda, encontram os a m enudo d ad a la d istrib u ­
ción de frecuencia en tera, p ero esto no constituye u n a m edida p a r­
ticu lar de resum en. R esulta a veces deseable in d icar en u n a dis­
trib u ció n el grado de asim etría. Una de las m edidas de ésta saca
provecho del hecho de que cu an to m ayor es la asim etría tan to
m ayor re su lta la diferencia e n tre la m edia y la m ediana. E sta
m edida se h alla dada p o r la fó rm u la:

3(X - M d)
A sim etría = ------------------
5

Si la distrib u ción está desviada hacia la derecha (grandes m a r­


cas p o sitiv as), la m edia será m ayor que la m ediana, y el resu l­
tad o será u n n ú m ero positivo. En ta n to que la distribución des­
viada h acia la izquierda d ará u n resu ltad o negativo.
Con m uy poca frecuencia, tam bién, hallam os en sociología re ­
ferencias al ca rác te r general de las cúspides d e u n a distribución
asim étrica. Utilízase el térm in o de picudez en relación con dicha
m edida, que exam inarem os brevem ente u n a vez que hayam os vis­
to la curva norm al. P or lo regular, los textos de estad ística es­
critos an te to d o p a ra los estu d ian tes de econom ía se ocupan
m ás a fondo ta n to de la desviación com o de la picudez. Tal vez
cuando em pecem os a alcanzar u n a m ayor precisión en la des­
cripción de las form as exactas de las distribuciones de las varia­
bles sociológicas hallarem os u n m ayor em pleo p a ra estas o tra s
m edidas descriptivas.

Glosario
Coeficiente de variabilidad
Desviación media
Desviación cuartil
Recorrido
Desviación estándar
Variancia

E jercicios
1. Calcúlense las desviaciones media y estándar de los datos indica­
dos en el ejercicio 1, cap. v. Respuesta, 9.62; 11.59.
2. Calcúlense las desviaciones estándar y cuartil de los datos agru­
pados en el ejercicio 1, cap. iv. Hágase lo mismo con los del ejercicio
2, cap. iv.
3. Calcúlese la desviación estándar de los datos del ejercicio 4,
cap. v. Contrólense los cálculos escogiendo una media anticipada y
una fórmula de cálculo distintas. Respuesta, 10.83.
4. Indíquese en qué form a resultaría afectada la desviación normal
por los cambios indicados en el ejercicio 5, cap. v.

B iblio g rafía
1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2- ed.,
Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 76-84.
2. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 5.
3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 9.
4. McCollough, C., y L. van A tta: Introduction to Descriptive Sta­
tistics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 3.
5. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning
in Sociotogy, 2“ ed., Houghton Mifflin Company, Boston, 1970, cap. 6.
6. Weinberg, G. H., y J. A. Schumaker: Statistics: An Intuitive
Approach, Wadsworth Publishing Company, Inc. Belmont, Cal. 1962,
cap. 3.
7. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 7.
L a noción de la distribución de frecuencia es ya fam iliar. El p re ­
sen te capítulo se ocupa de u n tipo m uy im p o rtan te de d istrib u ­
ción de frecu en cia: la cu rv a n orm al. E sta distribución es m uy
ú til, no sólo p o rq u e u n gran n ú m ero de distribuciones em píricas
se en cu en tran se r aproxim adam ente norm ales, sino debido tam ­
bién a su significado teórico en la estad ística inductiva. E n este
m om ento, el le c to r n o debe preo cu p arse p o r las aplicaciones en
las que se em plea la curva norm al. E n efecto, el o b jeto del p re ­
sen te capítulo está en in d icar las propiedades de la curva en
cuestión y en fam iliarizar al lecto r con el em pleo de cuadros
basados en la m ism a. E sta distribución se exam ina e n la esta ­
dística d escriptiva m ás que en la inductiva p o r dos razones p rin ­
cipales. P rim ero, la curva n orm al puede em plearse p a ra p ro p o r­
cio n ar u n a in terp re tació n de la desviación están d ar. Y en segundo
lugar, serán útiles al lecto r p a ra fam iliarizarse con la distribución
norm al algunos capítulos antes de exponerse a pru eb as estad ís­
ticas que req u ieren facilidad en la m anipulación de la m ism a.
P o r lo tan to , cuanto m e jo r se com prenda la m a te ria expuesta en
este capítulo, tan to m enos dificultad se ex p erim en tará m ás ade­
lante.

V II.1. D istribuciones de frecuencias finitas versus infinitas


Las distribuciones de frecuencia h a s ta aquí exam inadas com por­
tab an un n ú m ero finito de casos. De hecho, p o r supuesto, todas
las d istribuciones em píricas co m portan n ecesariam ente u n nú­
m ero fin ito de casos, aunque ta l vez m uy grande. Sin em bargo,
los m atem áticos consideran ventajoso a m enudo p en sa r en té r­
m inos de distribuciones basadas en u n n ú m ero de casos infinita­
m en te grande. Más bien que tr a ta r con distribuciones em píricas
de aspecto anguloso, com o las que ejem plifican el histogram a
o el polígono de frecuencia, re su lta posible concebir curvas lisas
basadas en u n nú m ero indefinidam ente grande de casos y sus­
ceptibles de se r expresadas en térm in o s de ecuaciones m atem á­
ticas relativ am ente sencillas. La distribución n o rm al es u n a de
tales curvas. Antes de exam inar esta distribución específica, con­
v en d rá e stu d ia r la n atu raleza del proceso a través del cual se
d esarrolla u n a curva lisa sem ejante.
Em pecem os con un h istogram a que com prende cinco intervalos
(fig u ra V ll.la ) . Con fines de sim plicidad supondrem os que la
distribución de frecuencia es sim étrica. Ya vim os que si el n ú ­
m ero de intervalos au m en tab a sin cam biar N , la fo rm a del h is­
to g ram a tien d e a hacerse irregular. Supóngase, sin em bargo, que
104
el n ú m ero de casos se h a aum entado asim ism o. E n ta l caso,
com o en la fig u ra V II. Ib, será posible serv irse de u n m ayor n ú ­
m ero de intervalos m ás angostos, cada u n o de los cuales tenga
u n n ú m ero suficiente de casos p a ra m a n te n e r la regularidad. Si
el n úm ero de casos sigue aum entando, pueden em plearse todavía
m ás rectángulos, conservando, con todo, el tipo reg u lar (fig.

:d f £ "TTTTt-t- - ..
(í)

Fig. V II.L C om paraciones d e curvas lisas con histogram as de


a m plitudes diferentes de intervalo

V II.lc ). Las curvas lisas se h an trazad o p o r los p u n to s m edios


del lad o su p erio r de cada rectángulo. R esulta claro que los rec­
tángulos van form ando aproxim aciones cada vez m ejores a la
cu rva lisa a m edida q u e el nú m ero de los m ism os aum enta,
esto es, a m edida que dism inuye el ancho de cada intervalo.
Im aginem os ah o ra u n n ú m ero de casos en au m en to incesante,
con intervalos cada vez m ás angostos, h a sta que los rectángulos
se aproxim en ta n íntim am en te a la curva lisa que ya n o podam os
a p reciar diferencia alguna e n tre aquéllos y ésta. Designam os la
curva lisa a la que se van acercando incesan tem en te los re ctán ­
gulos cad a vez m ás angostos com o lím ite de la distribución de
frecuencia.1 Pese a que no podam os im aginam os u n n ú m ero infi­
n ito de casos, podem os, sin em bargo, concebir u n n ú m ero tan
gran d e de ellos, que los rectángulos se acerquen a la curva lisa
con el grad o de ex actitu d deseado.
Se re c o rd a rá q u e el área de cada rectángulo puede utilizarse
p a ra re p re se n ta r la pro p o rció n de casos com prendidos en el in-

Fig. V II.2. C omparación d e las áreas debajo de la curva y debajo


del rectángulo

tervalo. Como ya se indicó en el cap ítu lo iv, el á rea to tal de to ­


dos los rectángulos se suele h a c e r igual a la unidad. Así, pues,
si la p ro p o rción d e los casos del p rim e r in terv alo es .10, en to n ­
ces dicho m ism o n ú m ero re p re se n ta el á re a re al del p rim e r
rectángulo. O bservam os ah o ra que el área del rectángulo co rres­
p o n d ien te p u ed e ap ro x im arse al área que q u ed a deb ajo de la
cu rv a lisa al in te rio r de cu alq u ier intervalo dado. Es lo que
indica la fig u ra VII.2. A m edida q u e el n ú m ero de rectángulos
au m enta, el á rea to tal de los rectángulos se convierte en u n a
aproxim ación cada vez m e jo r al á rea que q u ed a b a jo la curva
lisa. E sto puede verse observando que las á reas ach u rad as se
van h acien d a cada vez m ás pequeñas. E n el lím ite, pues, el á rea
d eb ajo de la curva lisa p u ed e o b ten erse sum ando las áreas de
u n n ú m ero in definidam ente gran d e de rectángulos. Y com o quie­
r a q u e el á rea deb ajo d e los rectángulos es la unidad, el área
d eb ajo de la curva lisa será asim ism o igual a la unidad. El p ro ­
ceso q ue acabam os d e d escrib ir es exactam ente la clase de proce­
so que se h alla en la ra m a d e las m atem áticas designada com o
cálculo.

1 La noción de límite se examina también en la sección IX.l.


VII.2. F orm a general de la curva norm al
La curva n o rm al es u n tipo especial de curva lisa sim étrica.
Como q u iera q ue la curva norm al es lisa, perfectam en te sim étrica
y se b asa en un n ú m ero indefinidam ente grande de casos, sólo es
posible ap ro x im arse a la m ism a m ediante distribuciones de fre ­
cuencia que co m p o rtan datos efectivos. Tiene fo rm a de cam pana

y posee cierto n ú m e ro de propiedades m atem áticas notables, al­


gunas de las cuales se señalarán brevem ente. Como q uiera q u e es
sim étrica y unim odal, su m edia, m ediana y m odo coinciden. La
fo rm a general de la d istribución n o rm al se indica en la fi­
g u ra VII.3.
* L a ecuación m atem ática de la curva n orm al es relativam ente
sencilla en las n o rm as de los m atem áticos. A unque el lecto r no
h a b rá de em p lear n u n ca dicha fórm ula, ya que se h an confeccio­
n ad o cuadros con ta l objeto, será ú til, sin em bargo, que la vea,
p a ra señ alar y v erificar algunas de las propiedades de e s ta dis­
trib u ció n teórica. La fórm ula es com o sigue:

Y = - - - - - -- - - - - e - ( x - x ) * / 2 í*
sV2jc

e n donde Y es la a ltu ra de la curva p a ra u n valor determ inado


d e X . Como q u ie ra que ta n to jt com o e son co n stan tes (iguales
resp ectivam ente a 3.14 y 2.72), la fó rm u la sólo com porta dos m e­
didas de resum en, la m edia X y la desviación e stá n d a r s? P or
lo tan to , la fo rm a exacta de la curva n o rm al será conocida si se
nos dan los valores de dichas m edidas. E n otros térm in o s: hay
m uchas curvas n orm ales, u n a p a ra cada com binación d e la m edia
y de la desviación están d ar.
* R ecordando que u n a can tid ad afectad a de u n exponente ne­
gativo pued e esc rib irse com o la recíproca de dicha ca n tid a d ele-

2 Cuando lleguemos a la estadística inductiva se introducirá otra nota­


ción para la media y la desviación estándar. La fórmula de la curva nor­
mal suele escribirse en términos de una media de ¡i y una desviación es­
tándar de o.
vada a la p o ten cia positiva, podem os esc rib ir la fó rm u la com o
sig u e :

en la que e h a sido su stitu id a p o r su valor num érico. Suponga­


m os q ue el v alo r de s es fijo, y busquem os el v alo r d e X p a ra el

Fig. V II.4. C om paración d e curvas norm ales d e igual desviación


estándar pero d e m edias d iferen tes

cual Y será u n m áxim o. E s obvio q u e Y será m áxim a cuando


el d enom inador incluido en los p arén tesis sea m ínim o. P ero dicho
den o m in ad o r co n sta de u n n ú m ero positivo m ay o r que la unidad
elevado a u n a p o ten cia que n o p u ed e se r negativa, ya que u n
n ú m ero real cu ad rad o n o puede se r n u n ca m e n o r que cero.
P o r consiguiente, el denom inador alcanzará su m ínim o cuando
éi exponente sea cero. Y esto o c u rrirá cuando X ad o p te el valor
de X , ya que ten d rem o s X — X — 0. E sto m u e stra q u e el m odo
(y, p o r consiguiente, la m ed ia y la m ed ian a) es realm en te X , he­
cho q ue ya se h a b ía señalado, p e ro sin dem ostrarlo. Podem os
ver, asim ism o, que la ecuación da u n a curva que es sim étrica
alred ed o r de X . Como q u iera que la can tid ad X — X está al cua­
d ra d o y no puede, p o r consiguiente, ser negativa, las desviaciones
resp ecto de X e n u n a u o tra dirección p ro d u c irán valores idén­
ticos de Y .
La ecuación específica p a ra to d a curva n orm al p a rtic u la r pue­
de o b ten erse em pleando los valores propios de I y s. E n la fi­
gura V II.4 p u ed en verse curvas n o rm ales de la m ism a desviación
están d ar, p ero d e m edias distin tas. P o r o tra p a rte , las curvas
de desviaciones e stá n d a r d istin tas v a ria rá n en la configuración de
las cúspides, ta l com o se indica en la fig u ra V II.5. C uanto m e­
n o r sea la desviación norm al, ta n to m ás p u n tiag u d a re su ltará
la curva.
H a b ría q ue señ a la r que no to d as las curvas sim étricas en fo r­
m a de cam pana son norm ales. A unque las curvas de la figura
VII.5 difieran e n cu an to a las cúspides, e sto se debe únicam ente
a diferencias en sus desviaciones norm ales. Todas ellas son n o r­
m ales en cu an to a la form a. P o r regla general, las curvas sim é­
tric a s unim odales p u ed en ser m ás o m enos puntiagudas o apla-

Fig. VII.5. C om paración d e dos curvas norm ales d e m edias


iguales p ero con desviaciones estándar diferentes

n ad a s q u e la curva norm al, au n siendo su s desviaciones e stán ­


d a r las m ism as. Algunas de estas curvas pueden verse e n la
fig u ra VII.6. Las que son m ás p u n tiag u d as que la n o rm al se de-

Fig. V II.6. C om paración d e una curva norm al con curvas de su


m ism a desviación estándar pero d istin ta s en m a n to a las cim as

signan com o leptocúrticas y las m ás p lan as que aquélla com o


platicúrticas. A d iferencia de la curva n o rm al, las ecuaciones de
las curvas lep to cú rticas y p laticú rtica s tien d en a c o m p o rta r m e­
didas de resum en, adem ás de la m edia y la desviación estándar.

VII.3. Á reas bajo la curva norm al


Con frecu en cia es n ecesario d e te rm in a r la p ro p o rció n de casos
que quedan al in te rio r de u n in terv alo dado. A fortunadam ente,
la curva n o rm al posee u n a p ro p ied ad im p o rtan te que hace que
dicha ta re a re su lte relativam ente sencilla. E n efecto, resulta
q u e in d ep en d ien tem ente de la m ed ia o de la desviación n o r­
m al que u n a curva ostente, h a b rá u n área constante (o p ro p o r­
ción de casos) en tre la m edia y una ordenada, que es una distan­

cia determ inada a partir de la m ed ia en térm inos de unidades


de desviación estándar. La figura V II.7 ayuda a ilu s tra r el sen­
tid o de e s ta afirm ación.
Así, pues, si vam os en u n a desviación está n d a r a la derecha
d e la m edia, en co ntrarem os siem pre .3413 del á rea incluida en tre
la m edia y la o rd e n ad a en dicho punto. P or consiguiente, dos
veces dicha área, o .6826 e sta rá n incluidas e n tre las dos ordena­
d a s situ ad as a u n a desviación e stá n d a r a am bos lados d e la m edia.
E n o tro s térm in o s: u n poco m ás d e dos tercios de los casos se
e n c o n tra rá n siem pre en el in te rio r de una desviación están d a r
de la m edia. Y en fo rm a análoga, el área com prendida e n tre la
m ed ia y la o rd en ad a a dos desviaciones e stá n d a r de aquélla será
siem p re .4773 y, p o r lo tan to , u n poco m ás del 95 p o r ciento del
á re a e sta rá co m prendido e n tre la p a re ja de o rdenadas a dos des­
viaciones e s tá n d a r a am bos lados de la m edia. P rácticam ente,
todos los casos esta rá n com prendidos en el in te rio r de tres
desviaciones e s tá n d a r de la m edia, aunque la curva n o rm al se
ex tien d a teó ricam ente al in fin ito en am bas direcciones. P o r su­
puesto, las d istancias de la m edia n o necesitan se r siem pre m úl­
tiplos exactos d e la desviación están d ar. M ediante u n procedi­
m ien to que vam os a d escrib ir en breve, es posible d eterm in a r las
áreas e n tre dos o rdenadas cualesquiera. P or ejem plo, si nos
ap a rtam o s e n 1.96 desviaciones e stá n d a r a am bos lados de la
m edia, com prenderem os casi exactam ente el 95 p o r ciento del
área, en ta n to q ue e n tre las ordenadas a 2.58 desviaciones n o r­
m ales de la m ed ia q u ed ará incluido el 99 p o r ciento del área.
E sta p ro p ied ad de la curva n orm al b rin d a u n a in terp retació n
de la desviación n orm al y u n m étodo p a ra re p re s e n ta r en fo rm a
visual el significado de e s ta m edida de dispersión. C ierto núm ero
de distrib u cio n es em píricas de frecuencia son lo b a sta n te sem e­
jan te s p a ra q ue estas relaciones e n tre las áreas y la desviación
n o rm al se verifiquen razonablem ente bien. Inclusive en el caso
de d istribuciones de ingresos, que p ropenden a disto rsio n arse en
la dirección de los ingresos elevados, encontram os norm alm ente
dos tercios de los casos en el in te rio r de u n a desviación está n d a r
de la m edia. H ay que te n e r presente, con todo, que au n q u e la
curva n o rm al p ro p o rcio n a u n a interpretación de la desviación
están d ar, esta p ro p ied ad no pu ed e em plearse p a ra d efin ir lo
que se en tien d e p o r desviación están d ar. L a definición se hace
en térm in o s de la fórm ula. La propiedad en cuestión sólo se
verifica en el caso de distribuciones norm ales o aproxim ada­
m en te tales.
R esulta posible to m a r cualquier curva n o rm al y tra n sfo rm a r
sus valores num éricos de ta l fo rm a que p u ed a utilizarse u n sim ­
p le cu ad ro p a ra evaluar la p roporción de casos al in te rio r de
cu alq u ier intervalo deseado. Vam os a ilu s tra r este proceso p o r
m edio de u n ejem plo num érico. Supongam os que tenem os u n a
cu rv a n o rm al con u n a m edia de 50 y u n a desviación está n d a r
de 10. B usquem os la pro p o rció n de los casos en el intervalo de
50 a 65. E m pezam os p o r d eterm in a r a cuántas desviaciones es­
tá n d a r se h alla 65 de la m edia 50. P ara ello tom am os la diferencia
e n tre estos dos valores, esto es, 15, y dividim os e n tre la m agnitud
de la desviación están d a r. E n el p re sen te caso el re su ltad o es
1.5. De m odo general podem os servirnos de la fó rm u la:

X -X
Z = ------------
s

10

en donde X es el valor de la ord en ad a y Z re p re se n ta la desvia­


ción con resp ecto a la m ed ia en unidades d e desviación están d ar.
* Antes de ex am inar cóm o p u ed e u tilizarse el valor num érico
d e Z p a ra d eterm in a r la pro p o rció n de los casos e n tre la m edia
y la o rd en ad a co rrespondiente a Z, perm ítasen o s d a r u n a in te r­
p retació n altern ativ a de ésta. Podem os p e n sa r en térm in o s de
u n a tran sfo rm ació n efectiva de la variable X en la variable Z.
E n ta n to q u e la d istribución d e la variable X es n orm al con una
m ed ia de X y u n a desviación e stá n d a r de s, la nueva variable,
en cam bio, es n o rm al con u n a m edia de cero y u n a desviación
e s tá n d a r de uno.8 E sta desviación con u n a m edia cero y u n a
3 La verificación de este hecho se deja como ejercicio (véase ejercicio 3).
desviación e s tá n d a r de uno se designa com o fo rm a estándar, y
la Z se designa a m enudo com o la marca. La tran sfo rm ació n de
variables se ilu s tra en la figura VII.8. S ustraem os de cada X la
co n stan te X . Al s u s tra e r este valor co n stan te (aq u í 50) de cada
X , hem os co rrid o cada m arc a original en 50 unidades a la izquier­
d a y, p o r lo tan to , hem os desplazado efectivam ente la curva

Fig. VII.8. C om paración de las fo rm a s estándar y general de la


curva norm al

n o rm al original a u n a posición d irectam en te sobre el origen.


E sto tien e en cu en ta el n u m era d o r en la expresión d e Z. Divi­
dim os ah o ra cad a diferencia X — X e n tre la m ag n itu d d e la des­
viación están d a r. Al hacerlo, o estrecham os la curva o la ensan­
cham os, según que su desviación e stá n d a r sea o n o m ayor que
la un id ad . Podem os, pues, p e n s a r que hem os desplazado prim e­
ro la posición d e la curva n orm al original y q u e luego hem os
cam biado la m ag n itu d de la desviación están d a r, de m odo que
quede so b re la fo rm a están d a r. Al dividir e n tre la desviación es­
tá n d a r de 10, hem os cam biado esencialm ente las unidades a lo
larg o del e je horizontal, d e m odo que u n a distancia de 10 sobre
el eje de X co rresponde a la d is ta n d a de 1 sobre el e je de Z.
In d ep en d ien tem en te de la in terp re tació n que se dé, un valor
de Z = 1.5 in d ica que la o rd e n ad a se en c u en tra a 1.5 desviaciones
e stá n d a r de la m edia. E n el caso de la fo rm a están d a r, esto sig­
nifica, p o r supuesto, que la o rd e n ad a m ism a coincide con el va­
lo r 1.5 de la escala Z. Se h a n co n stru id o tablas que m u estran
áreas exactas p a ra la fo rm a e stá n d a r d e la cu rv a norm al. El
cu ad ro C del A péndice 2 es u n a de ellas. Los valores de Z se dan
de a rrib a a b a jo en el m argen izquierdo, y horizontalm ente arrib a.
Los dos dígitos de Z se o btienen leyendo de a rrib a abajo, y el
terc ero leyendo horizontalm ente. L as cifras del cuerpo del cua­
d ro indican la p roporción del á rea e n tre la m edia (o sea cero)
y la o rd e n ad a co rresp o n d ien te a Z. E n el ejem plo an terio r, ve­
m os que se hallan contenidas e n dichos lím ites las .4332 del área.
Si Z h u b iera sido 1.52, el área co rrespondiente h a b ría sido .4357.
VII.4. Ilustraciones suplem entarias del em pleo de la tabla norm al
Supongam os que querem os h a lla r el área ach u rad a de la curva
norm al indicada en la fig u ra VII.9. E n este caso el valor de Z e s :

143 - 168 -25


= -2 .0 8
12 ~12~

El hecho de que Z sea negativa indica sim plem ente que el área
ach u rad a se sitú a a la izquierda de la m edia. Al u tilizar la tabla

F ig . VII.9. Curva norm al, con porción achurada representando


el área en una sola cola

norm al, el signo de Z puede ignorarse, ya que la curva es p e r­


fectam ente sim étrica. Del cu ad ro vem os que el área com pren­
dida e n tre la m edia y u n a Z de 2.08 es .4812. Como quiera que
el á rea to tal es la unidad, el á rea a la izquierda de la m edia h a
de se r .5 (p o r sim etría). P or consiguiente, el área ach u rad a puede
o b ten erse re sta n d o el área com prendida e n tre la m edia y la
o rd en ad a del área to ta l a la izquierda de la m edia. Así, p u e s :

(P ro p o rción de casos ^ 143) = .5000 — .4812 = .0188

P or lo tan to , m enos del 2 p o r ciento de los casos tienen m arcas


in ferio res o iguales a 143.4 El tipo de problem a ilustrado en este
ejem plo es m uy co rriente, debido al hecho de que las com pro­
baciones d e hipótesis casi siem pre com prenden las colas de u n a
d istrib u ció n de frecuencia. Si hubiéram os qu erid o h allar el área
4 En una distribución continua, la proporción de los casos que sean exac­
tamente 143.0 será cero. Esto puede verse si imaginamos dos ordenadas
extremadamente próximas una de otra. La proporción de casos entre estas
dos ordenadas será también muy pequeña. Y si a continuación dejamos
que las dos ordenadas se vayan aproximando indefinidamente, la propor­
ción de los casos se hará infinitamente pequeña. Recuérdese que la línea
matemática no tiene grueso. En la práctica podrá haber algunos casos con
marcas de 143.0, debido a defectos de medición. Sin embargo, como quiera
que estamos tratando de una distribución teórica, no importa que la orde­
nada ella misma se incluya o no en el intervalo. En adelante, nos referi­
remos simplemente al área entre dos ordenadas (pero sin comprender a
éstas), o área inferior a un valor dado.
to ta l fu e ra de la región definida p o r 168 ± 25 (com o la indican las
á re a s ac h u rad a s de la fig u ra V II.10), h ab ríam o s doblado simple-
m e n te el re su lta d o an te rio rm e n te obtenido, ya que las dos áreas
ac h u rad a s son exactam ente del m ism o tam año.
P a ra to m a r o tro ejem plo, supongam os q u e necesitam os obte­
n e r el área a c h u rad a indicada e n la fig u ra V I I .ll. E s ta á rea se

Fig. V II.10. C urva norm al, con porciones achuradas presentando


áreas en am bas colas

calcu la h allan d o p rim ero la p ro p o rció n de casos e n tre la m edia


y la o rd e n ad a B y su strayendo luego la p roporción de casos e n tre
la m ed ia y la o rd e n ad a A. Las Z co rrespondientes a B y A son
re sp ectiv am en te 2.0 y 1.2. Tenem os, p u e s:

P rop o rció n e n tre B y la m ed ia .4773


P rop o rció n e n tre A y la m ed ia .3849

P roporción e n tre A y B .0924

P o r consiguiente, ligeram ente m ás del 9 p o r cien to d e los casos


q u ed a n e n tre .42 y .46. O bsérvese que si se h u b ie ra deseado obte-

Fig, V I I .ll. Curva norm al con porción achurada, representando


el área entre d o s ordenadas

n e r el á re a e n tre o rdenadas a am bos lados de la m edia, el resu l­


ta d o se h a b ría obtenido m ás fácilm ente p o r adición que p o r
su stracció n .
G losario

Leptocúrtico
Distribución de frecuencia límite
Curva normal
Platicúrtico
Marca estándar

E jercicios
1. Ya se calcularon la media y la desviación estándar de los datos del
ejercicio 1, capítulo iv. ¿Cuál fue la proporción de los casos dentro
de una desviación estándar de la media? ¿Al interior de dos desviacio­
nes estándar? ¿De tres desviaciones estándar? ¿Con cuánta aproxima­
ción corresponden dichas cifras a las que encontraríamos si la distri­
bución fuese exactamente normal? Contéstese a las mismas preguntas
en relación con el ejercicio 2, capítulo iv. Compárense y expliqúense
las diferencias entre los resultados de los dos grupos de datos.
2. Si la media de una distribución normal es de 80 y su desviación
estándar de 12,

a) ¿Qué proporción de casos se halla entre 80 y 93? Respuesta, .3606.


b) ¿Qué proporción de casos se halla entre 90 y 105? ¿Entre 70 y 105?
Respuesta, .1838.
c) ¿Qué proporción de casos es inferior a 68?
d) ¿Cuántas desviaciones estándar se necesitarían a ambos lados de
la media para obtener dos colas que comprendan cada una el 2
por ciento exactamente del área total? ¿El 10 por ciento del área
total? Respuesta, 2.054.
ej ¿Cuál m arca tiene por encima de ella el 4 por ciento de los casos?
(en otros términos, sitúese la percentil 96).

* 3. Verifiqúese que la form a estándar de la curva normal tiene una


media de cero y una desviación estándar igual a la unidad. (Indica­
ción: vuelva a escribirse la fórmula de la curva normal en términos
de Z, aprovechando el hecho de que Z = (X —X)/ s. )
4. Las calificaciones primarias de diversas pruebas de aptitud y
actitud son tratadas a menudo por los psicólogos como escalas de
intervalo. Dichas calificaciones suelen a menudo convertise luego
en calificaciones estándar con medias y desviaciones estándar conve­
nientes. Supóngase que la calificación media prim aria en un examen
de admisión en la universidad es de 117 con una desviación estándar de
28.5. Supóngase, además, que esas calificaciones primarias están dis­
tribuidas normalmente.

a) ¿Cuál es la proporción de calificaciones por encima de 131? ¿De­


bajo de 79?
b) ¿Cuáles son las calificaciones primarias correspondientes a los
cuartiles primero, segundo y tercero?
*c) En los exámenes de la universidad, las calificaciones primarias
se normalizan de modo que la media de la distribución normal
sea exactamente de 500 y la desviación estándar de 100. Concre­
tamente, ¿cómo se norm alizarán los grupos de datos anteriores
para obtener una medía de 500 y una desviación estándar de 100?
(Indicación: ¿cómo se normalizaría para obtener una media
igual a cero y una desviación estándar igual a la unidad?)

B ibliografía
1. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2‘ ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 6.
2. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 14.
3. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning
in Sociology, 2‘ ed., Houghton Mifflin Company, Boston, 1970,
cap. 6.
4. Weinberg, G. H., y J. A. Schum aker: Statistics: An Intuitive Appro-
ach, Wadsworth Publishing Company, Inc., Belmont, Cal., 1962,
cap. 8.
5. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons, Inc.,
Nueva York, 1968, pp. 147-156.
T ercera P arte

E S T A D ÍS T IC A IN D U C TIV A
E l objeto de este breve capítulo está en d a r u n b osquejo gene-
ra l de la estad ística inductiva y, en p artic u la r, de los razo n a­
m ien to s que se h allan a la base de la verificación de las h ip ó ­
tesis estadísticas. E s m u y fácil verse ta n ab ru m ad o p o r ios
detalles de cad a p ru e b a p a rtic u la r en co n trad a, que re su lte im ­
posible p e rc ib ir las sem ejanzas q u e to d as ellas tien en en co ­
m ún. E n ta l caso, el aprendizaje de la estad ística p u ed e con­
v ertirse fácilm ente en u n ejercicio de "re c e ta rio ” co n sisten te
e n a p re n d e r de m em o ria las fórm ulas y los p rocedim ientos. P o r
ello este capítulo es m uy im p o rtan te y deb ería releerse a te n ta ­
m en te u n a vez que el le c to r haya visto las dos o tres p rim e ra s
p ru e b as específicas.1

V III.l. E sta d ística y parám etros »


E l o b jeto de las generalizaciones estad ísticas está en decir algo
acerca de diversas ca rac te rístic as de la población estu d iad a, so ­
b re la b ase de h echos conocidos a p ro p ó sito de u n a m u e s tra sa­
cad a de dicha población o universo.2 D esignarem os las c a ra c te ­
rísticas de la población com o parám etros, en c o n tra ste con las
carac te rístic as de la m u estra, que se designan com o estadísticos.
A estas altu ras, el le c to r está ya fam iliarizado con cierto n ú m ero
de p arám etro s y e stad ísticas: m edias, m edianas, proporciones,
desviaciones están d a r, etcétera. Llegado aquí, el le c to r d eb ería
h ac er u n a distinción p recisa e n tre las carac te rístic as q u e se re ­
fieren a la población y las que se refieren a la m u estra. P a ra de­
sig n ar las p rim eras suelen p o r lo re g u la r em plearse las le tra s del
alfab eto griego, e n ta n to que las le tra s latin as designan las carac­
te rísticas de la m u estra.3 Así, pues, en ad elan te designarem os la
m ed ia de la población con jx, y la de la m u e stra con X ; la desvia­
ción e stá n d a r de la p rim e ra con a, y la de la m u e stra con s.
P uede establecerse u n a distinción im p o rta n te e n tre p a rá m e tro s
y estadísticas. E n efecto, los p arám etro s son valores fijos re fe ­
rid o s a la población y, p o r lo regular, no se conocen.4 Así, p o r
1 Un momento muy adecuado para la nueva lectura será después del ca­
pítulo XI.
2 Los términos población y universo ( universe ) suelen ser intercambiables,
en la literatura estadística.
8 Por desgracia, esta regla comporta cierto número de excepciones,
4 Los parámetros se tratarán siempre como fijos, aunque en realidad pue­
dan variar con el tiempo. Así, por ejemplo, la edad promedio de una po­
blación variará de un momento al próximo. Por ello deberá entenderse la
noción de muestras repetidas en términos de un gran número de muestras
sacadas simultáneamente, y no en secuencia temporal. En muchas ocasio-
119
ejem plo, en cualquier m om ento dado, la edad o el grado prom e­
dios de todos los estu d ian tes de la U niversidad de H arvard p u e­
den no conocerse, p ero se h allarán probablem ente ser los m is­
m os p a ra todos los observadores. Las estadísticas varían, por
o tra p arte, de u n a m u estra a otra. Si se escogieran al azar 10
m u estras d iferentes de estudiantes universitarios, no esperaría­
m os que todos ellos p re sen tara n exactam ente las m ism as edades
prom edios. Es m ás, desconfiaríam os si fu e ra así. A diferencia
de los p arám etro s, los valores de las estad ísticas de uria m u estra
d eterm in ad a se conocen o pueden calcularse. P ero no sabem os,
sin em bargo, c u á n rep resen tativ a sea la m u estra en relación con
la población, o h asta qué pu n to la estadística o b ten id a se aproxi­
m e al p a rá m e tro desconocido com parable.
Lo que nos in tere sa efectivam ente es la población, y n o en una
m u estra p a rtic u la r cualquiera. E n efecto, escogem os u n a m u estra
p o r razón de conveniencia, p ero n u e stro objetivo consiste p rá cti­
cam ente siem pre en sacar conclusiones a p ro p ó sito de diversos
p arám etro s de la población; sobre la base de estadísticas de
m u estras conocidas, sin duda, p e ro sin im p o rtan cia en sí m ism os.
E n las verificaciones de hipótesis form ulam os supuestos a p ro ­
p ó sito de los p arám etro s desconocidos, y preg u n tam o s a conti­
nuación cóm o serían n u estras estadísticas específicas si dichos
supuestos fu e ran correctos. Al p ro ced er así, trata m o s de decidir
racionalm ente si los valores supuestos de dichos p arám etro s son
o n o razonables a la vista de la evidencia de que disponem os.
P o r lo tan to , la verificación de hipótesis puede considerarse como
u n a fo rm a especial de proceso de decisión. Como q uiera que los
raciocinios q ue se hallan a la b ase de las hipótesis son m ás bien
com plejos, no e s ta rá p o r dem ás exam inarlos aquí brevem ente. E n
capítulos sucesivos verem os cóm o se aplican a las verificaciones
específicas.

VIII.2. Pasos en la verificación de una hipótesis


E n ciencias sociales el térm in o de hipótesis se em plea en cierto
n úm ero de sentidos distintos. A veces se utiliza p a ra designar
u n a proposición teó rica que p re sen ta alguna re m o ta posibilidad
de verificación indirecta. O tras veces, en cam bio, se em plea p a ra
designar el tip o de afirm ación que puede efectivam ente com pro­
b arse estadísticam ente. Con o b jeto d e re d u c ir la confusión será,
pues, conveniente in d icar cóm o se em plea el térm in o en este
texto. Los criterios utilizados p a ra definir lo que debam os en-
nes, nuestro objetivo científico consiste en realidad en deducir la naturaleza
de los procesos causales que dan origen a los valores de población, los que
suponemos son fijos. Al estudiar estadística parece sin embargo prudente
limitarse inicialmente al concepto más simple de generalización de poblacio­
nes fijas.
ten d er p o r verificación de u n a hipótesis son m ás bien estricto s
y d escartarían m uchas de las llam adas "p ru eb as” que se encuen­
tra n en la lite ra tu ra co rrien te en m ateria de ciencias sociales. Sin
em bargo, son adecuados a los requisitos m ás b ien rígidos estable­
cidos p o r los estadígrafos. E n cuanto tales, en efecto, rep resen ­
ta n u n ideal con referencia al cual puede com pararse el carácter
adecuado o inadecuado de cualquier com probación real.
La hipótesis es u n enunciado acerca de un acontecim iento fu­
tu ro , o de u n acontecim iento cuyo resu ltad o se desconoce e n el
m om ento de la predicción, form ulado de m odo que pueda descar­
tarse. 0 en térm inos m ás precisos, digam os que se h a com pro­
b ad o u n a hipótesis cada vez que se h an efectuado los siguientes
p asos:
1. Todos los re su ltad o s posibles del experim ento u observación
se h an anticipado a la verificación.5
2. Se h a llegado a u n acuerdo, antes de p ro ced er a la verifica­
ción, acerca de las operaciones o procedim ientos a em p lear e n la
determ inación de cuáles resultados se p ro d u c ía n efectivam ente.
3. Se h a decidido previam ente cuáles de los resultados im plica­
rán, caso de pro d ucirse, el d escarte de la hipótesis y cuáles su
confirm ación. Como re su lta de lo indicado m ás arrib a, el d escarte
h a de h ab erse ten ido en cuenta com o u n o de los resultados po­
sibles.
4. Se h a efectuado el experim ento, o se h a observado el acon­
tecim iento, se h an reg istra d o los re su ltad o s y se h a decidido si la
hipótesis quedaba o n o descartada.
Los p asos que se acaban de e n u m erar son m uy generales. La
inducción estad ística tiene que ver an te to d o con los pasos 3 y 4,
ya que el estadígrafo h a de suponer que los dos p rim ero s pasos
se h a n efectuado ya. T endrem os ocasión de ver en qué fo rm a
los dos últim os pasos se hacen m ás específicos en u n a com proba­
ción estadística. Tal vez lo m ás significativo de la lista an terio r
es el de que to d as las decisiones deben se r tom adas antes de reali­
zar la pru eb a. Todos los resultados posibles se dividen en dos cla­
ses, a sa b e r: los que co m p o rtan d escarte y los que no. Si eso no
se h ace con a n terio rid ad a la prueba, re su lta posible re te n e r u n a
hipótesis cam biando sim plem ente las reglas a m edida que se avan­
za. E sto equivale a lo m ism o que lo que h a ría u n niño que ech ara
a c a ra o cruz p a ra decidir si va o n o al cine. É ste decide, en efec­
to, "cara, v o y ; cruz, n o voy”. Si sale c a ra va al cine. P ero si sale
cruz, decide h acer depender el éxito de dos cara o cruz sobre tres
y sigue echándolos. E n e sta fo rm a acaba siem pre yendo al cine,
a m enos que p ierd a la m oneda (resu lta d o que n o h ab ía antici­
p ad o ).
5 El término experimento lo emplea el estadígrafo en un sentido muy am­
plio. Un experimento puede consistir, por ejemplo, en interrogar a un ama
de casa y anotar el "sí” o el "no” a una pregunta concreta.
* Ya se indicó en el capítulo n que la p ru e b a sólo puede h a­
cerse acerca d e u n a proposición fo rm u lad a en conceptos que se
hay an definido operativam ente. El p aso 2 indica que h ay que po­
n erse de acuerdo, con an terio rid ad a la pru eb a, acerca de las
definiciones o perativas. A m enos que sea así, re s u lta siem pre
posible re te n e r u n a hipótesis, independientem ente del re su lta­
do, d escartan d o los m étodos em pleados. S upóngase que alguien
enuncia com o hipótesis suya que “cu an to m ás elevada sea la
posición social de u n a persona, ta n to m enos p ro b ab le será que
sea m uy e tn o cé n trica”. Si los resu ltad o s n o co nfirm an esta pro­
posición, p o d rá alegar que la m edida "posición social” o "etno'-
cen trism o ” n o m ed ía lo que se la suponía m edir, y q u e algún o tro
índice (q u e confirm e su teo ría ) es m ás adecuado. Así, pues, p a­
rece p referib le re se rv a r el térm in o de h ipótesis p a ra designar
enunciados q ue se hallen al nivel operativo y p u ed an d escartarse
fran cam en te. E n efecto, si n o se puede llegar de antem ano a
u n acu erd o acerca del procedim iento, es difícil que se produzca
acu erd o a p ro p ó sito d e los resultados. Como ya se indicó en el
capítulo II, este p u n to de v ista no niega, con todo, la im p o rtan cia
de la teo ría, n i im plica que las definiciones operativas sean las
únicas n ecesarias p a ra el desarrollo de la ciencia.
El te rc e r p aso es crítico, y a que la decisión que se adopte
c o m p o rtará p o r lo re g u la r ciertos peligros de erro r. E n algunos
casos el p ro b lem a es relativ am en te sencillo. N o todas las verifi­
caciones de las hipótesis re q u ie ren inducción. E n efecto, puede
fo rm u larse u n a hipótesis a p ro p ó sito del re su ltad o de u n acon­
tecim iento concreto, tal, p o r ejem plo, u n p a rtid o de fútbol. Po­
dem os p red ecir, p o r ejem plo, que el equipo A g an ará al equipo B .
A condición que existan criterio s p a ra d eterm in a r si los proce­
dim ientos acordados se h an seguido adecuadam ente o no, las
pro b abilidades de e r ro r en cu an to a decidir si h ay que d esc artar
o no sem ejan te tip o de hipótesis son escasas. Sin em bargo, si la
inform ación se basa en u n a m u e stra de acontecim ientos sacado
de u n a población m ayor, existe m ay o r riesgo de erro r. E n efecto,
d escartam o s o dejam os de d e sc a rta r la hipótesis dándonos cuen­
ta de que, ya que n u e stro ju icio sólo se b asa en u n a m u estra,
hem os de a d m itir siem pre la posibilidad de e r ro r debida a la
fa lta de c a rá c te r suficientem ente rep resen tativ o del m ism o. Es
la teo ría de las probabilidades la que nos p e rm ite a p re c ia r los
riesgos de e r ro r y tom arlos en consideración al decidir acerca
de los criterio s que hay que em p lear p a ra d e sc a rta r las hipóte­
sis. E n las próxim as secciones se exam inarán dos tipos d e e r ro ­
re s posibles. Podrem os luego volver a la cuestión del papel que
juega la estad ística en las verificaciones de las hipótesis in­
ductivas.
V III.3. La falacia de afirm ar el consecuente
A m en u d o n o existe m an era alguna de v erificar n u e stra s p ropo­
siciones o teo rías m ás im p o rtan tes. E n lu g ar de ello, extraem os
de ésas u n a serie de consecuencias que d eberían p ro d u cirse si la
proposición o teo ría original fuese cierta, y es la validez de estas
consecuencias la que se d eja d eterm in a r p o r m étodos em píricos.6
Así, pues, la p ru eb a de la teo ría original es indirecta. La teo ría A
im plica determ inadas consecuencias B , o bien, en fo rm a sim bó­
lica, A = > B. H ay que recalcar que, al p a s a r de A a B , se em ­
plea m ás bien el razonam iento lógico o deductivo que la p ru e b a
em pírica. P o r consiguiente, si A es cierto, B lo h a de se r tam bién,
a condición que n u e stro razonam iento al deducir A de B sea
válido. Vemos luego si B se h a p roducido o n o ; si B n o se h a
p ro d u cid o (B falso), entonces sabem os tam bién que la teo ría A
h a de se r falsa asim ism o.
P ero, ¿qué o cu rre si B re su lta se r cierto ? ¿Podem os decidir
q ue A deba serlo asim ism o? No. Si lo hacem os, com etem os la
falacia de afirm a r el consecuente, com o los lógicos aco stu m b ran
llam arlo. Si B es cierto, podem os decir que A puede se r cierto,
p ero p o d ría h a b e r o tro nú m ero cualquiera de teorías altern ativ as
q u e im plicaran tam bién B. N o podem os e sta r seguros de que A
sea necesariam ente cierto, a m enos que podam os d em o strar que
n o existe o tra teo ría altern ativ a válida C p a ra la cual C = y B .
P o r desgracia, no estam os p rácticam en te n u n ca en condiciones
de hacerlo, y p o r ello m ás bien hem os de p ro ced er p o r elim ina­
ción de teorías que p o r su aceptación definitiva. La b u en a teo ría
es la que no se d eja elim inar, a condición, p o r supuesto, que se la
enuncie en fo rm a que se deje elim inar.7 En o tro s térm in o s:
h a de co nducir á hipótesis que se dejen elim in ar ellas m ism as.
Si dejam os de d e sc a rta r A cuando B es cierto, correm os riesgo
d e equivocarnos, y a q u e A puede en re alid ad ser falso. E n esta­
dística, ese tip o de e rro r, o sea el error de no descartar una hi­
p ó tesis efectiva m ente falsa, se designa com o error de tipo I I o (3.
Tal vez u n sencillo ejem plo h a rá que el razonam iento an terio r
se p re sen te com o m enos abstracto. Supongam os que tenem os
u n a te o ría A que co n sta de las tre s proposiciones sig u ien tes: 1)
to d as las p ersonas se conform an a las n o rm as de su sociedad;
« En rigor este enunciado no es totalmente exacto, ya que una teoría pura­
mente deductiva no conduce directamente a hipótesis comprobables. Véa­
se [21.
f El papel del experimento crítico está en poner al científico en condicio­
nes de escoger entre varias teorías alternativas cada una de las cuales ha
resistido previamente a la eliminación. Así, por ejemplo, las teorías A y A'
pueden predecir ambas los acontecimientos Bv B2, ..., Bk, todos los cuales
se producen. Pero A puede predecir que Bk+1 es cierto, en tanto que A'
sostenga que será falso. Si BJe+l es efectivamente falso, entonces A puede
eliminarse, y retenerse, de momento. A'.
2) u n a n o rm a de la sociedad X es la de n o ro b a r; y 3) Jones es
m iem b ro de la sociedad X . Si to d as las p a rte s de la teo ría son
co rrectas, podem os ded u cir B, que Jones n o ro b a rá. Supóngase
que p o r alguna o tra razón n o estam os en condiciones de verifi­
ca r d irectam en te lo c ierto o falso de A, p e ro que estam os en con­
diciones, e n cam bio, de averiguar la co n d u cta de Jones. Es obvio
q ue si Jo nes roba, la teo ría h a de se r in co rrecta, p o r lo m enos
en p arte . E n consecuencia, si B es falso, descartam os Pero,
si sabem os q ue Jones n o roba, n o p o r ello decidirem os que la
teo ría sea cierta. Tal vez Jones sea sim plem ente m ás honrado
que los otro s. O tal vez ni siquiera sea m iem bro de la sociedad
X . E n sem ejan te caso, si fuéram os a a c e p ta r la teo ría com o co­
rre c ta , co rreríam os u n riesgo considerable de erro r. Llegaríam os
p ro b ab lem en te a la conclusión de que, au n q u e el individuo p a r­
ticu lar en cuestión sea honrado, haríam os m e jo r en suspender
n u e stro juicio.
E l ab su rd o del ejem plo a n te rio r n o h a de o scu recer el pu n to
cap ital de que, siem pre que tengam os u n a te o ría que im plica
d eterm in ad as consecuencias y que éstas, p e ro n o así aquélla, sean
susceptibles de verificación, nos en co n tram o s e n la posición ló­
gica de p o d er d esc artar la teoría, en ta n to que n o podem os acep­
tarla, en cam bio, sin c o rre r el riesgo de equivocam os.

V III.4. La fo rm a de las hipótesis estadísticas


E n ciencias sociales no encontram os proposiciones p o r el estilo
d e la del ejem p lo an terio r, p o r la sencilla razón de que las te o ­
rías acerca del m u n d o real no im plican certid u m b re. E n lugar
de co n sid erar q u e si A es cierto B ha de serlo asim ism o, sostene­
m os solam ente que si A es cierto B lo será probablem ente tam ­
bién. Tenem os así q u e a c e p ta r la posibilidad de que B sea falso
incluso cu an d o A es verdadero. P ero si seguim os la reg la de des­
c a rta r A siem p re que B sea falso, correm os el riesgo de com eter
o tro erro r, esto es, el de descartar una hipótesis cierta. Desig­
nam os esta clase de e rro r com o error de tipo I o a. Sirviéndonos
del ejem plo a n terio r, n u estra s proposiciones h a b rá n de m odifi­
c a rse en el sen tido de d ecir: "la m ayoría de los individuos se
conform an a las n o rm as de su sociedad” y “probablem ente Jones
n o ro b a rá". Si Jones roba, descartam os la teo ría revisada con
cierto riesgo de e rro r, ya que p u ed e con todo se r cierta, porque
es posible que Jo nes sea u n o de los pocos m iem bros n o honrados.
Así, pues, existen dos tipos de e rro r que h ay que te n e r en
cuenta. El p rim e ro que exam inam os (el tip o I I ) procede de la
falacia p u ra m e n te lógica consistente en a firm a r el consecuente.
Y cuando in tro d ucim os elem entos de p ro b a b ilid ad en n u estra
teoría, entonces adm itim os u n tip o adicional de e r ro r (el tipo I).
Aunque h a s ta el p re se n te n o hayam os dicho n ad a todavía a p ro ­
pó sito del razonam iento inductivo en c o n tra ste con el deductivo,
se debe a la necesidad de generalizar m ás allá de los lím ites de
los dato s que se poseen el que debam os servim os de sem ejantes
enunciados de pro babilidad.
¿Q ué fo rm a específica ad o p tan las hipótesis estadísticas? ¿A
q ué se p arecen el A y el B? En realidad, la teo ría A co n sta de
cierto n ú m ero de supuestos acerca del c a rá c te r de la población
y de los procedim ientos relativos a la selección de m uestras,
ju n to con el razonam iento m atem ático necesario p a ra fo rm u lar
enunciados de p ro b ab ilid ad a p ro p ó sito de la de los resu ltad o s
p a rtic u la re s de la m u estra, si los supuestos adoptados son efec­
tiv am en te ciertos. P o r m edio de estos enunciados de probabili­
d ad decidim os con an terio rid ad al tiem po cuáles resultados son
ta n probables, que descartaríam os los supuestos A si estos resul­
tad o s B no se p ro d u jeran . R azonam os, en efecto, en el sentido
de que, si los supuestos son correctos, los resultados de n u estras
m u estras qu ed arán la m ay o r p a rte del tiem p o d en tro de u n de­
term in ad o re co rrid o de resultados. P o r supuesto, sólo extraem os
u n a m u estra, p ero si n u e stro resu ltad o p a rtic u la r cae fu e ra del
reco rrid o , en lo que se denom ina región crítica, rechazarem os
los supuestos, co rrien d o el riesgo de co m eter u n e rro r tip o I.
Así, pues, el B está re p resen ta d o p o r cierto re co rrid o de resu l­
tad o s de m u estras. Si los resultados quedan fu e ra de dicho re­
corrido, entonces B es falso y la hipótesis se descarta. Al decidir
la extensión del re co rrid o a in clu ir b a jo B, hem os de to m a r en
co nsideración (id ealm en te) los riesgos de erro re s de los tipos
I y II.
P ara ilu s tra r el proceso, supongam os que deseam os co m p arar
m u estras de em pleados d e oficina y de o b rero s de ta lle r en rela­
ción con el p o rc en taje de ellos que desean p a ra sus hijos ense­
ñ anza un iv ersitaria. Si querem os realm en te d em o strar que existe
u n a diferencia e n tre dichos dos grupos, procedem os tra ta n d o
de elim in ar la h ipótesis altern ativ a de que n o existe diferencia
alguna. E sto p arece c o n stitu ir u n a m a n e ra de p ro ced er extre­
m ad am e n te in d irecta, p e ro hem os de re c o rd a r que no estarem os
en condiciones de d e m o stra r directam ente que sí hay diferencia.
Con o b jeto de ev itar la falacia de afirm a r el consecuente, hem os
de p ro c ed er a la elim inación de las falsas hipótesis. E n el p re ­
sen te caso sólo existen lógicam ente dos posibilidades : o hay
d iferen cia o no la hay. Si la segunda posib ilid ad se d eja elim i­
n ar, entonces podem os concluir que existe efectivam ente alguna
diferencia.
E stablecem os, p o r consiguiente, la hipótesis de que el porcen­
ta je q u e desea la enseñanza u n iv ersitaria es el m ism o en am bos
grupos o poblaciones. Podem os a co ntinuación d e m o stra r m ate­
m áticam en te que, en el 99 p o r ciento d e todos los p ares posibles
de m u estras, las diferencias e n tre las dos series de po rcen tajes
serían in feriores al 10 p o r ciento si ios supuestos fueran efecti­
va m en te ciertos. E n o tro s térm in o s: B consta de diferencias de
m u estras q ue son inferiores al 10 p o r ciento. Y si realm ente no
existen diferencias e n tre am bas poblaciones, es su m am ente p ro ­
b ab le que los p o rcen tajes correspondien tes a las dos m u estras
caerán d en tro del 10 p o r ciento u n o de otro . Puede, en conse­
cuencia, d ecidirse que, si la diferencia e n tre los po rcen tajes de
las m u estras re su lta se r del 10 p o r ciento o m ás, los supuestos
A h a n de d escartarse. E sto se hace a sabiendas de que en el 1 p o r
ciento de las veces u n a d iferencia de e sta m agnitud o cu rrirá aun
siendo A cierto. E n o tro s térm inos, el riesgo de in c u rrir en u n
e rro r de tip o I (el de d e sc a rta r u n a hipótesis co rrec ta ) será de
u n a p ro b ab ilid ad sobre ciento.
Volvamos ah o ra a la lista original de pasos necesarios en la
verificación de las hipótesis. Ya se señaló que la inducción esta­
dística se ocu pa básicam ente de los pasos 3 y 4. El investigador
an ticip a todos los re su ltad o s posibles de las m u estras y los di­
vide en dos c la se s: aquellos resp ecto de los cuales puede descar­
ta r sus hip ó tesis y aquellos resp ecto de los cuales no puede
descartarlas. E n realidad, lo que hace la estad ística es p ro p o r­
cio n ar los crite rio s a u tilizar en la división de los resultados en
dos clases. E stos resu ltad o s se ponen en u n a u o tra de las dos
clases, de conform idad con los riesgos que se está dispuesto a
asu m ir en cu an to a in c u rrir en los e rro res de tipos I y II. La
m ayor v e n ta ja de los procedim ientos estadísticos con respecto
a los m étodos intuitivos está en el conocim iento que proporcio­
n an acerca d e esos riesgos de erro r.
E xpuesta en esta form a, la estad ística n o parece valer m ucho
la p en a de p reo cu p arse p o r ella. Sin em bargo, el p aso 3 n o r e ­
su lta n ad a fácil d e efectu ar con o tro m éto d o cualquiera. Im a­
gínese, p o r ejem plo, u n experim iento consistente e n e c h ar 25
cara o cru z con u n a m oneda cuya b u en a m an u fa ctu ra se pone
en en tredicho. Supóngase que tra ta m o s de d ecid ir acerca d e los
resu ltad o s que, en caso d e producirse, d arían lu g ar a que llam á­
ram o s la atención a la p erso n a que echa los ca ra o cruz ¿D escar­
taríam o s la hipótesis de q u e el ca ra o cruz es co rrecto si salieran
m ás de 15 caras?, ¿m ás de 18?, ¿o sólo si la m ita d de los cara
o cruz d ieran c a ras? ; ¿si se d ieran 10 caras consecutivas, in d e ­
p en d ien tem ente de los dem ás resu ltad o s? La te o ría de las p ro b a­
bilidades nos p erm ite a p reciar el n ú m ero de ellas que existen de
o b ten er cu alq u ier com binación de resultados e n el supuesto
de que la m oneda fuese co rrecta. Así, pues, escogerem os aque­
llos resu ltad o s que, en dicho supuesto, serían p rácticam en te im ­
probables.
No se esp era en m odo alguno que el estu d ian te q u e se en fren ta
p o r p rim e ra vez con la inducción estad ística com prenda en p ri­
m era lectu ra to d o lo que se acaba de decir acerca de los razona­
m ientos relativos a la verificación de las hipótesis. R econoce­
m os, en efecto, q ue el proceso es com plicado y uno de los que
p arece n p ro p o rcio n ar a los estu d ian tes m ás dificultades que cual­
q u ier o tra p a rte de la estadística. De ahí que el estu d ian te deba
h acer u n esfuerzo especial p a ra co m p ren d er dichos razonam ien­
tos buscan d o las analogías básicas con los m ism os e n tre to d as las
p ru e b as estadísticas. U na vez que la lógica subyacente se haya
p en e trad o a fondo, el aprendizaje d e la estad ística se sim plifica
considerablem ente.

Glosario
Hipótesis
Parámetro
Población
Estadística
Errores de tipo I y II

B ibliografía
1. Ackoff, R. L.: The Design of Social Research, University of Chicago
P rp c c P.hií'fiífív 1051 c a n . 5.
2. Northrop, F. s! C.: The Logic of the Sciences and the Humanities,
The Macmillan Company, Nueva York, 1947, caps. 7 y 8.
3. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 13.
T odos tenem os sin ninguna clase de duda u n a noción intu itiv a de
lo que se en tien d e p o r probabilidad, au nque n o estem os e n con­
diciones de fo rm u la r del térm in o u n a definición precisa. E n el
len guaje co rrien te hay cierto n ú m ero de p alab ras y frases que
se em plean en fo rm a casi intercam biable con el concepto de
probabilidad, tales com o posibilidades, perspectivas, ventaja,
etcétera. E stos conceptos se em plean en ocasiones en cierto n ú ­
m ero de sentidos diversos. P reguntam os, p o r ejem plo, "¿cuál es
la p ro b ab ilid ad de que hoy llueva?”, refiriéndonos a un aconte­
cim iento singular (el llover hoy) que puede o c u rrir o no en el
futu ro . El enunciado "no es pro b ab le que Jones asesin ara a su
su eg ra” se p arece al an terio r, p e ro se re fiere a un acontecim iento
q u e h a ten id o ya lugar y a cuyo p ro p ó sito nos falta, con todo,
inform ación suficiente p a ra fo rm u la r u n a afirm ación categórica.
Puede u n o re fe rirse a lo que sucederá a la larg a : "si juegas, es
p ro b ab le qu e llegues a p e rd e r h a sta la cam isa”. Aquí la alusión
n o se refiere a que u n o h ay a de p e rd e r la cam isa con u n solo
golpe de dados, sino a lo que o c u rrirá si el experim ento se rep ite
u n gran n ú m ero de veces. "Un niñ o varón, nacido en los E sta ­
dos Unidos, de p ad res blancos nativos, vivirá p robablem ente 65
años.” S em ejante enunciado p arece re ferirse m ás al tipo gene­
ralizado de niño de los cu ad ro s actu ariales q u e a u n Jim m y B row n
co n creto cualquiera.
Es obvio, sin em bargo, que si hem os de h a b la r de la probabi­
lidad de m odo inteligente y, en p artic u la r, si hem os de hacer
in terv en ir al m atem ático, el concepto h a de definirse con la p re ­
cisión suficiente p a ra que todos podam os em plearlo con el m is­
m o sentido. P o r desgracia, sin em bargo, no es ta n sencillo' obte­
n e r u n a definición que satisfaga al p ro p io tiem po al m atem ático
y a n u e s tra noción in tu itiv a de aquello que p o r lo re g u lar enten­
dem os con el térm ino. Según verem os, en efecto, el m atem ático
considera n ecesario p e n sa r en térm inos de probabilidades a vriori,
que en re alid ad n o pueden obtenerse em píricam ente y que no
dependen de cualquier m u estreo p a rtic u la r de datos. E n las
secciones que siguen, el concepto de pro b ab ilid ad se d efinirá en
lenguaje m atem ático y se exam inarán algunas de sus propieda­
des m atem áticas m ás im p o rtan tes. Al p ro p io tiem po tratarem o s
de conseguir que dicha definición y dichas propiedades m atem á­
ticas parezcan razonables a la luz del em pleo y la experiencia
cotidianos.
E n estad ística nos ocupam os en establecer generalizaciones a
p ro p ó sito de u n a población com puesta p o r lo regular de u n
g ran nú m ero de individuos. S em ejante población puede ser u n a
población fin ita realm en te existente —como, p o r ejem plo, la p o ­
blación de los E stados Unidos, o los varones blancos nativos de
m ás de 65 años— y, p o r lo tanto, claram en te delim itable. En tal
caso, tom arem os p o r lo re g u la r algún tip o de m u estra de la po­
blación, y el in terés se dirigirá en p rim e r térm ino a la población
p o r sí m ism a (o a algún subgrupo de ella), m ás que a los indi­
viduos que acontecen fig u ra r en una cualquiera de las m u estras
p articu lares. P ero la población puede tam bién ser una población
hip o tética que im plique, digam os, u n núm ero ilim itado de expe­
rim en to s efectuados “en condiciones sim ilares”. P or consiguien­
te, al estadígrafo n o le in teresan el acontecim iento o el individuo
p articu lares, a no ser en la m edida en que el acontecim iento
o individuo en cuestión puedan ayudarle a o b ten er inform ación a
p ro p ó sito de la población. Como q uiera que este texto es u n
texto de estad ística, nos servirem os en él del térm ino probabili­
dad p a ra re ferim o s no a acontecim ientos p articu lares (llover hoy,
Jones asesino), sino a u n gran nú m ero de acontecim ientos o a
lo que o cu rre a la larga.1
¿Cóm o podem os o b ten er probabilidad desde el pu n to de vista
de acontecim ientos repetidos? E n p rim e r lugar, es m enester p en ­
sa r en térm inos de u n experim ento ideal que se deje re p e tir un
g ran nú m ero de veces "en condiciones sim ilares”. Sin duda, las
condiciones cam bian en la realidad, p ero h a de ser posible im a­
g in ar p o r lo m enos q u e n o lo hacen. En cada uno- de dichos expe­
rim en to s p erfectos h an de an ticip arse todos los resultados. Así,
pues, hem os de ac o stu m b ra m o s a p en sa r en térm inos de una
m oneda ideal que se lanza al aire un gran núm ero de veces, en
circu n stan cias idénticas, y con sólo dos resu ltad o s posibles (c ara
o cru z) en cada cara o cruz. P rescindim os del hecho de que en
el p roceso del lanzam iento de la m oneda real po d ría ac ab ar por
g astarse de m odo irreg u lar, o que en ocasiones se pu d iera m an­
te n e r de canto. A prendem os a concebir u n juego de naipes p er­
fectam en te b arajad o , en el que ninguno de ellos tienda a pegarse
a o tro, pese a que sem ejan te juego no se en c o n trará nunca en la-
v ida real.
L lam em os todo- re su ltad o o grupo de resultados un "aconteci­
m ien to ”. E n este caso el acontecim iento pu ed e ser sim ple ( que no

i Resulta posible tratar las probabilidades desde el punto de vista del


acontecimiento singular y servirse, con todo, de las propiedades matemá­
ticas que se examinan en la sección siguiente (véase C8]). Sin embargo,
semejante tratamiento presenta por lo menos tantas diferencias conceptua­
les como el que empleamos en este texto.
se d eja desco m poner) o com puesto (u n a com binación de acon­
tecim ientos sim ples). Así, pues, el acontecim iento' A puede ser
u n 6 en u n solo golpe d e d ad o s; el acontecim iento B (com pues­
to ) p u ed e co n sistir en los re su ltad o s 2 y 4, o 6 en u n solo lanza­
m iento, en ta n to que el acontecim iento C (tam b ién com puesto)
puede im p licar la obtención de u n 7 en dos jugadas. P or conven-

1.00 --

0.75 -

O.

0.25 -

0 __l__i__i__i__i__i... i ...i__ i__I_____________ ,_______


0 10 20 30 40 50 100 «
Núm ero de pruebas

Fig. IX .l. Oscilación de la proporción de éxitos aproxim ándose


al lim ite de .50
ción se u tiliza el térm in o d e éxito cuando el acontecim iento con­
sid erad o se produce, y el de fracaso cuando n o ocurre.2 Puede
e fectu arse el experim ento u n gran nú m ero de veces y obtenerse
la p ro p o rció n d e las veces e n q u e o c u rre cada acontecim iento
p artic u la r.
N o estam os todavía p o r com pleto en condiciones de d a r u n a
definición fo rm al de la prob ab ilid ad . P rim ero, en efecto, hay que
ap e la r al conocim iento del le c to r acerca de qué o cu rre em pí­
ricam en te cu an d o u n experim ento com o el de lan za r u n a m oneda
al aire se re p ite u n gran n ú m ero de veces. Supongam os que em ­
pezam os los lanzam ientos y que a cada décim o ca ra o cruz anota­
m os la razón de los éxitos (digam os " c a ra s” ) al n ú m ero to tal d e
los m ism os. A hora bien, los re su ltad o s obtenidos tienden a ser
sem ejan tes a los que se in d ican en la fig u ra IX.1.
2 Este uso técnico de los términos éxito y fracaso no necesita ser con­
forme al uso general. Así, por ejemplo, el éxito puede indicar la contrac­
ción de la polio o la elección de un demagogo.
En los 10 p rim eros lanzam ientos no esperam os p o r lo regular
o b ten er exactam ente 5 caras, ni aun con u n a m oneda correcta.
Es posible, en efecto, que el núm ero de caras sea 7. La próxim a
serie de lanzam ientos puede contener u n a larga secuencia de
cruces, de m odo que al final de 20 lanzam ientos la proporción
de caras sea de .45. La serie siguiente puede d a r asim ism o m ás
cruces que caras, la próxim a, ligeram ente m ás caras que cruces,
y así sucesivam ente. Después de 100 lanzam ientos con u n a m o­
n ed a n o sesgada esperam os que la p roporción de los éxitos se
sitúe alred ed o r de .5, en ta n to que después de 1 000 lanzam ientos
deberíam os en co n trarn o s aú n m ás cerca de dicha cifra. Así, pues,
esperam os que la razón de los éxitos al nú m ero total de las p ru e ­
bas se establezca de m odo que cese de flu c tu a r m ucho de u n a
serie de 10 lanzam ientos a o tra. D espués de 10 m il pruebas, in­
clusive si obtuviéram os 20 cruces sucesivas (acontecim iento ex­
trem ad am en te im probable), el efecto de ello sería negligente en
la razón en cuestión.3 E n cam bio, si esto se h u b iera producido
en la terc era y cu a rta secuencias, el efecto h a b ría sido p ro n u n ­
ciado. P o r lo tan to, cuanto m ayor es el n ú m ero de las pruebas,
ta n to m ás se va acercando1la razón a u n determ inado valor que
los m atem áticos designan com o "lím ite". Si podem os concebir
que el experim ento se prolongue indefinidam ente, podem os con
p ro b ab ilid ad concebir tam bién que la razón alcance exactam ente
el v alo r lím ite, o sea .5. P or tanto, nos vam os encontrando con
la noción de "in fin ito ” y que los m atem áticos h an hallado que
éste es u n concepto m anifiestam ente am biguo, será preferible
p e n s a r en térm inos de u n nú m ero de p ru e b as extrem adam ente
grande.
* La noción de lím ite se d eja d efin ir con algo m ás de p reci­
sión. Decimos, en efecto, que la razón se aproxim a a u n lím ite
cuando, habiendo determ in ad o previam ente qué tip o de aproxi­
m ación deseam os, lanzam os la m oneda u n nú m ero finito d e ve­
ces, h a s ta e sta r v irtu alm en te seguros que la razón o b ten id a se
ap rox im a al lím ite con el grado de exactitud deseado. E n otros
térm in o s: escogem os p rim ero u n núm ero m uy pequeño e, que
re p resen te el grado de aproxim ación deseado. Supóngase que p o ­
nem os e = .0001. Si el lím ite existe, h ay u n núm ero finito de lan­
zam ientos N tal, que podem os p rácticam en te e sta r seguros que
la p ro p o rció n de éxitos o b ten id a qu ed ará en el in te rio r de ± .0001

s Obsérvese bien que no se ha pretendido que los números absolutos de


caras y creces sean aproximadamente iguales, ni que, si se da inicialmente
un exceso de caras, las cruces acabarán por compensarlo. Puede seguir
habiendo un exceso de caras indefinidamente, pero la razón se aproximará
a .5 incluso en este caso. Así, por ejemplo, si tuviéramos 35 caras y 15
cruces en los 50 primeros lanzamientos, la proporción de caras sería de .7.
Un exceso de 20 caras en 100 lanzamientos (o sean 60 caras) da una pro­
porción de .6, en tanto que el mismo exceso en 200 lanzamientos da un
valor de .55.
de la v erd ad era p robabilidad.4 Además, p o r m u y pequeño que
escojam os e, siem pre en co n trarem o s u n n ú m ero fin ito de lanza­
m ien to s p a ra el q u e ello es verdadero. P ero si n o existe u n lím i­
te, entonces n o re su lta rá p o r lo general posible.
No es e n m o d o alguno tin a n ecesidad lógica el q u e las razones
ob ten id as en dicha fo rm a se establezcan en u n v alo r lím ite. En
efecto, se d e ja p o r lo m enos concebir que las razones en cuestión
sigan flu ctu an d o indefinidam ente. Si esto fu e ra efectivam ente
así, n o p o d ríam os h a b la r de u n a sola p ro b a b ilid ad de caras en
relación con la m oneda. S in em bargo, cuando sem ejan te lím ite
existe, podem os d efin ir la probabilidad com o lim ite de la razón
de los éxitos al nú m ero total de las pruebas. O bien, e n fo rm a
m ás ru d a , la p ro b a b ilid ad es la pro p o rció n d e los éxitos " a la
larga".
E n el exam en u lte rio r será conveniente h a b la r com o si pensá­
ram o s en térm in o s de pro b ab ilid ad es de acontecim ientos singula­
res. Así p o drem os, p o r ejem plo, p re g u n ta r, “¿cuál es la p ro b a­
bilidad de o b te n e r u n 6 en u n solo golpe de dados o u n as ro jo al
sac ar u n a so la c a rta de la b a ra ja ? ” E n re alid ad , al servim os de
la fra se “u n solo golpe de dados", tra ta m o s sim plem ente de evi­
ta r el em pleo d e u n a fraseología com plicada. Lo q u e efectiva­
m en te querem os d ecir es : "¿qué p roporción de veces esperam os
o b ten er u n 6, a la larga, lanzando u n solo dado re ite ra d a m e n te ? ”
A títu lo de conveniencia, pues, hablarem os de u n solo golpe de
dados cuan d o en re alid ad queram os significar u n n ú m ero inde­
fin id am en te gran d e de lanzam ientos p a rtic u la re s con el m ism o
dado.
Antes de p ro c ed er al exam en de las p ropiedades m atem áticas
de las p ro b abilidades hem os de detenernos en algunos puntos.
Los experim entos de la vida real, si se rep iten , parecen efectiva­
m en te seguir el tip o general exam inado an te rio rm e n te y re p resen ­
ta d o en fo rm a de diagram a en la fig u ra IX .l, o sea que nos
acercam os efectivam ente co n ellos a u n lím ite que se d eja calcu­
lar. E sto nos conduce a h a b la r de la “ley de los pro m ed io s" y a
esp e ra r que la m ayoría de las m onedas d a rá n ca ras aproxim a­
d am en te la m ita d de las veces o que las buenas m anos a ltern a­
rá n en el bridge co n las m alas. S in em bargo, h ay q u e precaverse
c o n tra esa ley de los prom edios. E n efecto, algunas personas
h a n in te rp re ta d o dicha ley en el sen tid o de q u e si u n a m o­
n ed a da 10 veces caras consecutivas, entonces lo m ás p ro b a­
ble es que la vez siguiente dé cruz, "a causa de la ley de los p ro ­
m edios". S em ejan te in terp re tació n im plica u n a predicción a
p ro p ó sito de u n acontecim iento singular (esto es, el re su ltad o
del u n décim o lanzam iento). S egún verem os m ás adelante, sole­
4 El examen de los intervalos de confianza (cap. xn) ayudará a indicar
que no podemos estar nunca absolutamente seguros de que la verdadera
probabilidad se halle en el interior del intervalo obtenido.
m os su p o n er que lo que h a sucedido en los lanzam ientos p rece­
d en tes n o tien e ab so lu tam en te im p o rtan cia alguna en relación
con lo q ue sigue.® E n efecto, la m o n ed a n o posee ni m em o ria
ni conciencia. D esde el p u n to de vista de u n a estrateg ia inteli­
gente, si u n ju g a d o r p resen cia 10 caras sucesivas en diez lanza­
m ientos, h a ría b ien e n p re d e c ir que e n el undécim o volverá a
salir cara, e n el su p u esto d e que la m o n ed a debe e s ta r sesgada.
D ebería re s u lta r p erfec ta m e n te claro q u e las p ro babilidades
a priori ta l com o se definen en esta sección n o pueden obte­
n erse exactam ente p o r m edios em píricos, au n q u e sí pueden apre­
ciarse. Y esto se debe n o sólo al hecho de que hem os debido
im ag in ar experim entos llevados a cabo en condiciones ideales,
sino tam b ién a la circu n stan cia de que ningún experim ento puede
re p e tirse in d efin idam ente. S in em bargo, con u n n ú m ero sufi­
cien te d e p ru eb as, u n a p ro b ab ilid ad p u ed e ap reciarse con cual­
q u ier g rad o deseado de exactitud. L as reglas m atem áticas que
se d an en la sección siguiente y todos los razonam ientos m ate­
m áticos q ue se h allan en la b ase de la inducción estad ística se
o cu p an m ás b ie n de las probabilidades a priori que de las cla­
ses de p ro b ab ilid ades que pu ed en efectivam ente o b ten erse p o r
el investigador.6
Así, pues, al ap licar el razonam iento estad ístico a cualquier
ciencia q u e se ocupe del m u n d o real, nos en co n trarem o s e n la
posición lógica d esc rita en el capítulo v m . H em os de su p o n er
alguna p ro b a b ilid ad a priori p a ra p o d e r ap licar el razonam iento
m atem ático . P odem os d ecir que si é sta es la p ro b a b ilid ad a
priori co rrecta, entonces determ inados re su ltad o s em píricos son
p ro b ab les (o im p ro b ab les). E n e sta fo rm a, A es la te o ría m a te ­
m ática, y B los re su ltad o s em píricos anticipados, y n o existe m e­
dio alguno de v erificar la teo ría d irectam en te. Si B re su lta ser
falso, podem os d e sc a rta r A, pero, si B es cierto, alguna o tra teo­
ría C que com porte pro b ab ilid ad es a priori d istin tas p u ed a acaso
ex plicar tam b ién los re su ltad o s. Si querem os, pues, ev itar la fa­
lacia de a firm a r el consecuente, h ab rem o s de a d o p ta r p ro b ab ili­
dad es de las que en re alid ad sospecham os q u e son falsas, proce­
dien d o p o r elim inación. E n el próxim o cap ítu lo verem os ejem plos
p artic u la res en los que a sí se procede.

IX.2. Propiedades m atem áticas de las probabilidadesí4


A unque el lecto r tal vez no haya de volver n u n ca m ás a calcu lar
p ro b ab ilid ad es, im p o rta de todos m odos que se dé cu en ta de que
s Esto no puede suponerse en el caso del ser humano, hecho que hay que
tener presente siempre que se tomen mediciones repetidas con personas u
otros animales. Véase sec. IX.4.
« En rigor, el investigador sólo puede obtener proporciones debido al he­
cho de que el número de pruebas o casos será siempre finito.
en la base de todos los cuadros de los que h a b rá de servirse p a ra
v erificar hipótesis se en cu en tra cierto núm ero de propiedades
asaz sim ples de las probabilidades. En u n texto com o el p resen te
no es posible p ro fu n d izar m ucho en la teo ría de éstas. El o b jeto
del exam en que sigue es, pues, sim plem ente el de d a r u n a idea
de cóm o operan los m atem áticos con las probabilidades al p o n er
los fu n dam entos de la inducción estadística. Podem os em pezar
identificando tre s propiedades m atem áticas de las probabilidades
a priori.
La p rim e ra de ellas apenas re q u ie re algún com entario. Como
q u iera que en N p ruebas n o podem os o b ten er m enos de cero
éxitos n i m ás de N , síguese que p a ra cu alquier acontecim iento
A la p ro b ab ilid ad de que A o c u rra [lo que se escribe P(A)~\ ha
de se r m ayor o igual a cero y m en o r o igual a 1. Así, p u es:
0 < P (A )< 1

en donde el sím bolo ^ h a de leerse com o "m enor que o igual a ”.


Si P( A) = 1, el acontecim iento A o cu rrirá con toda seguridad; si
P(A) = 0, en cam bio, entonces n o es posible que A tenga lugar.
La regla de la adición. La segunda p ro p ied ad de las probabili­
dades es m ás interesante. H abida cuenta de su sencillez, to m a­
rem os u n caso especial de la regla de adición que puede enun­
ciarse com o sigue: si los acontecim ientos A y B se excluyen
m u tu a m en te, la probabilidad de obtener A o B [ escrito P(A o B )]
es igual a la probabilidad de A m ás la probabilidad de B, o s e a :
P ( A o B ) = P( A) + P( B) ( s i A y B se excluyen m u tu am en te) (IX .1)

P o r exclusión m u tu a entendem os que A y B n o pu ed en ten er lu­


g ar sim u ltán eam ente en el m ism o experim ento. Así, p o r ejem plo,
es im posible o b ten er a la vez u n as y u n rey si se tom a una sola
c a rta de u n a b a ra ja corriente. P o r consiguiente, aplicando la re­
gla de la adición a u n a b a ra ja hipotéticam ente p erfec ta te n e m o s :
P ( A o K ) r= P( A) + P ( K ) = 1/13 + 1/13 = 2/13

P or supuesto, pudim os h a b e r obtenido el m ism o re su ltad o te­


niendo en cu enta que hay cu a tro ases y cuatro reyes en la b a ra ja
y, con iguales probabilidades de selección, la p ro babilidad de ob­
ten er el u n o o el o tro de dichos naipes sería de 8/52, o 2/13. Y
en form a análoga, la p ro b ab ilid ad de sacar ya sea u n 5 o u n 6 en
un sim ple golpe de dados sería de 1/6 + 1 /6 = 1/3.
La regla de la adición puede h acerse extensiva a m ás de dos
casos. Así, p o r ejem plo, si A, B, C . . . , son todos ellos m u ­
tu a m en te exclusivos, entonces tenem os:

P ( A o B o C ........ o K ) = P( A) + P ( B ) + P ( C ) . . . . . + P ( K ) (IX .2)


Si tenem os u n a población com puesta de 100 p erso n as de la clase
su p erio r, 200 de la clase su p erio r a la m edia, 400 de la in ferio r
a la m edia y 300 de la inferior, p o r ejem plo, la p ro b ab ilid ad de
sac ar u n a p erso n a de la clase superior, o u n a de la clase supe­
rio r a la m edia, o u n a de la clase in ferio r a la m edia en u n a sola
vez se rá :

100 200 400 700 _


1 000 + 1 000 + 1 000 ~ 1 000

siem p re que cada p erso n a tenga las m ism as probabilidades de


ser seleccionada.
Como q u iera que las probabilidades son esencialm ente p ro p o r­
ciones, síguese que si tenem os todos los acontecim ientos posibles,
cada u n o de ellos excluyendo a los dem ás, la sum a de dichos
eventos será la unidad. Así, p o r ejem plo, si sum am os las p ro b a ­
bilid ad es de sacar u n trébol, u n a espada, u n corazón o u n dia­
m ante, hem os de o b ten er u n a sum a de 1. La probabilidad^ de
que el evento A no o c u rra es igual a la sum a de las pro b ab ilid a­
des de todos los eventos (m u tu am en te exclusivos) re sta n te s. P or
consiguiente, si su straem os P( A) de la unidad, tenem os la p ro b a ­
b ilid ad de no o b ten er A, y a que

si 1 = P(A ) + P ( B ) + P ( C ) + ........ + P ( K ) ,

e n to n c e s : 1 — P( A) — P ( B ) + P(C) + .........+ P( K) .

La p ro b ab ilid ad de n o sac ar u n a reina, p o r ejemplo', es de

1 12
1 ------o — .
13 13

H a sta aq u í sólo nos hem os ocupado de eventos que se excluyen


m u tu am en te. Una fo rm a m ás general de la regla d e la adición
p u ed e enunciarse com o s ig u e : si A y B son dos acontecim ientos
cualesquiera (n o n ecesariam ente m u tu am en te exclusivos), en­
tonces :
P(AoB)=P(A)+P(B)-P(A& B) (IX .3)

en donde P ( A & B ) re p re se n ta la posibilidad de o b ten er a la vez


A y B .7 E n el caso general, pues, la p ro b ab ilid ad de o b ten er A o

i La partícula o tal como la emplean los matemáticos incluye la posibili­


dad de que A y B se verifiquen a la vez. Por consiguiente la expresión
"A o B" significa "A y B, y A o B ”. En orden a la anotación por teoría de
grupos “A o B" significa lo mismo que A [J B en tanto que A y B significa
lo mismo que A f] B.
B se obtiene adicionando p rim ero la p ro b ab ilid ad de A a la p ro ­
babilidad de B y sustrayendo luego la p ro b ab ilid ad de obtener
sim ultáneam ente A y B. La razón de su stra e r P ( A & B ) está en
que la p ro b ab ilidad de esta ocurrencia c o n ju n ta se h a contado
dos veces: u n a en P( A) y o tra en P( B) . La fig u ra IX.2 puede
ay u d ar a co m p ren d er p o r qué es así.
En efecto, en la figura IX.2, las probabilidades de A y B se
han rep resen tad o p o r áreas proporcionales a sus respectivos va-

Fig. IX.2. R epresentación geom étrica de probabilidades, con


áreas proporcionales a P(A ), P (B ) y P (A & B )

lores num éricos, tom ándose la superficie del rectángulo com o


unidad. E n el caso general h a b rá p o r lo re g u la r cierto cruza­
m iento, es d ec ir: A y B n o serán m u tu am en te exclusivos. La
pro b ab ilid ad de o b ten er ya sea A o B (o am bos) e stá represen­
tad a p o r el to tal del á rea ac h u rad a en cruzado. Y com o quiera
que el á rea a c h u rad a m ás pequeña se h a b rá contado dos veces,
u n a en A y o tra en B, de ahí la necesidad de s u s tra e r P ( A & B )
p a ra o b ten er el á rea to tal ac h u rad a en cruz.8
Tom em os u n ejem plo num érico. Supongam os q u e A es el even­
to en que se obtenga u n a rein a en u n a sola extracción, y supon­
gam os que E es el evento de que la c a rta sea u n a espada. E n­
tonces A y B n o son m u tu am en te exclusivos ya que es posible
o b ten er am bas cosas sim ultáneam ente (o sea la re in a de espadas).
P o r consiguiente:

8 El lector ha de convencerse él mismo de que, para obtener la probabi­


lidad de .4 o Tí, pero no ambas, habremos de sustraer de 2 P(A & B) de
P{A) + P(B). Debería también tratar de extender la forma general de la
regla de adición trazando una gráfica semejante para los eventos A, B y C.
(Véase ejercicio 4b).
P ( A o B ) = P( A) + P ( B ) - P ( A & B )
= 4/52 + 13/52 — 1/52 = 16/52 — 4/13.

E ste resu ltad o puede verificarse intuitivam ente teniendo en cuen­


ta q ue A o B p o d rían o b ten erse extrayendo cualquier esp ad a o
u n a de las tre s reinas re sta n te s, o sea u n a de las 16 cartas con­
sideradas. Si h ubiéram os adicionado sim plem ente P( A) y P( B) ,
la re in a de espadas se h a b ría contado dos veces. E n la sección
siguiente verem os Una regla general p a ra el cálculo de P ( A & B ) ,
ya q ue n o siem pre re su lta ta n sencillo o b ten er dicha cantidad.
O bsérvese que si los dos eventos son m u tu am en te exclusivos no
h a b rá cruzam iento, y P { A & B ) será igual a cero. P or lo tanto,
la regla general reconduce, en esta ocasión, al caso especial d e la
regla de la adición exam inada an terio rm en te.
La regla de la m ultiplicación. La te rc e ra pro p ied ad de las p ro ­
babilidades nos p e rm ite o b ten er la p ro b ab ilid ad de que dos (o
m ás) eventos o c u rran co n ju n tam en te. P odríam os en u n ciar esta
p ro p ied ad com o sigue: si A _y B son dos eventos cualesquiera, la
probabilidad d e que se produzcan am bos es el producto de
la probabilidad d e que se produzca uno de ellos por la probabi­
lidad condicional d e que se produzca el otro, dado que el p rim er
even to haya ocurrido. O en sím b o lo s:

P ( A & B ) = P ( A ) P ( B |A ) = P (B )P (A |B ) (IX .4)

Los sím bolos P(A | B ) y P (B | A) re p re se n ta n lo q u e se designa


com o p ro b abilidades condicionales. P(A | B ) debería leerse com o
"la p ro b ab ilid ad de A, dad o que B haya o cu rrid o ”. La expresión
d e probabilidad condicional significa que adm itim os que la p ro ­
b ab ilid ad de A p u ed e depender de que B o c u rra o no. E n otros
té rm in o s : la p ro b a b ilid ad de A dado B puede d iferir de la p ro b a­
bilid ad de A dado que B no haya ocurrido. Así, p o r ejem plo,
si B es el evento de que u n individuo conduce el autom óvil te ­
m era riam en te y A el evento de que se en c u en tre en u n accidente
d e trá n sito , suponem os que P ( A |B ) es m ay o r que P (A ), ya
que el co n d u cir tem erariam en te es causa de accidentes.
Antes de p ro ced er a ilu s tra r la regla de la m ultiplicación, p e r­
m ítasenos in tro d u cir u n nuevo concepto im p o rtan te. Se dice de
dos eventos A y B que son estadísticam ente independientes si,
y sólo si, P(A \ B ) = P ( A ) ; y P ( B |A ) = P (B ). Así, pues, si
la p ro b ab ilid ad de que A o cu rra es la m ism a, independientem ente
d e si B h a o cu rrid o o no, y si lo m ism o es cierto resp ecto de B,
entonces los dos eventos son independientes u n o de otro. E sto
significa, en lenguaje llano, que el conocim iento de que u n o de
los acontecim ientos se h a p roducido n o ayuda a p re d ecir el otro.
P o r ejem p lo : la p ro b ab ilid ad de sac ar u n as, dado que la c a rta
sea ro ja, es de 2/26, ya que hay dos ases ro jo s y u n to tal de 26
ca rtas ro jas. É sta es num éricam ente la m ism a que la pro b ab i­
lidad no condicional de sac ar u n as (4/52). P o r lo tanto, el color
y el valor de la c a rta son estad ísticam en te independientes. Y en
fo rm a análoga, el hecho d e sab e r que u n a c a rta es u n as no
ayuda a ad iv inar su color. Obsérvese, de paso, q u e los eventos
m u tu am en te exclusivos no son independientes. E n efecto, si A
y B son m u tu am en te exclusivos, hem os de te n e r siem pre
P(A | B) = P(B | ¿4.) = 0. ¿P o r qué?
E n el caso en que A y B sean estad ísticam en te independientes,
tenem os P(B | A) = P(B), y la regla de la m ultiplicación asum e
la fo rm a sim ple d e:

P(A& B) = P(A)P(B) (si A y B son independientes)


P o r lo re g u la r encontrarem os que este caso especial de m ultipli­
cación es de em pleo m ucho m ás fácil que la regla general.
Vamos a ilu s tra r p rim ero la regla de m ultiplicación en los
casos especiales en que A y B son estad ísticam en te independien­
tes. P o r lo re g u la r pensam os que las repeticiones de u n experi­
m en to son in d ependientes u n a de o tra. Así, p o r ejem plo, si lan­
zam os la m oneda al aire u n a vez, suponem os q u e el resultado
no afecta lo q u e p u ed a su ced er en el próxim o lanzam iento; la
p ro b ab ilid ad de "cara " perm an ece co n stan te de u n lanzam iento
al otro. E n efecto, el sab e r que salió ca ra no nos ayuda a p red ecir
el resu ltad o del segundo lanzam iento.9 P or consiguiente, sirvién­
donos de la regla de m ultiplicación, podem os calcular la p ro b a­
b ilidad de sac ar caras en dos lanzam ientos sucesivos m ultipli­
cando e n tre si las pro b ab ilid ad es de o b ten er c a ra en cualquier
p ru e b a dada. E n el caso de u n a m oneda n o sesgada, la p ro b a­
b ilidad de dos caras sucesivas será de (1 /2 )(1 /2 ) = 1/4. Y en
fo rm a análoga, si A es el evento de sac ar u n a c a rta ro ja, y B el
evento co n sisten te en o b ten er u n as, entonces la p ro b ab ilid ad de
sac ar u n as ro jo P( A&B) se rá :

P(A &B) = P(A)P(B) = 1/2 x 1/13 = 1/26.


Suponemos que la verdadera probabilidad es conocida y Que nuestra
tarea consiste en predecir el resultado de cualquier prueba particular. Es
cierto, por supuesto, que sin dicho conocimiento la probabilidad podría
acaso estimarse utilizando los resultados de pruebas anteriores y sirvién­
dose luego de dicha estimación para predecir el futuro. Esto no es lo que
entendemos cuando decimos que en el caso de independencia el conocimien­
to de un evento no nos ayuda a anticipar el otro. Así, por ejemplo, sabiendo
que han salido 20 caras consecutivas, nos veríamos llevados a predecir
una moneda sesgada, esto es, que la probabilidad verdadera de sacar cara
es algún valor superior a .5. Y esto nos llevaría a su vez a predecir cara en
ocasion del vigésimo primer lanzamiento. Sin embargo, el supuesto es
de que, si existe, el sesgo es ya conocido. Por lo tanto, si se sabe que
p es .8, el conocimiento^ de 20 caras sucesivas no nos ayudará a predecir
el resultado del lanzamiento siguiente.
Tom em os dos ejem plos en los que n o se da independencia.
E l p rim ero de ellos co m p o rta u n a situación en la que dos varia­
bles están relacionadas de ta l m odo que el conocim iento dé u n a
ayuda a p re d ecir la o tra. Supóngase que tenem os los siguientes
d ato s to talm en te hip o tético s:

Carácter Morenas Rubias Pelirrojas Total

Emprendedor 300 600 300 1200


Tímido 600 100 100 800

Total 900 700 400 2 000

Si d e dicha población, arreg lad a p o r u n a perso n a ajena, se saca


al a z a r 10 u n a m uchacha, ¿cuál es la p ro babilidad de que sea
u n a p elirro ja em prendedora? Como q u iera q u e en el to tal de
2 m il m uchachas hay 300 p elirro jas em prendedoras, la p ro b a­
b ilidad de sac ar u n a de dicho g rupo p a rtic u la r es, obviam ente,
300/1 200, o sea .15. E sta m ism a pro b ab ilid ad se o b ten d rá ahora
sirviéndose de la regla de m ultiplicación.
Supongam os que A es el evento consistente en o b ten er una
p elirro ja, y B el evento de que el c a rá c te r es em prendedor. Como
q u iera que hay 400 p elirro ja s en conjunto, P( A) = 4 0 0 /2 000, o
sea .2. Sin em bargo, e n tre estas 1 200 m uchachas em prendedoras
hay 300 p elirro jas. P or lo tanto, si tenem os conocim iento de que
el c a rá c te r es em prendedor, la pro b ab ilid ad de que la m uchacha
sea p elirro ja es de 300/1 200, o sea .25. E n fo rm a análoga, la
p ro b ab ilid ad de o b te n e r u n a m uchacha em prendedora es de
1 200/2 000, o sea .6, pero, si se sabe que el d ato es el de p elirro ja,
la pro b ab ilid ad de que la m uchacha sea em prendedora es de
300/400, o sea .75. Tenem os, pu es:

P( A) = .2 P ( A \ B ) ~ . 25
P (B ) = .6 P( B\ A) = .75

Sirviéndonos de la regla d e m ultiplicación llegam os a la siguien­


te p ro b ab ilid ad de o b ten er u n a p e lirro ja em p ren d ed o ra:

P ( A & B ) = P ( A ) P ( B ) A ) = (.2) (.75) = .15


= P (B )P (A |B ) = (.6) (.25) = .15

P a ra el segundo ejem plo, supongam os que hem os de calcular


la p ro b ab ilid ad de sac ar de u n a b a ra ja co rrien te dos ases en dos
io La muestra al azar se definirá más adelante en el presente capítulo. En
una muestra al azar, todos los individuos y todas las combinaciones de
individuos tienen las mismas probabilidades de ser seleccionados.
extracciones. Pongam os que A es el hecho de o b ten er u n as en la
p rim era extracción y B el de que saquem os u n as en la segunda
extracción. ¿Son A y B independientes? E sto depende de si vol­
vem os o n o a p o n e r el as en la b a ra ja después de la p rim era
extracción y b a ra ja m o s de nuevo an tes de la segunda. Si proce­
dem os con su stitución, las dos extracciones serán independien­
tes, ya que la p ro b ab ilid ad de o b ten er u n as es c o n stan te d e u n a
extracción a la p ró x im a y que el re su ltad o de la p rim e ra no
p u ed e afe c ta r en m odo alguno el d e la segunda. E n este caso,

P (A & B ) = P( A ) P ( B ) = (1 /1 3 )(1 /1 3 ) = 1/169.

Supongam os ah o ra que procedem os sin reposición, esto es, que


n o volvem os a co locar la p rim e ra c a rta en la b a ra ja . Si aconte­
ciera que sacáram os u n as en la p rim e ra extracción, entonces la
p ro b ab ilid ad de o b ten er o tro sería de 3/51, ya que sólo h ab ría
tres ases en las 51 ca rtas re sta n te s. P o r o tra p a rte , si n o sacá­
ram os u n as en la p rim e ra selección, la p ro b a b ilid ad d e o bte­
n erlo en la segunda sería de 4/51. P o r consiguiente, en este caso
no tenem os in d ependencia y h ab ríam o s de servirnos de las p ro ­
babilidades condicionales p a ra calcu lar P( A &l B) . Así:

P( A & B ) = P ( A ) P ( B \ A ) = 4/52 X 3/51 = 1/221.

Conviene a d v e rtir que la reg la d e m ultiplicación q u e hem os


exam inado p o d ría extenderse igualm ente a m ás d e dos eventos.
Así, si A, B y C son todos ellos independientes uno de otro:

P ( A & B & C ) = P( A) P( B) P( C)
P o r lo q ue se re fiere a las probabilidades condicionales, sus
principios p u ed en ap licarse fácilm ente a ciertos casos sencillos.
Así, p o r ejem plo, si hu b iéram o s de sac ar c u a tro ases co n reposi­
ción, po d ríam o s calcular la pro b ab ilid ad d e o b ten erlo s com o
sigue:
P (4 ases) = — ----- ------ - ----- L = ___ l___
52 51 50 49 270 725

Si hay tre s acontecim ientos A, B y C que n o son m u tu am en te


independientes, p o d rá o b serv arse la p ro b ab ilid ad d e su ocu rren ­
cia c o n ju n ta con la siguiente fó rm u la :

P ( A & B & C ) = P(A)P(B\A)P(C\A&B)


en la que P { C \ A & B ) se re fiere a la p ro b ab ilid ad de C, ya que
ta n to A com o B h a n ocurrido. Podem os u tilizar p o r supuesto
o tras fó rm u las sim ilares, colocando e n o tro o rd e n las posiciones
de A, B y C. S upongam os q u e tenem os la población siguiente:
Blancos No blancos
Actitud Total
Republi­ Demó­ Republi­ Demó­
canos cratas canos cratas
A favor del aumento de
la asistencia social 50 100 25 225 400
En contra del aumento 350 200 25 25 600
Total: 400 300 50 250 1000

Si A es el caso en que sacam os u n blanco, B aquel en que obte­


nem os u n republicano, y C la ocasión en q u e la perso n a está a
fav o r del au m en to en la asistencia pública, y dado que sólo 50 re ­
publicanos blancos están a favor de la asistencia, tendrem os
P( A & B & C) = 50/1 000 = .05.
E n el p ro p io cu ad ro vem os asim ism o que P( A) = 700/1 000;
P( B\ A) — 400/700; y que P (C |A & B ) = 50/400. La ú ltim a d e éstas
cifras re s u lta del hecho de que de e n tre las 400 personas que son
a la vez A y B (rep u blicanos y blancos) sólo 50 apoyan la asis­
tencia.
A plicando la regla de m u ltip licar obtendrem os el re su ltad o :

P( A & B & C) = P( A) P( B\ A) P( C\ A & B )

700 400 50 50
= ----------------------- = ----------= .05
1000 700 400 1 000

P a ra v erificarlo p o d ríam o s ap licar la siguiente fó rm u la:

P(A&B&C)-P{C)P(B\C)P(A\B & C)

400 75 50 50
= — -------------------- = ----------= .05
1000 400 75 1 000

El concepto de acontecim ientos estad ísticam en te independien­


tes está en estrecha relación con el de la independencia e n tre dos
(o m á s) variables, y será exam inado con m ayor detención en
p osteriores capítulos.
Ya hem os utilizado el ejem plo de la b a ra ja , pues ésta tiene la
p ro p ied ad de que los valores faciales y la secuencia son indepen­
dientes, lo que supone que el conocer u no de los dos no ayuda
p a ra p red ecir el otro. T anto en el ejem plo relativo al color del
cabello de la m uchacha con la que se va a salir, y a su conducta,
y aquel en que se relacionan e n tre sí la raza, la preferencia polí­
tica y la a c titu d an te la asistencia pública, consideram os necesa­
rio h acer u so de las probabilidades condicionadas p a ra lograr
resu ltad o s correctos. E n estos casos afirm am os que las varia­
bles afectadas no son independientes, o que están correlaciona­
das. P ara h acerlo m ás sencillo considerem os el ejem plo de las
m uchachas. Supongam os que exactam ente el m ism o p o rcen taje
(60 p o r 100) de rubias, m orenas y p elirro jas fuesen em prendedo­
ras, en cuyo caso el conocim iento del color del cabello carecería
de valor, en la predicción de la conducta. Si conservam os los
m ism os totales m arginales, los resultados p asa rían a s e r:

Rasgo Morenas Rubias Pelirrojas Total


Emprende doras 540 420 240 1200
Tímidas 360 280 160 800
Total 900 700 400 2 000

Debe co m p robarse en p rim e r lu g ar que en el caso de estos


datos h ipotéticos n o hay necesidad de em plear probabilidades
condicionadas. O bsérvese adem ás que la p ro b ab ilid ad (o p ro ­
p o rció n ) correspondiente a cada casilla del cu ad ro es igual al
pro d u cto de las dos probabilidades en lo s m árgenes correspon­
dientes. Si p o r ejem plo exam inam os el cu ad ro su p erio r izquierdo
verem os que la p ro b ab ilid ad 540/2 000 = .27, es ju stam en te el
p ro d u c to de las probabilidades que corresponden a la p rim era
colum na m arginal (es d ec ir: 900/2 000 = .45) y la p rim era fila
m arginal (o se a : 1 200/2 000 = .6). Lo m ism o es cierto p a ra
cad a u no de los re sta n te s cuadros. No im p o rta cu á n ta s ocasiones
p u ed an d isponerse las categorías de dos variables en u n a clasi­
ficación cruzad a que cuente con e s ta propiedad, direm os que las
variables son estad ísticam en te independientes e n tre sí. En pos­
terio res capítulos llevarem os a cabo p ru e b as estadísticas re la ti­
vas ta n to a la independencia com o a las m edidas de dependencia
b asadas en esta sencillísim a idea.
* N o ta acerca del teorem a de Bayes. Dado que P (A & B ) —
P ( A) P( B\ A) podem os resolver la p ro b ab ilid ad condicional, obte­
niendo
P(A&B) _P(B)P(A\B)
1 P( A) P( A)

P ero P( A) e n el denom inador p u ed e se r descom puesto en los


dos térm in o s P( B ) P ( A \ B ) + P( B) P( A\ B) , ya que B y B (n o B )
son posibilidades m u tu am en te exclusivas y exhaustivas. E sto nos
lleva a la ecuación.
P( B) P( A\ B)
P( B\ A)
P(B)P(A\B) + P(B)P(A\B)

ecuación conocida com o teo rem a de Bayes. E ste teo rem a puede
se r generalizado p a ra diversas alternativas B lt B 2, . . . , B k, en
ta n to estas altern ativ as sean m u tu am en te exclusivas y exhausti-
k
vas, de m odo que 2 ? (£ » ) = 1. La p ro b ab ilid ad de que u n B u
i —1
dado, sup u esto que A h a ocurrido, puede escrib irse a s í :

PjB^PjAlB^
P( Bt \A)
S PÍBJPiAlBO
i=l
E s posible desde luego ap licar el teo rem a de Bayes siem pre que
se nos den todas las probabilidades condicionales e incondicio­
nales, p e ro estas aplicaciones n o son especialm ente útiles. Puede
sin em bargo ser ap licado tam b ién en casos en que las "p ro b ab i­
lidades psicológicas” hayan reem plazado los conceptos de fre ­
cuencia relativa. H ays [5 ] previene c o n tra este em pleo. Las
aplicaciones d irectas del concepto bayesiano e n relación con la
e stad ística e stá n a ú n relativam ente poco p ro b ad as. P arece sin
em bargo aconsejable su g erir m étodos p a ra su em pleo. Conside­
rem o s en p rim e r lu g ar u n p ro b lem a m uy sencillo. Supongam os
q ue u n individuo escoge a capricho u n a de dos u rn a s, y a con­
tin u ació n selecciona a capricho u n a bola de la u rn a que había
elegido. La p rim e ra de las u rn a s contiene u n a m ita d de bolas
b lan cas y o tra m ita d negras, en ta n to que la segunda contiene dos
tercios de bolas blancas y u n tercio de bolas negras. Sabem os que
el in dividuo selecciona u n a bola blanca, y desea asig n ar u n a
p ro b a b ilid ad al hecho de que h a seleccionado, digam os, la p rim e­
r a u rn a . O bsérvese q u e en este caso se tr a ta de u n a especie de
"p ro b ab ilid ad in v ersa”, p a rtic u la rm e n te a p ro p ia d a al concepto
d e p ro b ab ilid ad es e n el que se refleja el estad o de n u estro s co­
n ocim ientos. P uede decirse que el individuo seleccionó o n o se­
leccionó la p rim e ra u rn a , siendo las respectivas probabilidades
1 a 0. P ero si hu b iéram os de h ac er u n a apuesta, con base en el
conocim iento que tenem os de que sacó u n a bola blanca, ¿qué
v e n ta ja estaríam o s dispuestos a d a r a favor d e que escogiera
la p rim e ra u rn a ? É sta es ciertam en te u n a fo rm a razonable de
p la n te a r el problem a.
Si denom inam os A al acontecim iento de la selección de u n a
bola blanca, B al de q u e fu e seleccionada la p rim e ra u rn a, y
B al acontecim iento de que fue seleccionada la segunda urn a,
obten d rem o s, al ap lica r el teo rem a de Bayes
P ( B |¿ ) = ________
P ( B ) P ( A \ B ) + P( B ) P ( A \ B )

(1 /2 )(1 /2 ) 1/4 3
( l/2 ) ( 1/2) + (1 /2 ) (2 /3 ) 1 / 4 + 1/3 7

re su ltad o q u e n o h a b ría sido posible p re d ecir con sólo u sa r argu­


m entos de sen tid o com ún. O bsérvese que p u esto que las dos u r ­
nas fu ero n seleccionadas con las m ism as probabilidades, ten d re­
m os P ( B ) — P ( B ) = .5, lo que h a b ría p erm itid o sim plificar la
fó rm u la de Bayes.
C onsiderem os a continuación u n a clase de p roblem a, p er se m uy
alejad o de la estadística, p e ro que es razonablem ente realista
desde el p u n to de vista de las probabilidades psicológicas im plí­
citas en la fa lta de conocim ientos, p o r p a r te de u n observador,
en relación con las frecuencias relativas u o tra s consideraciones
que p u d iera n se r usadas p a ra o b ten er probabilidades a priori.
Supongam os que sabem os que u n g rupo de acción cuenta con
c u a tro m edios alternativos, con costos y probabilidades de éxito
diferentes. A dm itam os que u n observador, basándose en su apre­
ciación de los costos relativos de los procedim ientos alternativos,
definidos com o B lt B 2, Bz, B it les asigna las probabilidades sub­
jetivas .4, .3, .2 y .1, respectivam ente. Supongam os que calcula
las posibilidades de éxito p a ra los m edios alternativos com o .3,
.5, .6 y .9, respectivam ente. Averigua que el g ru p o h a tenido éxito
en su acción, p e ro no puede d eterm in a r cuál de los m edios fue
el utilizado. ¿Cóm o p o d rá v alo ra r de nuevo su estim ación origi­
n al de las probabilidades de cada uno de los procedim ientos,
sabiendo q ue el éxito (A) se h a producido? A plicando la form a
m ás generalizada del teo rem a de Bayes p a ra las p rim eras m e­
días ( B j), obtenem os:

P ÍB J P jA lB J
P (B i|A ) =
I P iB J P iA lB j

(•4)(.3) .12 _
• = .25
(.4 )(.3) + (.3)(.5) + (.2) (.6) + ( .l) ( .9 ) .48

De esta fo rm a, apoyándose en este conocim iento adicional,


p o d rá el ob servador asignar al p rim e r m étodo la probabilidad
su b jetiv a de .25. U tilizando cálculos sim ilares asignaría a los
re sta n te s m étodos las siguientes probabilidades subjetivas : .3125,
.25 y .1875, respectivam ente.
Es m en este r in tro d u cir u n a com plicación m ás. H a sta aquí he­
m os escogido problem as m uy sencillos, que casi h ab ría n podido
resolverse intuitivam ente. N o hace fa lta decir que la m ayoría
de los problem as de probabilidades son m ucho m ás com plejos
que los que se acaban de exam inar. Con o b jeto de o p e ra r con
p roblem as u n poco m ás com plicados, es necesario to m ar en
cu en ta el orden en que los acontecim ientos pueden producirse.
Supóngase, p o r ejem plo, que querem os h a lla r la probabilidad
d e o b ten er u n as, u n rey y u n a reina en tre s extracciones con
reposición. Podem os h a lla r la probabilidad de sac ar un as en la
p rim e ra extracción, u n rey en la segunda y u n a rein a en la te r­
cera. E sta pro b abilidad sería de (1/13)®. P ero esto re p resen ta
la p ro b ab ilid ad d e o b te n e r un as seguido d e u n rey seguido d e una
reina. P ero hay o tras posibilidades de o b ten er u n as, u n rey y
u n a rein a e n tre s extracciones si no nos im p o rta el orden de su­
cesión. E n realidad, estos naipes po d rían o b ten erse d e las seis
siguientes m a n e ra s : ARR', A R R , RAR', R R ’A, R ’AR, R'RA. Puede
verse q u e cad a u n a de dichas posibilidades p re se n ta las m ism as
probabilidades. P or lo tan to , si nos in tere sa la probabilidad de
sac ar dichas cartas en un orden determ inado cualquiera, pode­
m os ad icio n ar sus probabilidades separadas (ya que son m u tu a ­
m en te exclusivas), con lo que obtenem os 6(1/13)®.
E n esta form a, sirviéndonos de la regla de m ultiplicación, he­
m os re ferid o el acontecim iento A al p rim e r resultado, B al segun­
do, y así sucesivam ente. E n otros térm in o s: hem os tom ado en
cu en ta el orden, en ta n to que p o r lo re g u la r estam os m ás in te­
resados en o b ten er u n a d eterm in ad a serie de resultados. Pode­
m os q u e re r sab er la p ro b ab ilid ad de cu a tro ases en u n a m ano
de bridge o de o b ten er u n determ inado p o rc en taje de negros en
u n a m u estra, in d ependientem ente del ord en de la extracción. Al
calcu lar pro b ab ilid ades de esta clase, será por lo regular m ás sen ­
cillo d eterm in a r p rim ero la probabilidad de cualquier orden dado
de resultados, y luego, si todos los dem ás órdenes son igualm ente
probables, podem os m u ltip licar sim plem ente el nú m ero d e los
ó rdenes posibles p o r la probabilidad de que o cu rra u n o cualquie­
r a d eterm in ad o de ellos. O bsérvese q u e al p ro c ed er así nos ser­
vimos ta n to de la regla de m ultiplicación com o de la de adición.
E x isten fó rm u las concretas que p erm iten calcular exactam ente
cuántos sean los órdenes posibles en u n problem a determ inado.
E n las ocasiones en q u e tenem os N diferentes acontecim ientos
q u e o c u rren en u n ord en determ inado, nos referim os a ello
com o u n a p erm u ta de dichos acontecim ientos. E n las ocasiones
en que el ord en carece d e interés, denom inarem os com binación
a la agrupación de acontecim ientos. P o r ejem p lo : en el caso de
la com binación sim ple (A , R , R' ), h a b rá seis ordenam ientos dife­
ren tes. O bservem os cóm o pu ed en obtenerse fórm ulas p a ra d eter­
m in a r el nú m ero de p erm utaciones en casos sencillos.
Com encem os con u n a situación en q u e todos los acontecim ien­
tos N son distintos. ¿De cu án tas m an eras pu ed en se r ord en a­
dos? E stá claro que si consideram os N posiciones ordinales (p o r
ejem p lo : N sillas dispuestas en fila), la p rim e ra de aquéllas po­
d rá ser ocu p ada p o r cu alq u iera de los objetos o acontecim ientos.
H abiendo llenado esta posición, podrem os h ac er lo m ism o con
la segunda, utilizando cualq u iera de los N —1 acontecim ientos
re sta n te s, la te rc e ra con u n o de los N —2, etcétera. C uando llegue­
m os a la ú ltim a posición sólo nos re sta u n a posibilidad. H ab rá
pues:
N ( N - l ) ( N - 2 ) ... (3 )(2 )(1 ) = N \

ó rdenes p o sib les; N I es la expresión del largo pro d u cto de la


p a rte izq u ierda de la igualdad, y se le denom in a "facto rial N".
Supongam os p o r ejem plo que tenem os 13 ca rtas, u n a de cada
valor. Las volvem os de c a ra u n a p o r una. ¿C uántas son las di­
fe ren tes p erm u tacio n es p osibles? La p rim e ra c a rta p u ed e ten er
u n o cu alq u iera de los tre c e valores. Como q u ie ra que esta c a rta
y a h a sido descubierta, la segunda p o d rá te n e r u n o cualquiera
de los doce valores re sta n te s, siendo p o r ta n to 13 x 12 las solucio­
n es posibles p a ra las dos p rim e ra s cartas. C ontinuando ad elan te
con el m o n tó n de ca rtas determ inarem os q u e h a b r á :

(1 3 )(1 2)(11)(10) . . . (3 )(2 )(1 ) = 13! = 6 227 020 800

pro ced im ien tos diferentes p a ra o rd e n a r las tre c e cartas.


Supongam os a continuación que los acontecim ientos n o son
todos d iferentes. C ontam os de nuevo con trec e cartas, p ero dos
d e ellas p u ed en se r ases, y n o distinguirem os e n tre los diferentes
ó rd enes, re su ltan d o así in d ifere n te el orden en que re su lten se­
leccionados los dos ases. Supongam os que h an sid o escogidos
e n las posiciones q u in ta y undécim a. Si h u b iera n sido distintos en­
tre sí, y en tal caso denom inam os asj y as2, p a ra cada d istin ta p e r­
m u tació n en q u e el asx ap a rec ie ra an tes que el as2, h a b ría o tra
p erm u tació n id én tica en la q u e el as2 p re ced e ría al asx. Vemos
así que cuando n o podem os d istin g u ir e n tre estos dos ases, hay
sólo la m ita d de p erm u ta s en relación con el caso de que todos
los acontecim ientos sean distintos. P or ello el n ú m ero to tal de
p erm u ta s en este caso será N ' l / 2 ! = Nl / 2 .
Supongam os q u e los ases h u b iera n sido tre s en vez de dos. Si
se les d en o m inase a s1( as2 y as3, observaríam os q u e h a b ría habido
3! = 6 p e rm u ta s e n tre dichos ases, im posibles d e distinguir. El
n ú m ero to tal de p erm u ta s de las trec e c a rta s será 13 ! / 3 ! E n ge­
neral, si h ay N objetos, tres de los cuales no pueden se r distin­
guidos de los dem ás, h a b rá N I / 3! P uede generalizarse fácilm ente
éste razonam iento, am pliándolo a m ás de u n grupo de objetos
no distintos. Supongam os que n u estras trece ca rtas contienen
tres ases y cu atro reyes, siendo distin tas las seis cartas restantes.
Como q u iera que los ases, caso de se r diferenciados, pueden ser
ordenados de 3! form as, y los cuatro reyes en 4! form as, divi­
direm os 13! en tre 3! 4! p a ra llegar al n ú m ero de p erm u tas verda­
d eram en te inconfundibles.
La regla general re su lta ya obvia. Si tenem os N acontecim ien­
tos subdivididos de ta l m an era que el p rim e r grupo contenga rx
elem entos no distinguibles, el segundo contenga r2 de dichos ele­
m en to s y, en general, el grupo i-ésímo contiene de los m ism os,
tendrem os u n to tal k de tales grupos, todos distinguibles en tre
ello s; el n ú m ero to tal de p erm u tas será N l / r 1 \r2 l . . . rk \ P ro­
poniendo o tro ejem plo: si hay 25 niños, 6 de los cuales tienen
3 años, 8 de ellos 4 años, o tro s 9, 5 años, contando con u n o de
6 y o tro de 7 años, h a b rá 25 !/6!8 !9 !1 !1 ! p erm u ta s e n tre dichos
niños, si solam ente se les diferencia p o r sus edades.
La regla general p a ra d eterm in a r el n ú m ero de p erm u tas de
acontecim ientos, n o todos los cuales son distintos, p re sen ta un
caso especial m uy im p o rtan te, en aquellas ocasiones en que sólo
hay dos clases de acontecim ientos (p o r ejem p lo : éxitos y fraca­
so s). Si hay N acontecim ientos, r de los cuales son éxitos, y N —r
fracasos, siendo los éxitos n o distinguibles e n tre ellos m ism os y
lo m ism o ocu rre con los fracasos, la regla general p a ra lo g rar el
n ú m ero de p erm u ta s se red u ce a N \ / r \ { N —r ) ! Si p o r ejem plo
lanzam os 10 veces u n a m oneda y obtenem os 6 caras, el núm ero
de disposiciones posibles de caras y cruces será 10!/6!4! = 210.
E n el capítulo siguiente podrem os u tiliza r am pliam ente este caso
especial cuando estudiem os la distribución binom ial.
* P uede llegar a re s u lta r tedioso el tra b a ja r con factoriales sin
re c u rrir a sim plificaciones del cálculo. P or fortu n a, al tra b a ja r
con razones e n tre factoriales, re su lta posible llevar a cabo una
ca n tid a d considerable de cancelaciones, com o en el caso del
ejem p lo an terio r, en el que e stá im plicada la razón 10!/6!4! Los
siguientes son los valores num éricos de los factoriales d e 1 a 2 0 :

1! = 1 11! = 3.992 X 10*


2! — 2 12! =4.790 x 10®
3! = 6 13! = 6.227 X 10»
4! = 24 14! = 8.718 x 10»
51 = 120 15! = 1.308 x l 0 «
6! = 720 16! = 2.092 x 1013
7! = 5 040 17! = 3.557 x lO 1*
8! = 40 320 18! = 6.402 x 10«
9! = 362 880 19! = 1.216 X 101*
10! = 3 628 800 20! =2.433 X ÍO1»
P a ra valo res m ás elevados de N re su lta posible p re c isa r los lí­
m ites e n tre los cuales se h a lla rá N I, utilizando p a r a ello la aproxi­
m ación de S tirlin g :

^ ( - r ) ' < * ' < v ® 5 (-4 -) ' ( i + - s ^ r r )


en la q u e jt “ 3.14159 y e “ 2.71828. Los estu d ian tes fam iliariza­
dos con el u so d e logaritm os e n c o n tra rá n m uy conveniente tra ­
b a ja r con los logaritm os de los factoriales, convirtiendo así pro­
du cto s en sum as y razones en diferencias. P or ejem p lo :

, / 8! \ , 8 7 6 5 4 3 2 1
, o g ( T r ) = 1 “ B— m —
r
= jlo g 8 + log 7 + lo g ó + log 5 + log 4 + log 3 + log 2 + log l l
r -i
- jlo g 3 + log 2 + log 1j = log 8 + log 7 + log 6 + log 5 + log 4

A lgunos ejem plos. E studiem os a h o ra algunas aplicaciones de


estos prin cip io s a o tro s p ro b lem as de pro b ab ilid ad , d e n atu raleza
algo m ás com plicada que la d e los que hem os v isto h a s ta ahora.
Como e s tá im p lícito en la in tro d u cció n a esta sección, u n a im ­
p o rta n te e stra te g ia general en el caso de m uchos pro b lem as en
los que el o rd en d e selección carece de im p o rtan cia consiste
e n calcu lar la p ro b a b ilid ad d e u n a d eterm in a d a p erm u ta , m u lti­
plican d o a continuación aq u élla p o r el n ú m ero de p e rm u ta s im pli­
cadas. Supongam os q u e deseam os, p o r ejem plo, o b te n e r la p ro ­
b ab ilid ad de conseguir ex actam ente u n as y p o r lo m enos dos
reyes en c u a tro tira d a s, con reposición d e ca rtas. O bservarem os
que esto p u ed e re alizarse al o b ten er bien u n as y tre s reyes o u n
as, dos reyes y alguna o tra c a rta q u e n o sea as ni rey. Si re p re­
sen tam o s sim bólicam ente estas posibilidades com o A R R R y ARRO
(en donde "O " re p re se n ta " o tra c a rta " ), verem os que hay 4 ! / 3 ! =
4 fo rm as de o rd e n a r el as y los tre s reyes, m ie n tra s existen
4 !/2 ! = 12 m an eras de d isponer la com binación ARRO . P o r ser
d iferen tes los n ú m ero s d e las p e rm u ta s en am bas situaciones es
p o r lo que debem os m an ten e rlas diferenciadas. Si n u e stra p ru e­
b a es con reposición, la p ro b a b ilid ad de o b ten er u n as en una
sola tira d a es de 1/13, com o lo es la de o b te n e r u n rey, en tan to
que la p ro b a b ilid ad d e sac ar u n a O es de 11/13. Así re su lta que
la p ro b ab ilid ad de o b te n e r ex actam en te u n as y dos o m ás reyes
será:
4(1 /1 3 )4 + 12(1/13)*(11/13) = 136/28 561 = .0048
Supongam os que deseam os o b ten er la p ro b a b ilid ad de conse­
guir exactam en te u n as y p o r lo m enos dos corazones en c u a tro
tirad a s, con reposición. A parece a h o ra u n a com plicación m ás,
y a q u e u n o de los corazones puede s e r u n as. S erá conveniente
d istin g u ir e n tre c u a tro tip o s de c a rta s : el as d e corazones (AC),
cuya p ro b a b ilid ad de se r seleccionado es d e 1/52; los ases n o de
corazones (A C ), con p ro b a b ilid ad de 3/52; los n o ases d e cora­
zones (A C ), con p ro b a b ilid ad de selección de 12/52, y los n o ases
d e corazón ( A C ) con u n a p ro b ab ilid ad de 36/52 de se r sacados.
La su m a de to d as e sta s pro b ab ilid ad es es n a tu ra lm e n te igual a la
u n id ad ya q ue los tipos en cuestión son m u tu am en te exclusivos
y exhaustivos.
Despleguem os a continuación las com binaciones que pueden
p ro d u c ir ex actam ente u n as y dos o m ás corazones, calculando
el n ú m e ro de p e rm u ta s en cada caso. D ichas com binaciones son
las sig u ien tes:

a) E x actam ente dos corazones:

AC, ÁC, AC, AC (41/21) [1/52 • 12/52 • 36/52 • 36/52] = .02552

AC, AC, AC, AC ( 4 ! /2 ! ) [3/52 • 12/52 • 12/52 • 36/52] = .02552

b ) E x actam ente tre s corazones:

AC, AC, AC, AC ( 4 ! /2 ! ) [1/52 • 12/52 • 12/52 • 36/52] = .00851

AC, AC, AC, AC ( 4 ! /3 ! ) [3/52 • 12/52 • 12/52 • 12/52] = .00284

c ) E xactam ente c u a tro co razo n e s:


— — — 00094
AC, AC, AC, AC (41/31) [1/52 • 12/52 • 12/52 • 12/52] = ~

S u m an d o estas pro b ab ilid ad es de acontecim ientos m u tu am en te


exclusivos obtenem os u n to ta l de pro b ab ilid ad es de .063.
C onsiderem os p o r fin u n a situación en la que es m ás conve­
n ien te d ib u ja r lo que se denom ina u n diagram a de árbol que re ­
p resen te las d istin tas posibilidades. O curre a veces que una
secuencia de acontecim ientos te rm in a en p u n to s d iferentes, se­
gún sea el desenlace de o tro s acontecim ientos previos.
La ilu stració n m ás fam iliar de este hecho se observa en los
eventos atléticos en los que u n equipo se rá declarado vencedor
si gana dos de tre s juegos, o tal vez c u a tro d e siete, y en los que
no hay necesidad de seguir jugando u n a vez que el n ú m ero n e­
cesario de juegos h a sido ya ganado. Supongam os que hay dos
equipos A y B jugando u n a serie de “dos de tre s ”. Supongam os
tam bién que A es el m e jo r equipo y que, con b ase en sus an te­
rio res resu ltad o s, se le asigna u n a p ro babilidad de .6 p a ra ganar
cu alq u ier juego dado. E n u n ejem plo m ás realista, la pro b ab i­
lidad de g an a r cada juego puede cam biar según los resultados
de los juegos precedentes, lo que podrem os d eterm in a r utilizando
el m étodo que vam os a proponer. P ara m ayor sencillez tom e­
m os com o p = .6 la p ro babilidad de que el equipo A gane cada
juego, en cuyo caso q = .4 re p resen ta rá la pro b ab ilid ad del
equipo B p a ra vencer en cada juego. Se supone, p o r tanto, que
las p ru eb as sucesivas son independientes. ¿Cuál es la probabili­
d ad de que el equipo A gane la serie? ¿Cuáles son las p robabilida­
des individuales de cada posible secuencia de ganancias y p ér­
didas?
Podem os ex p resar las posibles secuencias en el diagram a si­
guiente :
Ganador del Ganad or del Ganador del
prim er juego segundo juego tercer juego

La ram a su p erio r del árbol re p resen ta las posibilidades, suponien­


do que A h a ganado el p rim er juego, en ta n to que la ram a b aja
re p resen ta las correspondientes al triu n fo inicial de B. Si A
gana el segundo1 juego después de h ab e r ganado el prim ero, la
serie se detiene, y A gana con u n a probabilidad de p 2. Sin em­
bargo, si A gana el p rim e r juego y B el segundo, es preciso jugar
u n te rc e r juego. Si éste es ganado p o r A la serie se detiene, y A
gana con pro b abilidad de p 2q, p ero si B gana el te rc e r juego gana
la serie con probabilidad p q \ E sta clase de series da origen a
u n árbol p erfectam ente sim étrico, aun cuando es evidentem ente
posible in v en tar com petencias con handicaps que produzcan árbo­
les asim étricos. P or ejem plo, el equipo A puede n ecesitar ganar
cuatro juegos en tan to B con sólo tres vencerá.
Las probabilidades de las varias posibilidades pueden s e r ya
com putadas com o sigue:
Secuencias según las cuales Secuencias según las cuales
vence el equipo A(p = .6) vence el equipo B (q = .4)

p2 = .3 6 0 42 = 160
pqp = , 144 pqq ~ .0 9 6
q p p = .1 4 4 qpq = . 0 9 6
P ro b a b ilid a d d e -------
g a n a r la s e rie .6 4 8 .3 5 2

E l h ech o de que las probabilidades sum an u n a u n id a d puede


re p re se n ta rse alg ebraicam ente com o sigue:

p 2 + 2p 2q + 2 p q 2 + q 2 = p 2 + 2p q ( p + q) + q s
= p z + 2p q + q2 = ( p + q )2 = 1

IX.4. Valores esperados


U na idea, su rg id a p ro b a b le m en te en u n casino de juego, tiene
im p o rtan tes aplicaciones estadísticas. C onsiste e n que si u n o r e ­
p ite u n ex perim ento u n g ra n nú m ero de veces, h aciendo apues­
tas so b re los resultados, será posible calcu lar las ganancias (o
p é rd id a s ) esp eradas, con b ase e n diferentes suposiciones acer­
ca de la n atu raleza del juego que e stá siendo p racticad o . P ara
p o n e r u n ejem plo m uy sencillo, supongam os que se e stán echan­
do m o n ed as a cara o cruz, apostando siem p re a caras, y que
cad a vez q ue ap arece u n a c a ra se gana u n peso, p ero se p ierd en
2 pesos p o r cada vez que sale cruz. B ajo el su p u esto de que la
m o n ed a no h a sido p re p a ra d a , es evidente que u n o n o d esearía
m a n te n e r ta l juego d u ra n te m ucho tiem po. ¿P ero cóm o pu ed en
calcu larse las ganancias o pérd id as esp erad as en o tro s casos m ás
com plejos?
E n el sencillo ejem plo a n te rio r el sentido com ún su g eriría m ul­
tip lic a r la p ro b ab ilid ad d e cada aparición p o r la ganancia o la
p é rd id a co rresp o ndiente a dicho resultado, sum ando a continua­
ción los resu ltad os. O btendríam os así com o "ganancia" esperada
la can tid ad (1) ( Vi) + ( —2) ( Vz) = — .5. E sto significa que, com o
prom edio, u n o h a b ría de e sp e ra r p e rd e r 50 centavos p o r tirad a.
Las ganancias o p érd id a s reales pu ed en p o r su puesto d ife rir de
e s te v alo r esp erado, p e ro si hubiésem os de confiar en la teoría
d e las p ro b ab ilidades y jugásem os u n bu en n ú m ero de veces,
n u e s tra p érd id a to ta l sería aproxim adam ente de ,5¿V, en donde
N re p re se n ta el número- de tiradas.
Como segundo ejem plo, supongam os que lanzam os un solo
dado, recibiendo u n p eso si sale p a r ; perdiendo dos pesos si sa­
len uno- o tres p untos, y ganando tres pesos si salen cinco pun­
tos. S uponiendo q u e to d as las caras tienen las m ism as posibili­
d ades de salir, n u estra s ganancias esperadas serían:
( - 2 ) ( l / 6 ) + ( 1 X 1 / 6 ) + ( - 2 ) ( l / 6 ) + ( 1 X 1 / 6 ) + ( 3 ) ( 1/6) +

+ ( 1 X 1 / 6 ) = 1/3 = 1.333

p o r juego. E n general, si hay k posibles resultados X t , X 2, . . . ,


X k, y si la p ro b ab ilid ad de X¡ es d ad a p o r p ( X i ) , podrem os defi­
n ir el valor esp erad o de las variables X, indicando con el sím bolo
7c
E ( X ) , com o: E ( X ) = 2 X t p i X ^ . E n los ejem plos considera-
i=l
dos h a sta ahora, la X t h a rep resen ta d o pagos (e n pesos) p ara
cada g rupo de resultados, p ero es posible concebir en térm inos
m ás generales esta idea del v alor esperado.
Supongam os p o r ejem plo que tenem os u n a población que con­
tien e N individuos con puntuaciones en la X variable. Si elegi­
m os al azar e n tre esta población, cada individuo te n d rá una
pro b ab ilid ad de Í / N de se r seleccionado. ¿Cuál es el valor espe­
ra d o de X ? E n este caso te n d ría m o s :

E ( X ) = •X1p(.X1) + X zp ( X ¡¡) + . . . + X x p { X N)

= ( X 1 + X 2 + . . . + X lr) ( l / N ) - X

y obtendrem os el in tere sa n te re su ltad o de q ue el v alor espera­


do de X es su m edia, suponiendo que el m uestreo sea aleatorio.
A p a rtir del ca p ítu lo siguiente n o s ocuparem os am pliam ente
de las distribuciones de probabilidades, llam adas distribuciones
p o r m uestreo. E n sentido estricto, tales distribuciones son infi­
nitas, ya que se refieren a probabilidades que aquí definim os
solam ente en térm inos lim itadores. Podem os sin em bargo m en­
cionar estas distribuciones de p ro b ab ilid ad com o si tuviesen va­
lores esperados in terp re tab les com o sigue: im aginem os m ués­
treo s aleatorios hechos rep etid am en te con u n a d eterm in ad a
población. Si tal población tiene u n a m edia a la que denom ina­
rem os con la le tra griega ¡i, entonces E ( X ) = p,. D esearem os en­
co n tra r tam bién los valores esperados de o tras cantidades, tales
corno la m u estra m edia X , la que a su vez re su lta te n e r su valor
esperado de E ( X ) igual a ¡x, en el caso de m u estreo aleatorio.
O tra expresión de considerable in terés teórico e n la estadística
es E [ X — E ( X ) 2 S, la que en el caso del m u estreo aleatorio, para
el cual E ( X ) = p, es 2 (X, - n)2 p (X 4) = l / N 2 ( X t - u P , o la
í=‘1 í==1
variancia de X. Aun cuando no harem os gran uso de la notación
corresp o n d ien te a valores esperados, probab lem ente se encon­
tra rá n referencias a la m ism a en textos m ás avanzados, ya que
en las p ru e b as de estad ística m atem ática es em pleada am plia­
m ente.
Todas las p ru eb as estad ísticas a exam inar en este texto p a rte n
del su p u esto de que hay independencia e n tre los acontecim ientos
y que, p o r consiguiente, las probabilidades condicionales n o han
de em p learse al m u ltip licar las probabilidades.11 E n o tro s té r­
m in o s: se supone que existe independencia d e selección en el
in te rio r d e u n a m u estra, n o teniendo la selección de u n indivi­
duo in flu en cia alguna so b re la selección de o tro a in clu ir e n la
m ism a m u estra. Sin em bargo, se d an m uchos casos e n que se
pro p en d e a violar dicho im p o rta n te supuesto. De ahí que el lec­
to r d eba acostum brarse a p re g u n ta r siem p re si el su p u esto de
independencia está o n o efectivam ente ju stific ad o en cualquier
p ro b lem a dado. S erá ú til, e n e ste p u n to , in d icar unos pocos
ejem plos de situaciones en las que se co rre riesgo de p rescin d ir
del su p u esto en cuestión.
Los estad íg rafo s o b tienen a m enudo lo que se designa com o
m u estra al azar (o m u estra irrestricta aleatoria) con o b jeto ta n ­
to de satisfacer el su p u esto necesario d e independencia com o
p a ra d a r a to d o individuo de la población considerada u n n ú m ero
igual d e oportu n id ades de fig u ra r en la m u estra. Sirviéndonos
de u n a ta b la de núm eros al azar o algún o tro arreglo p o r el
estilo, p u ed e ob ten erse u n a m u e stra en fo rm a esencialm ente idén­
tica a la de e x tra e r naipes de una b a ra ja bien b a ra ja d a o núm e­
ro s en u n ju ego de lo tería. La m u e stra a lea to ria posee la p ro p ie­
d ad no sólo d e dar a cada individuo la m ism a oportunidad de
ser seleccionado, sino tam bién la de proporcionar a cada co m b i­
nación de individuos una oportunidad igual de selección -12
E n rigor, com o q uiera que casi siem pre extraem os las m u estras
sin reposición, el su p u esto de independencia n o se cum ple p o r
com pleto. Sin em bargo, cu an d o la población es grande en rela­
ción con la m ag n itud de la m uestra, podem os olvidar perfecta­
m en te la peq u eñ a d istorsión re su ltan te de que a ningún individuo
se le dé la o p o rtu n id ad d e se r seleccionado o tra vez. P or ejem ­
p lo : si de u n a población de 100 m il p erso n as se extraen 500, las
p ro b ab ilid ad es son m uy pequeñas de que alguna de ellas volviera
a seleccionarse en el caso de que su nom bre se p u siera de nuevo
e n el grupo. Y en form a análoga, la diferencia es p rácticam en te
m uy p eq u eñ a si reponem os o n o al ex tra er sólo tres cartas de u n a
b a r a ja ; p ero, si ex trajéram o s 35, la diferencia sería considerable.
Si la m u e stra es relativam ente grande en com paración con la

11 E s lo q u e s e v e r á e n el c a s o d e ¡a b in o m ia l q u e s e e x a m i n a r á e n e l
s ig u ie n te c a p ítu lo . S in e m b a r g o , e n el c a s o d e o t r a s p r u e b a s , e l le c to r h a b r á
d e a c e p t a r s im p le m e n te la v e r d a d d e e s t e a s e r to .
a s E n e l c a p . x x i s e d i s t i n g u i r á l a e x tr a c c ió n d e m u e s t r a s a l a z a r d e o t r a s
f o r m a s d e e x tr a c c ió n d e u s o c o r r ie n t e , ta le s c o m o la s i s t e m á ti c a , la e s t r a t i ­
f i c a d a y l a d e c o n g lo m e r a d o s .
población, entonces puede ap licarse a veces u n fa c to r de correc­
ción p a ra com pensar la fa lta de rem plazo.13
P ese a que los problem as re su ltan te s de la fa lta d e rem plazo
no> sean graves, la fa lta de p ro p o rcio n ar a cada com binación de
individuos la posibilidad de ap arecer en la m u e stra puede tra d u ­
cirse en u n a grave violación del supuesto de independencia. Su­
póngase, p o r ejem plo, que nos dispusiéram os a clasificar los n ai­
pes corrientes en c u a tro m o n to n es: uno p a ra los tréboles, o tro
p a ra las espadas, etcétera. Supóngase luego que fuéram os a se­
leccionar u n o de dichos m ontones al azar. E s obvio q u e cada
c a rta de la b a ra ja te n d ría la m ism a o p o rtu n id ad (I sobre 4) de
se r seleccionada, p ero in d u d ab lem en te todas las com binaciones
no serían posibles, y n o digam os ya igualm ente probables. E n
efecto, sab iendo que el n aipe de encim a es u n a espada, sabem os
q u e todos los dem ás naipes del m o n tó n son igualm ente espadas.
Las m u estras de área o p o r conglom erados em pleadas com ún­
m en te en las investigaciones sociales n o cum plen el su p u esto de
independencia p o r esta m ism a razón. E n efecto, si se seleccionan
al azar 100 m anzanas de casas de u n a población y luego se in­
cluye en la m u e stra cada te rc e ra fam ilia de las m anzanas en cues­
tión, es obvio que to d as las com binaciones de fam ilias no tienen
la m ism a o p o rtu n id ad d e fig u ra r e n aquélla. E n efecto, dos fa ­
m ilias de la m ism a m anzana tien en m ayor o p o rtu n id ad de fig u rar
en la m ism a m u estra de lo que es el caso de dos fam ilias en dos
m anzanas distin tas. Como quiera que las m anzanas de casas u rb a ­
n as suelen se r p o r lo re g u la r relativ am en te hom ogéneas e n cuanto
a ca rac te rístic as tales com o el ingreso o la in stru cció n del jefe
de fam ilia, el re su ltad o de sem ejan te tip o de extracción d e m ues­
tr a será m enos exacto q u e u n a selección de u n a m u e stra aleatoria
del m ism o tam año. E sto puede verse in tu itiv am en te si im agina­
m os u n a situación en que to d as las m anzanas sean to talm en te
hom ogéneas, com o e ra el caso de los c u a tro m ontones de naipes.
E n tal caso, en efecto, sólo necesitaríam os o b te n e r inform ación
acerca de u n a vivienda e n cada m anzana, y el n ú m ero de "casos"
sería de h echo el n ú m ero de las m anzanos seleccionadas, esto
es, u n N b a sta n te m enor. Según verem os en el capítulo xxi, es
posible o b ten er unos resu ltad o s ex trem adam ente engañosos, si h a­
biendo ex traíd o una m u e stra sem ejan te p o r conglom erados, el
investigador se sirve luego de pru eb as estadísticas que presupon
nen u n a extracción al azar.
Un p ro b lem a análogo p u ed e fácilm ente en c o n trarse cuando se
está in teresado en los actos individuales de conducta. Supóngase,
p o r ejem plo, que u n sociólogo efectúa u n experim ento en el que
se sirve de 30 su jeto s, cada uno de los cuales fo rm u la 50 juicios
d istintos. Se ten d ría n en tal caso 1 500 juicios, y nos podríam os
ver inducidos a servim os en u n a p ru e b a estad ística d e sem ejan-
i s V é a s e se c c . X X I .l.
te N artificialm en te ponderada, suponiendo que los 1 500 juicios
en cuestión co n stituyeran u n a m u estra al a z ar de los juicios de al­
gún tip o de población. P ero sería m anifiestam ente ab su rd o en
la m ayoría de los casos su p o n er que los juicios de u n m ism o
individuo son estadísticam ente independientes unos de otros. En
efecto, suS p rim eros 30 juicios afectarán probablem ente a los de­
m ás, ya que a diferencia de la m oneda, la p erso n a sí tiene m e­
m oria.
Supóngase que u n sociólogo se in tere sa a n te todo en p ares de
perso n as, com o unidad, m ás que en el individuo singular. Puede
te n e r u n grupo de 20 personas, cada u n a de las cuales esté en
interacció n con to d as las dem ás. T endría, en consecuencia, (20)
(1 9 )/2 o 190 p ares de personas, p e ro no e staría en condiciones
d e co n sid erar cada p a r com o in dependiente de los otros. Es
obvio que el conocim iento a p ro p ó sito del p a r Sm ith-B row n su­
m in istra rá p ro b ab lem en te alguna inform ación sobre los p ares
Sm ith-Jones o B row n-Jones, ya que las m ism as personas figuran
en varios pares.
Los ecólogos, antropólogos y otros sociólogos in teresad o s en
generalizar a p ro p ó sito de localidades, sociedades u o tra s u n id a­
des definidas espacialm ente necesitan tam bién p reo cu p arse de la
fa lta de independencia en u n a gran p a rte de su labor. Aquí el
p ro b lem a p arece derivarse del hecho de que las unidades selec­
cionadas n o son a m enudo claram ente distintas. E n efecto, las
fro n te ra s de u n a sociedad o u n a localidad pueden se r difíciles
de definir, y u n a u n id ad sem ejante puede p a s a r gradualm ente a
la o tra, siendo las divisiones m ás o m enos arb itra ria s.14 Así, p o r
ejem plo, si se utilizan com o unidades los d istrito s del censo en
el in te rio r de u n a ciudad o los d istrito s te rrito ria le s en el in te rio r
de u n E stado, re su lta a m enudo posible p re d ecir a p ro p ó sito de
u n a u n id ad sobre la b ase d e la un id ad vecina. Si la cuota de delin­
cuencia es elevada en u n distrito, es pro b ab le que lo sea tam bién
en el vecino, y a q ue es incluso posible q u e las m ism as ban d as
de delincuentes se extraigan de am bos distritos. Que "algo no
e stá en o rd e n ” en relación con el su p u esto de independencia p u e­
de p ercib irse in tu itiv am en te dándose cuenta de que, cuando las
u n id ad es no son claram ente distintas, sería posible p o n d e ra r el
n ú m ero de "u n id a d es” a cualquier tam añ o deseado, co rtan d o
sim plem ente el p astel en m uchos pedazos pequeños. Así, p o r
ejem plo, si no h ay b astan te s sociedades en el m undo p a ra o b ten er
significancia estadística, p o d ría dividirse cada sociedad en 10
subregiones y o b ten er 10 veces m ás "casos”.

14 E s t a s i t u a c ió n s e p a r e c e r í a e n c i e r t o m o d o a l a d e u n a b a r a j a c a d a u n a
d e c u y a s c a r t a s p a s a r a in s e n s ib le m e n te a la s o t r a s , d e m o d o q u e r e s u l t a r a
d if íc il d e c i r d ó n d e u n a d e e lla s t e r m in a b a y e m p e z a b a l a o t r a . O t a m b ié n ,
¡ q u e c a d a c a r t a f u e r a c a p a z d e i n f lu i r l o s v a lo r e s f ig u r a d o s d e s u s v e c in a s
in m e d ia ta s !
E n u n tex to com o éste n o es po sib le exam inar soluciones a los
pro b lem as q ue com portan violaciones del su p u esto de indepen­
dencia. Que el a u to r sepa, m uchos de dichos problem as n o h an
sido resu elto s satisfactoriam ente. R esulta a m en u d o difícil apre­
c ia r la g ravedad de los erro res introducidos cu an d o no se cum ­
p len su p u esto s requeridos, com o el de independencia. Pisam os
terren o firm e siem pre que tenem os la seg u rid ad d e que los su­
puesto s re q u erid o s p a ra alguna p ru e b a s í se c u m p le n ; p e ro si no
se cum plen, ra ra m e n te re s u lta posible decidir exactam ente en
q ué m edida nos ap artam o s de dichos supuestos. Con o b jeto
de e s ta r seguro, el lecto r h a de ac o stu m b ra rse a exam inar cuida­
d o sam ente to d o supuesto. Si se tien en m otivos p a r a d u d a r de
la validez d e alguno, entonces h a b ría q u e co n sid erar seriam ente
el serv irse de o tro p rocedim iento que n o lo contenga. Así, p o r
ejem plo, p o d ría decidirse re c u rrir a o tra u n id a d de análisis, o sea
a la p erso n a, m ás bien q u e a los actos de la co nducta o a los
p ares de personas, o b ien a los delincuentes p a rtic u la re s m ás que
a las ta sa s de delincuencia e n relación con u n d istrito del censo.
Si bien los sociólogos y o tro s que se sirven d e la estad ística
aplicad a h a n p ro p en d id o en ocasiones a p re sc in d ir d e los supues­
tos, llegando así a conclusiones infundadas, es tam b ién posible,
p o r o tra p a rte , p e c a r de p ru rito excesivo d e perfección. Como
q u iera que, en efecto, n o nos la s habernos n u n ca con situaciones
ta n sencillas com o las de lan zar u n a m oneda al a ire o sac ar nai­
p es de u n a b a ra ja p erfecta, re su lta siem pre posible p o n e r en tela
de ju icio cu alq u ier pro ced im ien to a títu lo d e im p erfecto en rela­
ción con el ideal q u e se persigue. S e p u ed e a b rig a r u n tem o r
ta l de v io lar supuestos, que se p re fiere p re sc in d ir p o r com pleto
de to d a técn ica estadística. E s necesario, so b re to d o e n u n a dis­
ciplina q u e se ca rac te rice p o r estudios exploratorios y técnicas
científicas relativ am en te im precisas, llegar a com prom isos con
la realidad. E l proced im ien to m ás indicado co n sistirá en h acer
el m en o r n ú m ero de com prom isos posible, d e n tro d e los lím ites
de lo p racticable.

Gwsario
Sucesos
Límite
Sucesos m utuam ente exclusivos
Probabilidad
Muestra aleatoria
Independencia estadística

E jercicios
1. En un simple lanzamiento de u n dado no cargado, ¿cuál es la pro­
babilidad de:
a) ¿sacar u n 6?
b) ¿no sacar un 6?
c) ¿sacar un 1 o un 6? Respuesta, 1/3
d) ¿sacar un 1 y un 6?
e) ¿sacar un núm ero im par o un 6?

2. Cuál es la posibilidad de obtener cada uno de los siguientes


resultados en tres extracciones de un juego de naipes bien barajado:

a) ¿tres sotas, con reposición? Respuesta, 1/ 2197.


b) ¿tres sotas, sin reposición? Respuesta, V6 520-
c) ¿una espada, un corazón y un diam ante (en cualquier orden),
con reposición?
d) ¿exactamente dos ases, con reposición?
e ) ¿por lo menos un as, con reposición? (Indicación: ¿cuál es la al­
ternativa por al menos un as?) Respuesta, 4®®/2197.
*f) ¿por lo menos un as y por lo menos un rey, con reposición?
[Indicación: en f) y en algunos de los ejercicios que siguen, será
útil dividir el problema en tres pasos: 1 ) determ inar las distintas
combinaciones de cartas que dan por lo menos un as y por lo
menos un rey (v.gr., un as, un rey y otra carta cualquiera: dos
ases y un rey, etcétera); 2 ) determ inar la probabilidad de obtener
dichos naipes en cualquier orden particular; y 3) determ inar
para cada una de dichas combinaciones el número de ordena­
mientos posibles.]

3. Supóngase que se interroga a 1000 novatos acerca de sus gustos


musicales. Se encuentra que 400 de los estudiantes son aficionados a
la m úsica clásica, en tanto que los restantes no lo son. De estos 400
aficionados, sólo a 100 les gusta el rock and rail. Hay 400 personas
a las que no les gusta ni un género ni otro de música, en tanto que a
las restantes les gustó sólo el rock and roll.

a) Si se escoge un estudiante al azar, de entre la población en


cuestión, y si A es el acontecimiento consistente en que le gusta
la música clásica y B el acontecimiento consistente en que le
guste el rock and roll, ¿cuáles son P(A), P(B), P(A\B) y P(B|A)?
b) Verifiqúese num éricam ente que

P ( A & B ) = P(A)P(B|A) = P(B)P(A\ B)

c) ¿Cuál es la probabilidad de seleccionar una persona a la que


guste uno de los dos géneros de música, pero no ambos?
*d) Observando que una persona puede tener uno de cuatro tipos de
gusto (que le gusten los dos géneros, que no le guste ninguno,
etcétera), ¿cuál es la probabilidad de que tres estudiantes selec­
cionados al azar como compañeros de cuarto tengan los mismos
gustos? (Supóngase reposición). Respuesta, .10.
*e) ¿Cuál es la probabilidad de que haya por lo menos dos aficiona­
dos al rock and roll en un corredor de ocho personas? (Supón­
gase selección al azar, con reposición.)
" 4. En los datos que se consignan a continuación, supóngase que A
es el acontecimiento consistente en seleccionar un varón, B el acon­
tecimiento consistente en seleccionar una persona de cultura univer­
sitaria, y C el consistente en seleccionar una persona de grado elevado
de prejuicio:

Cultura universitaria Cultura inferior a


Grado de universitaria
prejuicio
Varones Mujeres Varones Mujeres
Alto 100 50 200 250
Bajo 150 100 150 200

a) Hállese P(A & B & C) en una sola extracción, sin servirse de


fórmula. Verifiqúese que la fórmula es cierta en el caso de los
datos numéricos de este ejercicio.
b) Hágase lo mismo para P ( A o B o C ) . Será preciso desarrollar la
fórmula para P(A 0 B 0 C).
c) ¿Cuál es la probabilidad de seleccionar exactamente un varón de
cultura universitaria, exactamente una m ujer de cultura univer­
sitaria y exactamente una persona de alto grado de prejuicio en
una extracción al azar de tres personas? (Supóngase reposición.)

* 5. Los estudiantes inscritos en un curso de introducción a la socio­


logía de la Universidad de Michigan fueron clasificados según sus
aspiraciones profesionales para sí mismos o para sus cónyuges, con­
forme al sexo de los interrogados. Se obtuvieron los siguientes d ato s:

Sexo Aspiraciones Aspiraciones


elevadas modestas Total
Varones 43 10 53
Mujeres 71 93 164
--- __ -
Total 114 103 217

Supóngase que de esta población de 217 estudiantes se seleccionan


aleatoriam ente individuos,

a) ¿Cuál es la probabilidad de seleccionar un estudiante de aspira­


ciones elevadas? ¿Cuál es la probabilidad de seleccionar un estu­
diante de aspiraciones elevadas, en el supuesto de que sea varón?
¿En el supuesto de que sea mujer?
b) Supóngase que de dicha población se seleccionan individuos al
azar (sin reposición), indicando por suposición en cada caso si se
trata de un individuo de aspiraciones elevadas o modestas. ¿Con
qué frecuencia se supondrá que tiene aspiraciones elevadas? ¿Mo­
destas? ¿Por qué? En 217 extracciones, ¿cuántos errores se es­
pera cometer? Respuesta, 103.
c) Supóngase que se sabe el sexo del estudiante. Dado que es varón,
¿cuántos errores se espera cometer al asignar los 53 varones
a las categorías respectivas de aspiraciones elevadas o modestas?
¿Cuántos en relación con las mujeres? Respuesta, 10; 71.
d ) ¿Cómo podría construirse un índice que mostrara la reducción
proporcional de errores, si el interrogado es varón, en compara­
ción con los errores en el caso de desconocerse el sexo? Como
se verá en el capítulo xv, semejante índice puede emplearse para
medir la fuerza o grado de relación entre el sexo del interrogado
y sus aspiraciones profesionales.

* 6. Hágase un diagrama de árbol para calcular las probabilidades


de todos los resultados posibles de una Serie Mundial (el que gane
4 juegos de un máximo de 7), suponiendo que la probabilidad de que
el equipo de la Liga Nacional gane cada juego es de .6.

B ibliografía
1. Alder, H. L., y E. B. Roessler: Introduction to Probdbility and Sta­
tistics, 4- ed., W. H. Freeman and Company, San Francisco, 1968,
cap. 5.
2. Feller, William: An Introduction to Prohability Theory and Its
Applications, 3? ed., John Wiley & Sons, Inc. Nueva York, 1967.
3. Freund, J. E .: M odem Elementary Statistics, 3» ed., Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1967, caps. 5 y 6.
4. Gelbaum, B. L., y J. G. M arch: Mathematics for the Social and
Bekavioral Sciences, W. B. Saunders Company, Filadelfia, 1969,
caps. 24.
5. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc. Nueva
York, 1963, caps. 2 y 4.
6. Kemeny, J. G., J. L. Shell y G. L. Thompson: Introduction to Fini-
te Mathematics, 2- ed., Prentice-Hall, Inc., Englewood, Cliffs, N. J.,
1966, caps. 3 y 4.
7. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reason-
ing in Sociology, 2* ed., Houghton Mifflin Company, Boston, 1970,
cap. 8.
8. Savage, L. J . : The Foundations of Statistics, John Wiley & Sons,
Inc., Nueva York, 1954, caps. 1-3.
X . P R U E B A S D E H IP Ó T E S IS : LA D IS T R IB U C IÓ N
B IN O M IA L

E n ciencias sociales nos encontram os a m enudo fre n te a sim ples


dicotom ías com o la d e si u n individuo posee o n o u n determ inado
a trib u to o d e si u n experim ento h a tenido éxito o h a fracasado.
E n tales casos, siem p re que sea posible fo rm u la r u n a hipótesis
acerca de cierta p ro b ab ilid ad de éxitos, siem pre que las p ruebas
sean indep endientes u n as d e o tra s y siem pre que el n ú m e ro de
éstas sea relativ am en te pequeño, es posible servirse de p ru eb as
estad ísticas q u e se co m p o rtan com o u n a distribución binom ial.
Pese a que existen num erosas p ru e b as estad ísticas m ás prácticas
que las q u e se sirven de la distribución binom ial, es conve­
niente, con todo, dedicar u n tiem p o considerable a dicha d istri­
bución, a causa a n te to d o de su sencillez. Al em p lea r la d istrib u ­
ción binom ial, el estu d ian te puede seguir en fo rm a relativam ente
fácil to d o s los pasos que aquélla com porta, obteniendo con ello
u n a visión d e los procedim ientos generales em pleados en todas
las p ru e b as estadísticas.
Es p ro b ab le que al le c to r el p re sen te capítulo se le an to je
com o excepcionalm ente difícil, debido al hecho de que se expo­
n en e n el m ism o cierto n ú m e ro de ideas nuevas en fo rm a m ás
bien com pacta. M uchas de esas ideas vuelven a tra ta rse e n el
capítulo xi, y es tal vez p re ferib le que el le c to r considere estos
dos capítulos com o u n a sola unidad, leyendo el capítulo xi an tes
d e d o m in ar p o r com pleto la m a teria del p resen te. E n p articu lar,
se puede d e ja r p a ra después la lectu ra de la sección X.3, que
tra ta de diversas aplicaciones de la binom ial, y de la sección X.4,
so b re extensiones.

X .l. La distribución de m u estreo binom ial


Antes d e exam inar cada u n o de los pasos im plicados en las p ru e ­
bas estadísticas, será conveniente co n sid erar cóm o se obtienen
las d istribuciones binom iales. P o r el m om ento sim plificarem os
la cuestión lim itándonos al lanzam iento de m onedas. E n este
tip o de p roblem as, el n ú m ero de los lanzam ientos constituye la
m ag n itu d de la m u estra, y n u e stro in terés se ce n tra en el núm ero
de caras (éxitos) obtenidas en N pruebas.
S uponiendo q u e las N p ru e b as (lanzam ientos de m onedas) son
estad ísticam en te in d ependientes u n a de o tra , podem os evaluar
in m ed iatam ente la p ro b ab ilid ad d e o b ten er r caras y N — r cru ­
ces en algún orden p artic u la r. Podem os, p o r ejem plo, o b ten er
la p ro b ab ilidad de conseguir r caras sucesivas seguidas de N — r
cruces. Supongam os que p es la p ro b ab ilid ad de o b ten er una
160
c a ra ; en este caso, la p ro babilidad de o b ten er u n a cruz, que
designam os com o q, se rá de 1 — p. Como q u iera que las p ru eb as
son independientes, podem os m ultiplicar sim plem ente las p ro b a­
bilidades incondicionales. La p robabilidad de obtener exacta­
m en te r caras en el orden que se acaba de indicar s e r á :

p p p .... p q q q . . . q = p 'q * '-'


*______ _______ f ____ _ ______ J
r térm inos N — r térm inos

E s obvio que en los supuestos de independencia estadística y


p ro b a b ilid ad co n stante de los éxitos (v.gr., la m oneda n o se des­
g asta de m odo irre g u la r), la p ro babilidad de o b ten er cualquier
o tro o rd en p a rtic u la r de r caras y N — r cruces será tam bién
prqN-T' p o r jo tan to , con o b jeto de o b ten er la probabilidad de
con seg u ir exactam ente r caras en cualquier orden sólo se nece­
sita c o n ta r el nú m ero de m aneras distin tas que tenem os de obte­
n e r r caras y N — r cruces. Sin em bargo, p o r poco que N sea
grande, la ta re a se hace m uy fastidiosa. A fortunadam ente dispo­
nem os d e u n a fó rm ula m atem ática q u e hace innecesaria dicha
operació n de co ntar. E n efecto, el nú m ero de m an eras posibles
en q u e podem os o rd e n a r r éxitos y N — r fracasos, escrito sim bó­
licam en te com o

(X.l)

en donde N I (léase factorial N ) = N (N — 1) (N — 2) (3)


(2 ) (1 ), y lo m ism o p o r lo que se refiere a r! y a (N — r ) ) 1
Con fines de cálculo, la fórm ula (X .l) puede sim plificarse ob­
serv an d o que algunos de los térm inos del n u m erad o r y el deno­
m in a d o r se elim inan recíprocam ente.1 Como q uiera que r < N ,
podem os escrib ir N ! com o p roducto de dos factores, com o sig u e:

N I = [ N ( N - l ) ( N ~ 2 ) .. . ( N - r + 1 )] U N - r ) . .. (3 )(2 )(1 )]
= [ N ( N — 1)(AÍ — 2 )...(A T — r + l ) ] [ ( A T — r ) ! ]

y vem os in m ed iatam en te que (N — r ) \ p u ed e elim inarse ta n to


del n u m era d o r com o del denom inador. E n esta fo rm a nos que­
da, p u e s :

i El símbolo no ha de confundirse con N /r o N dividido entre r.


( N \ N (N — 1 ) ( N — 2 ) . . . ( N — r + 1)
( ~ r j =— ---------- tí--------------- (X2)
Así, pues, si querem os e n c o n tra r el nú m ero de m an eras d e o b ­
te n e r cu a tro caras en diez lanzam ientos, tenem os:
A T - r + l = 1 0 -4 + l = 7
y p o r c o n sig u ien te:

(4)
(1 0 )(9 )(8 )(7 )
210
(4 )(3 )(2 )(1 )
O bsérvese que al em p lea r la ecuación (X .2) se tiene el m ism o
n ú m ero de facto res en el n u m era d o r y el denom inador. E sto es
siem p re así. E sta segunda fo rm a es m ás sencilla, con fines de
cálculo, que la p rim era. Si r > N/ 2, em pezam os a te n e r algunos
térm in o s que aparecen ta n to en el n u m e ra d o r com o en el deno­
m in ad o r y, p o r consiguiente, se elim inan recíprocam ente. P or
ejem plo, si r = 6, tenem os:

10 (1 0 )(9 )(8 )(7 ) (6 )(5 )


210
6 / (Í)(2 )(3 )(4 ) (5 )(6 )
/ 10 \
lo que nos d a el m ism o re su lta d o obtenido que al c a l c u l a r ! - j - 1
E n general p u ed e d em o strarse que

de m odo que p u ed e u tilizarse lo m ism o r que N — r, según cuál de


ellos sea m enor.
Si ah o ra querem os sa b e r la p ro b ab ilid ad de o b ten er exacta­
m e n te r éxitos e n N p ru e b as y no nos in teresam o s p o r el orden
en que o cu rran , podem os m u ltip licar la p ro b a b ilid ad de o b ten er
/ N \
u n a secuencia p a rtic u la r cu alq u iera p o r I ----- I . D esignando la
p ro b ab ilid ad deseada p o r P( r) , tenem os:

N
rrnX-r
p(t-) = ( “7 " J prq'

P ro b ab ilid ad N? d e m an eras P robabilidad (X .3)


de r éxitos = de o b te n e r r X de u n a sucesión
ex actam ente éxitos d ad a cualquiera
Si la m oneda fu e ra perfectam en te correcta, esto es, si p = q = 1/2,
la p ro b ab ilid ad de o b ten er exactam ente cu a tro caras en diez
p ru eb as sería d e :
/ 1 0 \ / l \ ' , í/ l \ 6 210
210
= )(t ) (?) = 210114>“ V024 = '205-
Y en fo rm a análoga podem os calcular las probabilidades de
o b ten er exactam ente 0, 1, 2, . . . , 10 caras en 10 pruebas.
Ni de caras Probabilidades (con p = Va)
0 1/1024= .001
1 10/1024= .010
2 45/1024= .044
3 120/1024= .117
4 210/1024= .205
5 252/1 024 = .246
6 210/1024= .205
7 120/1 024 = .117
8 45/1024= .044
9 10/1024= .010
10 1/1024= .001
1.000

O bsérvese que siendo r cero, la m agnitud


y la fó rm u la falla. Vemos, sin em bargo, que, siendo r = 0, sólo
hay u n o rd en posible (to d o cruces). E n este ejem plo, la d istri­
bu ción de p ro babilidades es perfectam en te sim étrica. Sirviéndo-
se del hecho de que el lecto r debería con-

vencerse p o r sí m isi será siem pre sim étrico,


p ero que el fa c to r prqN~ r sólo será exactam ente sim étrico si
p — q — Vi.
E n el ejem plo an terio r, las probabilidades se h an asociado con
cad a un o de los 11 resultados posibles del experim ento. E n di­
cho sencillo ejem plo, sólo' se daba u n pequeño nú m ero de resul­
tad o s concebibles, dado el supuesto de que en cada lanzam iento
sólo dos de ellos era n posibles. En o tro s experim entos, en cam ­
bio, el núm ero de re su ltad o s posibles puede ser m uy grande y
au n infinito, y puede se r necesario a g ru p a r ciertos resultados
y aso ciar u n a p ro b ab ilid ad con la serie en te ra de los m ism os.
Así, p o r ejem plo, si la m oneda se h u b iera lanzado al aire 1 000
veces, pudim os h a b e r calculado las probabilidades de o b ten er de
400 a 449, de 450 a 499 o de 500 a 549 caras.
Cuando asociam os probabilidades co n cada resultado posible
de u n exp erim ento, ¡o con grupos d e resultados, designam os la
d istrib u ció n resultante d e probabilidades com o d istrib u ció n de
m u estreo . R ecordando que utilizam os el concepto de probabili­
dad p a ra d esig n ar el lím ite de la razó n de los éxitos al nú m ero
to ta l de las p ru e b as, vem os q u e la d istribución de m u e stre o se
refiere al n ú m ero relativo de veces que esperam os o b ten er cier­
tos resultados e n u n n ú m ero m u y grande d e experim entos.
E n el ejem p lo nu m érico considerado, cad a experim ento consis­
te en lan za r la m oneda 10 veces al aire y a n o ta r el nú m ero de
caras. N u estros cálculos nos dicen que si efectuáram os el expe­
rim en to 1 024 000 veces, podríam os e sp e ra r o b ten er aproxim ada­
m en te (p e ro no ex actam ente) 1 000 casos en que n o saliera u n a
sola cara, 10 m il en que saliera exactam ente u n a cara, 45 m il
casos con dos caras, etcétera. Adem ás, esp eraríam o s q u e cuanto
m ay o r n ú m e ro de veces se efectu ara el experim ento, ta n to m ás
cerca q u ed a ran las pro p o rcio n es em píricas de estas p robabilida­
des teóricas.
E n realidad, el investigador nunca obtiene u n a distribución de
m u estreo p o r m edios em píricos, y a que p o r lo> re g u la r sólo efec­
tú a u n ex p erim ento o extrae u n a m u e stra u n a sola vez o, a lo
sum o, unas pocas veces. Im p o rta d arse cu en ta de que la d istri­
bu ció n de m u estreo es u n a d istrib u ció n hip o tética, teórica, que
sólo se o b te n d ría si u n experim ento se efectu ara u n n ú m ero m uy
gran d e de veces. La d istrib u ció n de m u estreo se obtiene aplican­
do razo n am ientos m atem áticos o deductivos, com o se hizo en el
ejem p lo an terio r.
Como q u iera que las distribuciones de m u estreo n o son el tipo
de d istrib u cio nes q u e el investigador ve realm en te de su s datos,
las p erso n as que n o sien tan afición p o r las m atem áticas ten d rá n
p ro b ab lem en te alguna dificultad en co m p ren d er el papel que
ju eg an estas distribuciones h ip o téticas en la inducción estadís­
tica. Pero, a m enos que la noción de d istrib u ció n d e m u estreo
se co m p ren d a claram ente, el estu d ian te se e n c o n tra rá p ráctica­
m en te en la im posibilidad de conseguir de la estad ística u n a
co m prensión q u e vaya m ás allá de la de u n m ero "recetario".
De ahí q ue convenga ex am in ar aquí en fo rm a m ás sistem ática
los p aso s q ue se d an al v erific ar u n a hipótesis estad ística y ver
exactam en te cóm o se em plean dichas distribuciones de m uestreo.

X.2. Pasos en las pruebas estadísticas


T odas las p ru e b as estad ísticas co m p o rtan cierto n ú m ero de pasos
específicos. H ay que re c a lc a r u n a vez m ás q u e cada uno de di­
chos pasos h a d e efectu arse con a n te rio rid a d a la inspección de
los datos. P u eden en u m erarse com o s ig u e :
1. F o rm ulación de supuestos.
2. O btención de la d istrib u ció n de m uestreo.
3. Selección de u n nivel de significación y de u n a región crítica.
4. C álculo de la esta d ístic a de la pru eb a.
5. T o m ar u n a decisión.
C ada u n o de esto s pasos se exam inará con cierto detalle en el
p re se n te capítulo y luego, u n a vez m ás, en el capítulo xi, de m odo
que el le c to r p u ed a fam iliarizarse con los procesos generales que
co m p o rtan las p ru e b as estadísticas.
1. Form ulación d e supuestos. Con o b jeto de ap licar la teo ría
de pro b ab ilid ad es a la obtención d e u n a d istrib u ció n d e selec­
ción, el investigador h a d e fo rm u la r ciertos su p u esto s acerca de
la población re sp ecto de la cual v a a estab le cer conclusiones
g enerales y de los p ro cedim ientos de m u e stre o a em plear. E sto s
su p u esto s relativos a la población y a los p ro cedim ientos suelen
c o rresp o n d er p o r lo re g u la r a u n a de las dos categorías siguien­
te s : 1 ) la de aquellos de los que el investigador e stá relativ am en te
seguro o está d ispuesto a acep tar, y 2 j la d e los q u e le p arece n
m ás p ro b lem ático s y en los que, p o r lo ta n to , e s tá m ás in teresado.
Los su p u esto s de la p rim e ra categoría podem os ponerlos todos
ju n to s en lo q ue llam arem os el m odelo. E n cu an to a los de la o tra
categoría, son los q u e el investigador desea verificar y se desig­
n an com o hipótesis.
P o r lo regular, p o r lo m enos en las verificaciones m ás sencillas
de que nos ocuparem os en los próxim os capítulos, sólo h a b rá
u n a h ip ótesis. Im p o rta d arse cu en ta de q u e desde el p u n to de
vista d e la pru eb a estadística m ism a , todos los supuestos poseen
el m ism o carácter lógico. Si los re su ltad o s de la p ru e b a aconse­
ja n d e sc a rta r los supuestos, to d o lo que p u ed e decirse, sobre la
base de la prueba m ism a , es que p o r lo m enos u n o de los supues­
tos, y a u n p o siblem ente todos ellos, son p ro b ab lem en te falsos.
Com o q u iera q u e la p ru e b a elló m ism a n o p u ed e su m in istra r
in fo rm ació n acerca de cuál de los su p u esto s sea erróneo, es in­
dispensable, si los re su ltad o s h a n de te n e r algún sentido, que sólo
u n o d e ellos sea re alm en te dudoso. E n estas condiciones será
po sib le d e sc a rta r el su p u esto en cuestión (la h ip ó tesis) com o
erróneo.
Los estu d ian tes fo rm u lan a m enudo el siguiente tip o de p re­
g u n ta : "¿so b re qué b ase se escoge u n a d eterm in a d a p ru e b a esta ­
d ística con p referen cia a o tra ? ” U no de los criterios que p u ed e
d a rse a estas altu ra s es el de u n m odelo apropiado. E n o tro s
té rm in o s : el in v estigador h a de seleccionar u n a p ru e b a q u e sólo
co m p o rte u n su p u esto dudoso (su h ip ó tesis). E n efecto, si u n a
d eterm in ad a p ru e b a re q u ie re dos o m ás supu estos dudosos, será
difícil, p o r no decir im posible, decidir cuál de ellos d eb a d escar­
tarse . E n tal caso, el estu d ian te d eb erá tr a ta r de e n c o n tra r u n a
p ru e b a altern ativ a q u e n o traig a consigo tan to s supuestos d u ­
dosos.
P ara ilu s tra r lo que precede con n u estro ejem plo de la m one­
da, la p ru e b a binom ial req u iere el supuesto de que 10 lanzam ien­
tos constituyen tina m u estra al az ar de todos los lanzam ientos
posibles con la m ism a m oneda, y que todos ellos son indepen­
dientes u n o de otro. Suponem os, pues, que la m oneda es correcta.
E sto ú ltim o sería p o r lo re g u la r n u e s tra hipótesis, en tan to que
lo p rim ero co n stitu iría n u estro m odelo, ya que el in terés se con­
cen traría p ro bablem ente en sa b e r si la m oneda es o no correcta.
Se concibe, sin em bargo, que podam os sospechar de la persona
que efectúa los lanzam ientos. Si estuviéram os relativam ente se­
guros a p ro p ó sito de la m oneda, p o r h a b e r com probado previa­
m en te que d ab a aproxim adam ente caras la m ita d de las veces,
entonces p odríam os cam biar el problem a y verificar u n a hipó­
tesis relativ a al^ m étodo del lanzam iento ( o sea el m étodo de
m u estreo ). Supóngase que no estuviéram os dispuestos a ac ep tar
com o m odelo la corrección de la m oneda o la corrección de la
p ersona que efectúa el lanzam iento. En tal caso, si salen 50 ca­
ras consecutivas, decidiríam os que p o r lo m enos u n o de nu estro s
supuestos e ra indudablem ente erróneo, p ero no estaríam os en con­
diciones de d ecidir cuál de ellos. E n general, p o r supuesto, pone­
m os to d a la atención necesaria en n u estro s m étodos de m uestreo
p a ra te n e r u n a seguridad razonable de que los supuestos relativos
a los m ism os son ciertos.
P ara ilu s tra r el m ism o aspecto con u n ejem p lo de carácter
sociológico, supongam os que se nos invita a fo rm u la r sólo dos
supuestos en u n a p ru e b a estad ística determ inada, esto e s : 1 )
que en la población seleccionada las proporciones de personas
de las clases m edia e in ferio r con grandes deseos de cam bio de
situación son las m ism as, y 2 ) que se h a obten id o u n a m u estra
aleato ria de todas las personas. Supóngase asim ism o que dichos
supuestos conducen a d eterm inadas conclusiones qúe n o con-
cuerdan con los hechos. Tal vez, p o r ejem plo, los datos de la
m u estra señalan u n p o rc en taje m ucho m ás alto de personas de
la clase m edia con grandes deseos de cam bio. Concluimos, pues,
que u n o u o tro de los dos supuestos es p robablem ente erróneo.
P ero ¿cuál de ellos habrem os de d escartar? Nos g u staría sacar
la conclusión ^de que el falso e ra el p rim ero, p ero tal vez nos
hayam os servido de m étodos de m u estreo sujetos a alguna in­
fluencia ajena. E n resum en, necesitam os datos adicionales, ap ar­
te de lo que indica la p ru e b a m ism a.
. este ejem plo p articu lar, si hem os tom ado to d as las precau­
ciones p a ra aseg u rar la selección de u n a m u estra al azar, pode­
m os to m ar com o m odelo el su p u esto 2 ) y fo rm u lar la conclusión
de que el supuesto falso e ra p robablem ente el 1). Aquí n u estra
propensión a a c ep tar el su p u esto 2 ) se b asa en n u e stro conoci­
m iento acerca de los m étodos de selección em pleados, o sea de
n u estra m etodología. E n o tro s casos, en cam bio, podem os acep­
ta r ciertos sup u estos so b re la b ase de hallazgos de investigacio­
nes an terio res. El p u n to im p o rtan te, sin em bargo, es q u e la
prueba m ism a n o sirve para identificar el su p u esto o los supues­
tos erróneos. E n este sentido, todos los supuestos poseen el
m ism o ca rác te r o grado lógico. P a ra p o n e r este hecho de m a­
n ifiesto y p a ra llam ar la atención del lecto r sobre los supues­
to s del m odelo, tra ta m o s la hipótesis exam inada com o u n a sola,
sim plem ente, e n tre cierto nú m ero de supuestos exigidos p o r la
pru eb a.
Com o y a se d ijo an terio rm en te, el investigador tien e p o r lo re ­
g u lar in terés en fo rm u la r u n a hipótesis q u e en realid ad le gus­
ta ría p o d er d escartar. La hipótesis efectivam ente exam inada se
designa a m enudo com o hipótesis nula (sim bolizada p o r H 0), p o r
c o n tra ste con la hipótesis de investigación ( H x), que se fo rm u la
com o altern ativ a de H 0. P o r lo regular, au n q u e no siem pre, la
h ipótesis n u la enuncia que no existe d iferencia e n tre varios gru­
pos o que no se d a relación alguna e n tre variables, en ta n to que
la hipótesis de investigación puede a n tic ip a r u n a relación, ya
sea positiva o negativa. E l investigador p u ed e e sp e ra r e n reali­
dad que la h ipótesis negativa sea e rró n ea y se deje d e sc a rta r en
fav o r de la altern ativ a H t . N o ob stan te, con o b jeto de calcular
u n a d istribución de m u estreo , h a de p ro c e d e r com o si H 0 fu e ra
efectivam ente correcta. S upondría, p o r ejem plo, que la m oneda
no está sesgada.
O bsérvese q ue el su p u esto de tina m o neda co rre c ta p ro p o r­
ciona u n a m an era de calcular probabilidades exactas sirviéndose
de la fó rm u la binom ial. E n efecto, si se fo rm u lara la h ip ó te­
sis de q ue la m oneda es "sesgada”, nos en co n traríam o s con que
no podíam os o b ten er u n a d istribución de selección h a sta después
de h a b e r especificado la hipótesis de m odo m ás preciso. H a b ría­
m os de re m itim o s a u n valor específico de p, digam os d e .75, p o r
ejem plo. R ara vez estarem o s en condiciones de hacerlo. Y en
fo rm a análoga, la hipótesis de investigación de que hay e n tre la
clase m edia una p ro p o rció n m ay o r de p erso n as con grandes de«
seos d e cam bio n o es ta n específica com o la hipótesis n u la en
el sen tid o de que n o h ay en absoluto diferencia alguna e n tre las
dos clases.
2. O btención de la distribución de m uestreo. H abiendo fo rm u ­
lado los supuestos necesarios, estam os ah o ra en condiciones de
serv im o s del razonam iento m atem ático p a ra o b ten er u n a d is tri­
bución de m u estreo a la que asociam os pro b ab ilid ad es con re su l­
tado s. S em ejante d istrib u ció n de pro b ab ilid ad es nos d irá sim ­
plem en te cuán p ro b a b le sea cada u n o de los resu ltad o s posibles,
si los su p u esto s adoptados son efectiva m en te correctos. S i los
su p u esto s an terio res a p ro p ó sito de la m o n ed a y de los lanza­
m ientos fu eran realm en te correctos, ya vim os que a la larga sólo
p o d ríam o s e s p e ra r o b te n e r todas las c a ra s u n a sola vez sobre
1 024, sólo 10 veces sobre 1 024 o b ten er nueve caras, etcétera.
El conocim iento de la p ro b ab ilid ad de u n re su ltad o p a rtic u la r
cualquiera, al pro d u cirse p o r azar si n u estro s supuestos fu eran
efectivam ente ciertos, nos p e rm ite ah o ra to m a r u n a decisión
racional a p ro p ó sito de las condiciones en las que podríam os
arriesg am o s a d esc artar los supuestos en cuestión. Supóngase,
p o r ejem plo, que obteníam os 10 caras en 10 lanzam ientos. Exis­
ten dos posibilidades: a) o bien los supuestos son correctos, y
éste es uno de los casos en que se produce u n acontecim iento
m uy raro , o bien b ) u n o p o r lo m enos de los supuestos (p ro b a­
blem ente la hipótesis n u la) es falso. P or desgracia, no podem os
sab er n u n ca cuál de las dos alternativas sea la correcta. Si lo
supiéram os, en efecto, h ab ríam o s sabido de an tem an o acerca de
los supuestos, y ya no ten d ría o b jeto alguno e fectu ar el experi­
m ento. P ero podem os decir que la p rim era altern ativ a es m uy
im probable.
Establezcam os, pues, la regla de que cada vez que obtenem os
10 caras en 10 pru eb as sucesivas podem os llegar a la conclusión
d e que u n o p o r lo m enos de los supuestos es falso y debería
descartarse. A la larga podrem os eventualm ente com eter erro ­
res ad h irien d o a dicha regla estricta, ya que sabem os que inclu­
so con u n a m oneda sesgada podem os e sp e ra r o b ten er 10 caras
u n a vez so b re 1 024, sim plem ente p o r casualidad. S em ejante re ­
gla no nos ay u d ará a d eterm in a r la corrección de n u e stra deci­
sión en relación con u n experim ento p a rtic u la r cualquiera, p ero
las leyes de las probabilidades nos dicen exactam ente qué pro­
porción de veces podem os e sp e ra r to m a r decisiones correctas
a la larga. E n cierto sentido, n u e stra fe se fu n d a m ás en el p ro ­
cedim iento q ue seguim os que en la decisión q u e form ulam os en
cada ocasión p artic u la r. Y dicho pvoc&d&fiti&ttto nos proporcio-
n a rá decisiones correctas la m ayoría de las veces, aunque no
podam os e sta r absolutam ente seguros de decidir co rrectam ente
en u n a ocasión concreta cualquiera.
3. Selección d e u n nivel d e significación y de una región crítica.
Désete u n p u n to d e vista ideal, las decisiones del investigador
deberían to m arse con an terio rid ad al experim ento o al análisis
efectivos de los datos. A p a r tir de su conocim iento de la d istri­
bución de m uestreo, selecciona u n grupo de altern ativ as las cua­
les, caso de p roducirse, le obligarían a d esc artar su s supuestos.
E stos resu ltad os im probables se designan com o la región crítica.
Asi, pues, divide los resultados posibles en dos c a te g o ría s: a )
aquellos en cuyo caso d esc artará (la región crítica ), y b ) aq u e­
llos que, de p roducirse, no le p e rm itirán d escartar. Con objeto
de p o d er estab lecer u n a región crítica, h a de decidir dos aspectos
adem ás de la elección de u n m odelo y u n a hipótesis. P rim ero ha
de d ecidir los riesgos que está dispuesto a asu m ir d e in c u rrir en
los erro res de tipos I y II. Y en segundo lu g ar h a de decidir si
desea o no que su región crítica incluya am bas colas de la dis­
trib u ció n de m uestreo.
Según se indicó en el capítulo v m , se h a n de to m a r en consi­
deración dos tipos de erro res posibles. El p rim ero consiste en
d e sc a rta r u n g rupo de supuestos en re alid ad correctos. El tipo
de e rro r II, en cam bio, im plica el no d e sc a rta r supuestos en re a­
lid ad falsos. S obre la b ase de la distribución de m u estreo pueden
d eterm in a rse ex actam ente las probabilidades de que se p ro ­
duzcan determ inados resultados si los supuestos son efectiva­
m en te correctos. Si el investigador decide que d esc artará cada
vez que se produzca u n d eterm inado n ú m ero de resultados im ­
p ro b ab les (digam os cero caras o diez c a ra s), entonces, si los
supuestos son correctos, com eterá u n e rro r de tipo I cada vez
que obtenga u n o de los resultados en cuestión.
La p ro b ab ilid ad de com eter u n e rro r de ese tip o es igual a la
sum a de pro b ab ilid ades de cada u n o de los resultados _en el in te­
rio r d e la región. Así, p o r ejem plo, si la región crítica consta
de cero a diez caras, la p ro b ab ilid ad de e r ro r de tip o I será de
2/1 024, o sea .002. Si se escogiera u n a región crítica m ás am plia,
el riesgo de dicho tip o de e rro r sería m ayor. S upóngase que se
d ecid iera d e sc a rta r los supuestos si se o b ten ían cero, u n a, nueve,
o diez caras. E n este caso la pro b ab ilid ad del e rro r del tip o I
sería de (1 + 1 + 10 + 10)/1 024, o sea .022. La p ro b ab ilid ad de
co m eter u n e rro r de tip o I se designa com o nivel de significan­
cia y p u ed e p o n erse a cu alq u ier valor deseado.
Antes de exam inar los criterio s posibles p a ra decidir acerca
del nivel de significancia, hay que decir algo a p ro p ó sito de los
erro re s d e tip o II. E n vista de n u e stro exam en a n te rio r de la
falacia consistente en a firm a r el consecuente, es m anifiestam ente
in co rrecto sacar la conclusión de que si determ inados supuestos
no se d ejan d e sc a rta r h a n de ser, e n consecuencia, ciertos. E n
efecto, o tro g rupo de supuestos p u d o h a b e r llevado igualm ente
a u n a distrib u ció n de m u estreo con la que se p o d ría h a b e r llega­
do a conclusiones sim ilares. P or ejem p lo : si la v erd ad era p ro ­
bab ilid ad de caras fu e ra de .51 en lu g ar de .50, entonces la dis­
trib u ció n de m u estreo sería casi id én tica a la^ que calculam os.
P o r consiguiente, p ro b ab lem en te se h a b ría elegido la m ism a re­
gión, y la decisión en cu an to a d e sc a rta r o no h a b ría sido la
m ism a. Y sin em bargo, en rigor, la hipótesis de p = .5 sería falsa
y d ebería en realid ad descartarse. Y si n o estuviéram os en con­
diciones de hacerlo, n o estaríam os sin em bargo dispuestos a
co n sid erarla com o la ú n ica h ip ó tesis co rrecta, y a que hay u n
n ú m ero adicional d e hipótesis que tam poco p o d ría descartarse.
D ecidim os sim plem ente que "no debiéram os d e sc a rta r” n u e stra
hipótesis.
In clu so si en u n p lan conservador rechazam os a c e p ta r u n a
hipótesis, nos g u staría, con todo, e sta r en condiciones de elim i­
n a r cu an tas falsas hipótesis h ubiera. E n este sentido com etem os
u n e rro r siem p re q u e dejam os de d e sc a rta r u n a hipótesis falsa.
¿Y qué pued e decirse a p ro p ó sito de la p ro b ab ilid ad de in c u rrir
en u n e rro r de tip o II? D esgraciadam ente n o es ta n fácil calcu­
la r los erro res de tip o I I com o es el caso con los de tipo I. Nece­
sitam os, pues, ap lazar n u e stro exam en de los m ism os h a sta el
cap ítu lo xiv. Conviene, sin em bargo, o bservar u n hecho im por­
ta n te . Y es que, p a ra cualquier p ru e b a dada, las probabilidades
de e rro res de los tipos I y I I son inversam ente proporcionales.
E n o tro s té rm in o s: cuanto m e n o r es el riesgo d e u n error de
tipo I, ta n to m ayor es la probabilidad de uno de tipo I I . E sto
p u ed e verse en n u e stro ejem plo de los lanzam ientos. El lector
h a de convencerse p o r sí m ism o que, si se elige u n a región crítica
pequeña (digam os cero caras y diez c a ra s), te n d rá m enos p ro ­
babilidades de d e sc a rta r cualquier su p u esto q u e si se sirviera
de u n a región m ás com prensiva ( digam os cero, u n a, nueve y diez
ca ras). E n el p rim e r caso, si b ien está m enos expuesto a descar­
ta r su p u esto s ciertos, tiene tam b ién m enos probabilidades de
d e sc a rta r los falsos. De ahí que c o rra m ayor riesgo de com eter
u n e rro r d e tipo II.
Es, pues, im posible reducir sim ultáneam ente los riesgos d e los
dos tipos de errores, a m enos que se vuelva a d isponer el estu d io
en o tra fo rm a y se seleccionen casos adicionales o u n a pru eb a
estad ística d istin ta. E n la p rá c tic a ponem os la p ro b ab ilid ad de
e rro r de tip o I a u n nivel determ in ad o (digam os .05) y escoge­
m os la p ru e b a estad ística q u e m ás reduce el riesgo de e rro r de
tip o II. Al elegir e n tre p ru e b as altern ativ as, escogem os aquella
q ue tien e u n m odelo apro p iad o y red u ce m e jo r el riesgo de e rro r
de tip o II.2
La decisión e n cu an to al nivel de significación a escoger depen­
de de los costos relativos re su ltan te s de co m eter u n o u otro
tip o de e rro r y d eb ería ap reciarse de acuerdo con ello. E n oca­
siones h ay q ue a d o p ta r u n a decisión p rá ctica conform e al resu l­
ta d o del experim ento. Un fa b rican te puede decidir in sta la r u n
equipo costoso, u n investigador p u ed e decidir e x tra e r o tra m ues­
tr a y re p e tir su estudio, o las au to rid ad es san itarias pueden
decidir si deben o n o in te n ta r u n a vacunación en m asa con
u n nuevo suero. E n o tro s casos n o se re q u ie re decisión p rá c ­
tica alguna. U n sociólogo, p o r ejem plo, p u ed e p u b licar sim ple­
m en te los resu ltad o s de su estu d io e n u n periódico, sin ten er
que s o p o rta r las consecuencias d e e r ro r d e u n tip o o del otro.
E n situaciones e n las que h ay que to m a r decisiones de carác­
te r p ráctico la elección de u n nivel de significación re su lta p a r­
ticu larm en te difícil. E n el ejem plo del lanzam iento, supóngase
que la decisión co m p o rta ra el d e ja r de seguir jugando con una
m oneda de cuya perfección se sospecha. Si n u e stro ju g ad o r hipo-
2 Para el examen más a fondo de esta cuestión, véase la sec. XIV.l.
tético tu v iera la perspectiva de u n a esposa regañona caso de vol­
v er a la casa con ios bolsillos vacíos, h a rá bien en d e ja r el juego
si existe siq u iera la m ás leve duda a p ro p ó sito de la m oneda. E n
tal caso elegiría u n a región crítica am plia, y a que las consecuen­
cias de un e rro r de tip o I I (e sto es, de seguir ju g an d o si la m o­
n ed a estab a realm ente sesgada) serían m uy lam entables. Por
o tra p a rte , si co rriera el riesgo de in s u lta r a su je fe sosteniendo
q u e la m o n ed a estab a sesgada, d esearía e s ta r perfectam en te se­
guro de ello an tes de a d o p ta r su decisión. E n este últim o caso
escogería u n a región crítica m uy pequeña, reduciendo así al m í­
nim o el riesgo de e rro r de tip o I. Y en fo rm a análoga, si el costo
de la vacunación en m asa fu e ra considerable o el suero eventual­
m en te peligroso, se d esearía e s ta r absolutam ente seguro antes de
aplicarlo. D esearíase h a c e r m uy difícil d e sc a rta r la hipótesis
n u la de que el suero no p ro d u ce efecto benéfico alguno.
Si n o h ay m ás decisión p rá ctica a to m a r que la de publicar
o n o los resu ltados de u n estudio, d eb ería seguirse o tra regla
general. E n este caso, en efecto, el investigador debería aplicar­
se a d em o stra r a sí m ism o que está en error o a obtener resulta­
dos que en realidad no desea obtener. P o r lo regular, p e ro n o
siem pre, se establece u n a hipótesis n u la que en realid ad se desea
d escartar. Y com o q u iera que al investigador le g u staría e s ta r
en condiciones de d escartarla, debería h a c e r la obtención del
re su ltad o deseado m uy difícil, sirviéndose p a ra ello de u n a re­
gión crítica m uy pequeña.
H ay ocasiones, en cam bio —y llam am os la atención del lecto r
al resp ecto —, en que n o se desea realm en te d e sc a rta r la hipótesis
nula. Así, p o r ejem plo, la hipótesis n u la p u ed e a d o p ta r la fo rm a
d e u n a p redicción en el sen tid o de que n o hay diferencias reli­
giosas o de clase en cuanto a la ta sa de fecundidad. Si se desea
realm en te estab lecer tales diferencias, debería escogerse u n a re­
gión crítica m uy pequeña, haciendo el d escarte de la hipótesis
n u la m uy difícil. P ero supóngase que el investigador desea real­
m en te d em o strar que tales diferencias n o existen. Tal vez tra te
de d em o strar que algunas teorías en boga a p ro p ó sito de dife­
ren cias en m ateria de fecundidad son in co rrectas o inadecuadas.
O pued e e sp e rar que dichas diferencias n o existen, de m odo que
n o ten g a q ue investigar desde los p u n to s d e vista d e clase o de
religión al re fe rir las ta sa s de fecundidad a o tras variables.
E n los casos que se acaban de m encionar, el investigador se
h alla en cierto sentido del lado falso de la hipótesis y debería
e s ta r e n consecuencia in teresad o a n te to d o en re d u cir el riesgo
d e e rro r de tip o II. E n o tro s térm inos : debería p reo cu p arse
a n te to d o de n o re te n e r la hipótesis n u la de la ausencia de di­
ferencias si e n re alid ad es falsa. De ahí que al escoger u n a región
crític a p eq u eñ a n o siem pre se peque de conservador, haciendo
a sí difícil d esc artar u n a hipótesis n u la q u e en realidad se desea
reten er. Los niveles de significación com únm ente em pleados en
la in v e stig a d o s estad ística son los de .05, .01, y .001. E n vista
de lo que se acab a de exponer, el lecto r se h a b rá p ercatad o de
que dichos niveles n ad a tienen de sagrado o absoluto. A unque
u n a p erso n a fu e ra n o rm alm en te conservadora en el em pleo de
los niveles en cuestión, e s ta ría de to d o s m odos en te rre n o m ás
fírm e, si realm en te n o deseaba d e sc a rta r la h ip ó tesis nula, adop­
tan d o ta l vez los niveles .10, .20 o incluso .30, red u cien d o así el
riesgo de e rro r de tipo II.
Procede h ac er u n a ad v erten cia en relación con la in te rp re ta ­
ción de los re su ltad o s de las p ru e b as de significado, y a que es
posible o b tenerlos m ás bien falsos, a u n sirviéndose del nivel .001
y cuando se desea el descarte. Las p ru e b as de significado nos
dicen cu án p ro b ab le u n g ru p o dado d e re su ltad o se ría si ciertos
su p u esto s fu e ran verdaderos. H ay varios facto res que determ i­
n an la p ro b ab ilid ad de que estem os en co n d id o n es d e d e sc a rta r
dichos supuestos. E l p rim e ro de ellos es el g rad o re al d e falta
de p ro p ied ad de los supuestos. Si, p o r ejem plo, la v erdadera
p ro b ab ilid ad de caras es .9, es m uy p ro b ab le q u e estem os en
condiciones de d e sc a rta r la h ip ó tesis de que p sea .5, p o rq u e po­
dem os o b ten er efectivam ente u n a p ro p o rció n suficientem ente
g rande de caras p a ra te rm in a r e n la región crítica. P o r o tra
p arte , si la v erd ad era p ro b a b ilid ad es .53, es m enos p ro b ab le
q u e obtengam os los re su ltad o s extrem os necesarios p a ra el
d escarte.
E l n ú m ero de casos es o tro fa c to r im p o rta n te en la d eterm in a­
ción de cuán extrem os d eban ser los re su ltad o s a n tes de que el
d escarte sea posible. Con sólo 10 lanzam ientos o casos ya vimos
que se req u ieren resu ltad o s m uy extrem os p a ra p o d e r d escartar.
P ero si N es grande, la proporción de éxitos sólo necesita h acer
la h ip ótesis p a r a d ife rir de p en m uy poco p a ra que estem os au ­
torizados a h acerlo. Si la m o n ed a se lan zara al a ire 10 m il veces
en lu g ar de 10, estaríam o s e n c o n d id o n es de d e sc a rta r la hipó­
tesis si obtuviéram os, p o r ejem plo, 5 200 ca ras o m ás. E n o tro s
térm in o s : en el su p u esto de q u e p es exactam ente u n a m itad , o
sea .5, 5 200 caras o m ás en 10 m il lanzam ientos serían m ás im ­
p robables que 10 ca ras e n 10 lanzam ientos, pese a que los resul­
tados no sean ni con mucho- ta n extrem os. E sto concuerda, p o r
supuesto, con n u e stra m ay o r fe in tu itiv a en grandes m u estras y
con la inteligencia de que, en caso de m u estras m uy pequeñas,
p o d rían o c u rrir con frecuencia resultados extrem os debidos al
m ero azar. Y en fo rm a análoga, con u n a selección de 10 m il p e r­
sonas podríam os o b te n e r diferencias m u y pequeñas en las tasas
d e fecundidad e n tre las m u jere s d e las clases m ed ia e inferior,
y estar, con todo, en condiciones de d e sc a rta r la h ip ó tesis nula
en el sentido de que no hay diferencia alguna en la población.
Con u n n ú m ero m u y grande d e casos resulta casi siem pre
posible descartar cualquier falsa hipótesis q u e pudiéram os fo rm u ­
lar, in d ep en d ien tem ente de cu án to p u ed a d ife rir el valor de nues­
tr a h ip ó tesis del verdadero. E sto significa que si tenem os 10 m il
casos, no d eb erá so rp ren d ern o s m ucho que estem os en condicio­
nes de d esc artar al nivel .001, y deberem os gu ard arn o s d e com u­
n ic a r n u e stro hallazgo com o si fu e ra m uy im p o rtan te. E n efecto,
no d ebe confundirse la significación estad ística con la práctica.
La significación estad ística sólo puede decirnos que ciertas dife­
ren cias d e m u estras n o o cu rrirían con m u ch a frecuencia p o r azar
si n o h u b ie ra diferencias cualesquiera en la población. N ada nos
dice, e n cam bio, en cu a n to a la m agnitud o la im p o rtan cia de di­
chas diferencias. P o r lo tan to , u n fa c to r suficientem ente grande
p a ra p ro d u c ir diferencias estad ísticam en te significativas en una
m u e stra p eq u eñ a es m ás digno de atención que u n fa c to r que
sólo p ro d u ce pequeñas diferencias de las que ún icam en te puede
d em o strarse q ue son significativas estad ísticam en te con una
m u e s tra m uy grande. Si el estudio co m p o rta u n gran n ú m ero
de casos, n o s interesam os p o r lo re g u la r p o r o tras clases de
pro b lem as que las p ru e b as de significación. E sta cuestión se
ex am in ará m ás a fondo en el capítulo xv, cuando trate m o s de m e­
didas de g rad o de relación. P o r el m om ento, b a ste señalar que
la significación estad ística n o im plica necesariam ente diferencias
im p resio n an tes o de las q u e son im p o rtan tes p a ra el sociólogo.
Antes de p o d er d e te rm in a r la región crítica hay que a d o p tar
o tra clase de decisión. H ay cierto n ú m ero de resu ltad o s o de
gru p o s de resu ltad o s cuya p ro b ab ilid ad pu ed e se r m en o r que el
nivel seleccionado d e significación. Así, p o r ejem plo, la pro b ab i­
lid ad de o b ten er exactam ente ocho caras es d e 45/1 024, o sea .044.
P o r lo tan to , sería posible, au n q u e n o m uy sagaz, decidir recha­
z a r la h ip ó tesis n u la e n caso de darse exactam ente ocho caras,
y n o rech azarla en o tro caso. L a p ro b a b ilid ad de e rro r de tip o I
sería así de .044. La elección de sem ejan te región crítica, sin
em bargo, apenas te n d ría sentido teóricam ente, ya que p o r lo
re g u la r se vacilaría aú n m ás en cu an to a a c e p ta r la hipótesis
n u la si fu e ran a sa lir nueve o diez caras, pese a q u e estas a lte r­
n ativ as no co rrespondieran a la región crítica. Casi siem pre te ­
nem os in teré s en servirnos p o r lo m enos de u n a cola e n te ra de
la d istrib u ció n . E n efecto, n o nos in tere sa la pro b ab ilid ad de ob­
te n e r exactam ente ocho caras, sino la p ro b ab ilid ad de o b ten er
ocho o m ás caras, esto es, la p ro b ab ilid ad de o b ten er ocho ca­
ra s o algo incluso m ás insólito todavía.
P ero, ¿ p o r q ué n o in clu ir en la región crític a cero, u n a y dos
caras, ya que dichas altern ativ as son ta n im probables com o las
de ocho, nueve y diez c a ra s? A m enudo no estam os en condicio­
n es de p re v e r en qué dirección puedan p ro d u c irse los resu ltad o s
insólitos. E n n u e stro ejem p lo sólo podem os sospechar que la
m oneda esté sesgada, p e ro podem os n o te n e r indicio alguno* en
cu an to a si está influida en favor de las caras o de las cruces.
Además, esto puede acaso n o im p o rtam o s. E n ta l caso desea­
ríam os e s ta r seguros y servim os de am bos extrem os de la d istri­
bución de selección. P orque, si nos sirviéram os de u n a región
crítica de sólo ocho, nueve y diez caras, entonces, en caso de

005
F ig . X .l. Com paración de las regiones críticas de pruebas de una
sola cola y d e dos colas, em pleando el nivel de significación de .05

o b ten er exactam ente u n a cara, nos en contraríam os en la situa­


ción desdichada de n o p o d er d e sc a rta r la hipótesis n u la aun
siendo falsa.
S in em bargo, h ay c ierto n ú m ero de ocasiones en las que o es­
tam os en condiciones de p re d ecir la dirección de la desviación,
o nos interesam os a n te todo p o r las desviaciones en u n a sola
dirección. Así, p o r ejem plo, u n a inform ación p revia p u ed e h a ­
b ernos llevado a p re d ecir q u e la m oneda está a lterad a en favor
de las caras. O podem os e s ta r ju g an d o cada vez a cruz, de m odo
que, sí la m o n eda está afectad a en favor d e ésta, n o necesitam os
ten er m iedo alguno de seguir el juego. E n estudios m ás reales,
p o r o tra ‘p arte , re su lta a m enudo posible p re v er la dirección so­
b re la b ase de la te o ría o de estudios previos. P udo h ab erse p re­
dicho, p o r ejem plo, que los católicos te n d ría n fam ilias m ás
n u m erosas q ue los p ro testan te s. Si se está in teresad o en dem os­
t r a r que la teo ría de u n o es correcta, sólo se h a rá n p ru eb as de
significación cu an d o los resu ltad o s se pro d u cen en la dirección
prevista. Si se p ro d u cen en sentido contrario, en cam bio, n o se
necesita h a c e r p ru eb a, ya que los dato s n o confirm an de todos
m odos la teoría.
S iem pre que se haya p redicho la dirección, las p ru e b as de u n a
sola cola serán preferibles, al m ism o nivel de significación, a las
de dos, ya que será posible o b ten er u n a cola m ayor concentrando
la región crítica e n te ra en el extrem o apro p iad o d e la d istrib u ­
ción de m uestreo. E sta v e n ta ja de la p ru e b a de u n a sola cola
se ilu stra en la fig u ra X .l en relación con el caso de u n a d istri­
bución de m u estreo, lisa, que o ste n ta la form a de u n a curva n o r­
m al. E n dicha figura, las probabilidades de com eter u n e rro r de
tipo I son las m ism as en am bos casos, ya que las dos regiones
críticas son del m ism o tam añ o (m edidas en térm inos de áreas).
Sin em bargo, si los resu ltad o s o cu rren efectivam ente en la di­
rección p revista, el investigador te n d rá m ás probabilidades de
d e s c a rta r la hipótesis sirviéndose de u n a p ru e b a de u n a sola cola,
ya que existe m ayor p ro b ab ilid ad de caer e n la región crítica
en la dirección en cuestión. E n efecto, si la v erd ad era p robabili­
dad está en la dirección prevista, el riesgo de com eter u n e rro r
de tip o I I es m en o r que sirviéndose de u n a p ru e b a de dos colas.
A estas altu ra s el lecto r n o h a de esp e ra r p o d e r com prender
in tu itiv am en te las relaciones e n tre los e rro res de tipo II y las
p ru e b as de u n a y dos colas. E n efecto-, m uchas de estas nocio­
nes m ás b ien difíciles sólo se irá n aclarando u n a vez que se hayan
exam inado algunos ejem plos prácticos. El trata m ien to m ás de­
tallad o de los e rro re s de tip o I I h a de aplazarse h a sta el capí­
tu lo XIV.
P a ra co n c retar en el p re se n te ejem plo, escojam os el nivel de
.05 y sirvám onos de u n a p ru e b a de dos colas. La región crítica
c o n sta rá e n este caso de las altern ativ as cero, una, nueve y diez
caras, ya q ue la inclusión de altern ativ as adicionáles au m en taría
la p ro b ab ilid ad de u n e r ro r de tipo I m ás allá del nivel de .05.
E n n u e stro ejem plo, el nivel de significación realm en te em pleado
será el de (1 + 1 4-10 + 10)/1 024, o sea .022. E n o tro s casos en
que la distrib u ció n de m u estras es m ás b ie n continua que dis­
creta, se rá posible servirse del nivel exacto deseado (v.gr., .05,
.0 1 ,0 .0 0 1 ).
4. Cálculo de la estadística de la prueba. Es siem pre necesario
calcu lar lo que se designa com o estad ística de la pru eb a, cuya
d istrib u ció n de selección h a de em plearse en la pru eb a. H asta
aq u í sólo hem os tra ta d o con estadísticas tales com o las p ro p o r­
ciones de las m u estras, las m edias y las desviaciones están d a r,
que son d irectam ente com parables con las m ism as cantidades en
la población y pu eden u tiliza rse com o m edidas p a ra re su m ir los
datos. La estad ística d e la p ru e b a es u n a estad ística que p o r
lo re g u la r n o posee in terés en sí m ism a p o r lo que se refiere
a la descripción, p ero que se em plea p a ra verificar hipótesis. Es la
estad ística que co ntiene la distribución d e m u estreo la que se
u tiliza d irectam en te en la pru eb a. E n o tro s térm in o s: calcula­
m os de los datos de la m u e stra u n a ca n tid ad que varía de m odo
conocido conform e a la te o ría de las probabilidades. C om para­
m os luego su v alo r con la distrib u ció n de m uestreo, y adoptam os
u n a decisión evaluando la p ro babilidad de su ocurrencia. P or
su puesto, son m uchas las cantidades que pueden calcularse so­
b re la b ase de los dato s de las m uestras, p e ro sólo u n pequeño
n ú m e ro de ellas tien e distribuciones de m u estreo conocidas
q ue p u ed an u tilizarse con fines de verificación de hipótesis.
E n este ejem plo de la p ru e b a binom ial, la estad ística de p ru e­
b a es ta n sencilla, que casi n o vale la p en a de llam ar la atención
del lecto r al respecto. E n efecto, es sencillam ente el nú m ero de
éxitos en N ensayos y no re q u ie re cálculo u lte rio r alguno. E n
conexión con o tro s problem as, en cam bio, la estad ística de la
p ru e b a h a b rá de calcularse. E n el caso de la p ru e b a binoxnial,
hem os d ejad o que r to m ara todos los valores posibles, d e cero
a N , y hem os luego asociado probabilidades con cada valor. Su­
pongam os que en este p roblem a concreto, que com porta 10 lan­
zam ientos, el n ú m ero de éxitos (c a ra s) re su lta se r ocho. Posee­
m o s ah o ra to d a la inform ación necesaria p a ra ad o p tar una
decisión.
5. A dopción de una decisión. D espués de h a b e r elegido su re ­
gión crítica y de h a b e r calculado su estad ística de prueba, el
investigador d esc artará o n o d esc artará los supuestos según
el re su ltad o del experim ento. Si el re su ltad o queda d en tro de la
región crítica, descartará, con u n a p ro b ab ilid ad conocida de e rro r
de tip o I. Y si aquél no cae en la región crítica, no d escartará
los supuestos, asum iendo el riesgo de com eter u n e rro r de tipo II.
E n el p re sen te ejem plo, com o q u iera que el re su ltad o de ocho
caras no cae e n la región crítica, no d esc artará la hipótesis nula
según la cual la m oneda es insesgada.
Desde u n p u n to de vista ideal, to d as las decisiones anteriores
a los pasos 4 y 5 deberían to m arse an tes de p ro c ed er a la tabula­
ción de los resultados. A m enudo, en la lab o r exploratoria el
investigador exam inará p rim ero sus datos y pro ced erá luego a
h acer p ru eb as de significación. A unque esto sea a veces necesa­
rio, hay que observar, con todo, que siem pre que o c u rra así n o
se están re sp etan d o p o r com pleto las reglas del juego. E n tales
casos sería p referib le n o p re te n d e r que se está procediendo real­
m en te a la verificación de hipótesis. De todos m odos, los resul­
tad o s p o d rían exponerse en fo rm a sugestiva, y cualquiera que
p ro sig a el estu d io e sta rá así en condiciones de efectu ar pru eb as
estad ísticas legítim as.
^Los com entarios que preceden po d rán p a re c e r excesivam ente
rígidos y am biciosos, dado el c a rá c te r de exploración de gran
p a rte de la investigación sociológica. Sin em bargo, el a u to r cree
que es p referible fija r u n a "conciencia estad ística" estricta, no
d ejan d o la im presión de que las cosas puedan h acerse de cual­
q u ier m odo. E n efecto, a m enos que se ad opten las decisiones
con an terio rid ad al analisis de los datos, no puede hacerse legí­
tim am en te u so de la teo ría de las probabilidades, ya que el aná­
lisis es esencialm ente ex post fa d o . Y lo m alo de los análisis ex
p o st fa d o está en que el experim ento puede disponerse de tal
m odo que el investigador no tenga m an era de p erd er. Supóngase,
p o r ejem plo, que haya decidido, a tientas, servirse del nivel de
significado .05. Si encu en tra que sus resultados son significativos
al nivel de .07, puede decidir d e sc a rta r sus hipótesis de todos
m odos. P ero, supóngase que h a n sido significativos a los niveles
.09 o .13 o .18, ¿dónde h a b rá que h acer alto? O tra m anera de h a ­
cer tra m p a consiste en e sp e ra r h asta después del experim ento
p a ra d ecidir si hay que servirse o no de u n a p ru e b a de u n a cola.
E n tal caso, en efecto, si los resultados dan m ás caras que cru ­
ces, se decide sim plem ente que hubo de h ab e rse utilizado u n a
p ru e b a de u n a cola, ya que subconscientem ente se está antici­
p an d o u n a inclinación en favor de las caras. De este m odo, cual­
q u iera que sea la dirección de la desviación, se puede o b ten er
u n a región crítica m ayor que con u n a p ru e b a de dos colas.

X.3. Aplicaciones de la binom ial


La prueba del signo. Supóngase que u n sociólogo se está sir­
viendo de un sim ple esquem a "antes-y-después” o “sólo-después”
del experim ento, en el que se da u n pequeño nú m ero de casos
y en el que sólo está en condiciones de d eterm in a r p a ra cada u n o
d e ellos si su experim ento h a dado o n o resultados.3 Puede, p o r
ejem plo, desear sab e r si la experiencia o btenida en un cam po
in terra cial es o no eficaz en cuanto a re d u c ir los prejuicios fijos
c o n tra los negros. S om ete sus investigados a u n a p ru e b a de p re ­
juicios, an tes y después de la experiencia, y está e n condiciones
de ap reciar si el tipo de p reju icio en cuestión h a dism inuido o no.
Indiquem os con un + ("éx ito ") los casos en los que el p rejuicio
se h a reducido, y con u n — ("fracaso ” ) aquellos en que el p re ­
ju icio h a aum entado. Si hay personas que no m u estran el m e­
n o r cam bio, éstas qu ed arán excluidas del análisis. A m enos que
la m edición haya sido m uy bu rd a, dichas p erso n as serán relati­
vam ente pocas.4
La binom ial requiere el supuesto de independencia de los ex­
p erim entos. P or lo tanto, el sociólogo su p o n d rá que su grupo
experim ental constituye u n a m u estra aleatoria de la población
a cuyo p ro p ó sito se p ro p o n e generalizar, y que en tre los p a rtic i­
p an tes no se h a p roducido influencia m u tu a alguna, o sólo poca,
en cu an to a las m arcas de prejuicio. Supongam os que lo que
tra ta de estab lecer es que la experiencia en un. cam po es real­
m en te eficaz en cu an to a re d u cir los prejuicios. Como q uiera
q ue esto no puede hacerse directam ente, puede fo rm u lar la hipó­
tesis nula en el sentido de que la experiencia n o su rte efecto. Sí
efectivam ente no pro d u ce efecto, entonces, si se som etiera a u n a
experiencia sem ejante la población e n tera de la que se ex tra jo
la m u estra, habríam os d e e sp e ra r en c o n trar el m ism o núm ero de

3 Para el examen de este y otros tipos da esquemas de experimento véa­


se [6,],
4 El problema de empate o no cambio resulta particulannente molesto
en el caso de las variables ordinales, y será discutido en los caps, xiv y
xvm. Para una explicación más amplia véase Bradley [3], cap. ni.
p erso n as cuyo p re ju ic io se re d u jo y de aquellas cuyo preju icio
au m en tó . E n o tro s té rm in o s: deberíam os te n e r las m ism as p ro ­
porcio n es de signos m ás y signos m enos.
Com o q u iera que cada m iem b ro de la población tien e la m ism a
p o sibilidad de fig u ra r en u n a m u e stra aleatoria, la probabilidad
de o b ten er u n + e n u n a extracción d eterm in ad a cualquiera
será de .5 b a jo la hipótesis nula. Así, pues, u n su p u esto acerca
de la proporción de signos + en la población p erm ite, si se lo
co m b in a con el supuesto' del azar, en u n c ia r algo acerca de la pro­
babilidad de éxitos e n u n ensayo determ in ad o cualquiera. El azar
aseg u ra al p ro p io tiem po la independencia de los experim entos.
P erm ítasen os in sistir u n a vez m ás e n que es necesario form ular
su p u esto s ta n to acerca d e la población com o acerca del m éto d o
d e m uestreo. E n el p re se n te ejem plo, el in teré s se c e n tra e n la
eficacia de la experiencia, esto es, en la p ro p o rció n d e éxitos en­
tre la población. P o r lo tanto, el sociólogo se ase g u rará de que
se sirve de p ro cedim ientos correctos p a ra o b te n e r u n a m u e stra
aleato ria.
Si e n éste hay ocho personas, la distribución d e m u estreo de
éxitos sería com o sig u e:

N? de éxitos Probabilidad
0 V 258 = .004
1 8/ 256 = -031
2 23/256 = -109
3 w/sM = .219
4 TO/ 258 — -274
5 B8/ 256 = -219
6 “ / aM = .109
7 8/ 256 = .031
8 V M8 = .0W

1.000

Supongam os q u e el sociólogo q u iere em p lear u n nivel de signifi­


cación d e .05. Com o q u iera que la dirección se h a anticipado,
p u ed e u tilizarse u n a p ru e b a de u n a sola cola. La región críti­
ca p u ed e d eterm in a rse acu m ulando pro b ab ilid ad es a p a r tir de
ocho éxitos, luego siete, etcétera, h a s ta que la su m a re su lte m ayor
q u e el nivel de significación. P o r lo re g u la r n o será necesario
o b te n e r la distrib u ció n de m u estreo en tera, ya que en realid ad
sólo se em plean las colas p a ra d e te rm in a r la extensión de la re­
gión crítica. E n el p re se n te caso, la p ro b ab ilid ad de ocho éxitos
es de .004; la p ro b ab ilid ad de siete u ocho éxitos es de .035, y la de
seis, siete u ocho éxitos es d e .144. Como q u ie ra q u e la sum a
d e las p ro b abilidades de los re su ltad o s en el in te rio r de la re ­
gión crítica ha de se r m en o r que, o igual al nivel de significación
seleccionado, vem os que la región crítica sólo puede co n star de
siete u ocho éxitos.
Supóngase que el sociólogo efectúa el experim ento y en cu en tra
que en seis casos el p rejuicio h a dism inuido, en ta n to que h a
au m en tad o en los o tro s dos. E n consecuencia, no d escartará la
h ipótesis de que el experim ento no es eficaz, ya que la probabili­
d ad de o b ten er dicho resultado, o inclusive u n o m ás insólito, es
m ay o r que .05.
La prueba en el caso de ausencia de azar. E n el ejem plo ante­
rio r se supuso azar y el interés se ce n trab a en la proporción
de éxitos e n tre la población. E n otros tipos de problem as se po­
d rá te n e r inform ación acerca de la p roporción de personas que
reú n en determ inadas características en u n a población, p ero pue­
de ex istir u n a cuestión acerca de la selectividad. Así, p o r ejem plo,
p ued e disponerse u n a p ru e b a p ara v er si los profesionales están
o n o rep resen tad o s con exceso en los consejos, o si los negros
no están bien rep resen tad o s en el ju rad o . Supóngase que u n al­
calde designa a nueve personas p a ra u n a com isión, pretendiendo
q u e son rep resen tativas, en el sentido de que todos los adultos
tienen las m ism as probabilidades de se r elegidos. Es sabido que
el 35 p o r ciento de la clase laboral son oficinistas y, con todo, de
los nueve m iem bros de la com isión seis son oficinistas; puede
utilizarse u n a p ru e b a binom ial p a ra d eterm in a r el grado de p ro ­
b ab ilid ad de sem ejan te distribución profesional en el supuesto
d e selección al azar. E n este problem a p artic u la r, la p robabili­
d ad de éxito p o r d eb ajo de la hipótesis n u la sería de .35, y la
distrib u ció n de selección no sería sim étrica. C onsideraríam os
cad a u n a de las nueve posiciones de la com isión com o ensayo.
La p ro b ab ilid ad de o b ten er com o p rim e r com isionado a u n ofi­
cin ista sería de .35, y análogam ente p a ra cada u n a d e las ocho
posiciones restan tes.
O tros em pleos de la binom ial. Adem ás de los citados an terio r­
m ente, la binom ial p u ed e utilizarse en cierto nú m ero de otros
tipos de problem as. E n ocasiones pueden utilizarse m edidas de
posición, tales com o la m ediana o los cuartiles, p a ra p erm itim o s
v erificar si u n a p equeña su b m u estra d e p erso n as es significativa­
m en te d istin ta de lo que esperaríam os en caso de azar. De una
m u e stra grande es posible o b ten er u n a apreciación m uy buena
de la distrib u ció n de los ingresos en relación con u n a ciudad de­
term in ad a. Si los datos sólo se h an obtenido de seis arm enios y
si seis de estas p ersonas ss encuentran en el cuartil inferior, p o ­
dem os efectu ar u n a p ru e b a p ara v er qué grado de probabilidad
rev iste esto, a condición, p o r supuesto, de a d o p tar las decisiones
con an terio rid ad al experim ento.15 Como q u iera que p o r definición
5 Necesitamos tener un número muy grande de casos, con objeto de obte­
ner una apreciación exacta de la medida de posición (v.gr., Q ^. En otro
u n c u a rto de la población se e n c o n tra rá en el c u a rtil inferior, la
d istrib u ció n b inom ial p ro p o rcio n a la p ro b a b ilid ad de ob ten er
u n a d eterm in ad a p ro p o rció n de la su b m u estra p o r deb ajo del
c u a rtil de población, en el su p u esto de que dicha su b m u estra
co n stitu y a esencialm ente u n a m u e stra al az ar d e la población
m ayor.
Así, p o r ejem plo, com o q uiera que la p ro b ab ilid ad de que cual­
q u ier p erso n a d eterm in a d a se en c u en tre en el c u a rtil in ferio r es
de .25, la p ro b a b ilid ad de o b te n e r exactam ente seis arm em os en
el c u a rtil in ferio r se rla :

O tam b ién
««-(!) m r -
21
16 384

w = ( !) (t)W= 1
16 384

Com o q u iera que necesitam os o b ten er la p ro b a b ilid ad de conse­


g u ir seis o m ás éxitos, sum am os estas probabilidades y te n e m o s :

21 + 1
P( 6) + P (7 ) = ---------= .0013
16 384

O tro em pleo d e la binom ial p o d ría c o n sistir en c o m p ro b a r el ca­


rá c te r adecuado d e u n a teo ría que p re d ije ra co rrec ta m e n te la
dirección de ciertas diferencias en, p o r ejem plo, 11 d e 15 p ru e­
b as independientes. P ara que dichas p ru e b as fu e ra n indepen­
dientes, deberían c o m p o rta r m u estras distin tas. Así, p o r ejem ­
plo, u n a de las m u estras p o d ría c o n sta r d e jóvenes varones
p ro testan te s, o tro de jóvenes m uchachas p ro testan te s, o tro de
v arones católicos d e m ás edad, etcétera. C ada u n a d e las sub­
m u estras p o d ría s e r dem asiado p eq u eñ a p a ra p ro p o rc io n a r sig­
nificación estad ística separadam ente, pero, si las su b m u estras
se h u b iera n seleccionado independientem ente, p o d ría em plearse
leg ítim am ente u n a binom ial p a ra av eriguar si u n n ú m ero sufi­
cien te d e sü b m u estras d ab a o n o re su ltad o s en la dirección esti­
m ad a. C ada su b m u e stra c o n stitu iría e n ta l caso u n ensayo, y la
p ro b ab ilid ad de q u e en u n ensayo p a rtic u la r cu alq u iera el r e ­
su ltad o fu e ra en la dirección e stim ad a sería de .5 con base en la
hip ó tesis nula, en el sen tid o de q u e la te o ría n o ten ía ab so lu ta­
m en te n ingún v alor d e estim ación, esto es, e n el sentido de que
estim a la dirección erró n eam en te con la m ism a frecuencia q u e lo
caso, en efecto, habrá un grado de error suficiente en dicha apreciación
para requerir el empleo de una prueba de dos muestras. La razón de ello
se verá claramente una vez que se hayan expuesto las pruebas de dos
muestras en el capítulo xm.
hace co rrectam ente. O bsérvese q u e sem eja n te p ru e b a n o p o d ría
em p learse si se to m a ra n 15 observaciones sobre la b ase de la
m ism a m u e stra de personas.

* X.4. Extensiones del binomio


Son varios los posibles m étodos p a ra am p liar el plan team ien to
b ásico ejem plificado con el em pleo d e la d istrib u ció n binom ial.
Aun cu an d o dichos m éto d o s no son usados con frecuencia e n las
p ru e b as estad ísticas de las ciencias sociales, debe al m enos cono­
cerse su existencia. La p rim e ra de ellas es la d istrib u ció n multi-
nominal, utilizable en situaciones e n que se d an m ás d e dos cla­
ses de eventos. H em os v isto y a que si hay k clases d istin tas de
eventos, y si r, es el nú m ero de eventos e n la z-ésima clase, resu l­
ta rá que el n úm ero de p e rm u ta s p a ra dichos eventos v en d rá dado
p o r la expresión N \ / r x \r2\ ■. .rk\. Si los eventos son estad ística­
m en te indep en d ientes y las pro b ab ilid ad es de o b ten er las distin ­
ta s clases de eventos vienen dados p o r pit con i = 1,2, . . . k, y con
k
2 p i = 1, en tal caso la p ro b ab ilid ad d e o b ten er exactamente r L
í=i
eventos del tip o 1, r 2 eventos del tip o 2, . . . y rk eventos k e n al­
gún orden particular se rá :

(P iP iP i ■■■) (P2P2P 2 • • • ) ■ • • (PkPkPk ■■■) = P ir'P'f* ■ • • Pk*


V_______________
Y ) \ _______ ._______ I
Y V_______________
V J

rt térm ino s r2 térm in o s rh térm inos

Si m ultiplicam os esta expresión p o r el n ú m ero de p erm u ta cio ­


nes, obtendrem os la fó rm ula

N\
P ( r lt r2, rk) = — — ------------ p / i p 2r* ... pf*
ri'.r2l . . . r lc\

Es im p o rtan te o b serv ar que esta fó rm u la nos d a la p ro b ab ili­


d ad de o b ten er exactamente el n ú m ero especificado de eventos
d e cada tipo. Supongam os p o r ejem plo q u e tenem os conocim ien­
to de q ue u n a escuela contiene 50 p o r ciento de caucásicos, 30 p o r
ciento de negros y 20 p o r ciento de o rientales. ¿Cuál es la p ro b a ­
b ilid ad de que el " p rim e r equipo" de fú tb o l contenga exactam en­
te 3 caucásicos, 7 negros y 1 oriental, b a jo el su p u esto de q u e la
com posición racial del eq u ip o e stá su je ta a u n proceso de selec­
ción p u ra m e n te gobernado p o r el azar? U tilizando la distrib u ció n
m ultinom ial, te n d re m o s :

P( 3 ,7 ,1 ) = - H L (.5 )3( .3)»(.2)1 = .007


3 !7 !1 !
E ncontram os inm ediatam ente u n a dificultad que crea com pli­
caciones en el u so de la distribución m ultinom ial e n las pruebas
estadísticas. No re su lta obvio en m uchos casos cóm o puede es­
pecificarse sin am bigüedad u n grupo de soluciones que sean m ás
"in frecu en tes” que la ya obtenida. E n este ejem plo se dan varias
clases de com binaciones “insólitas". Veam os las sig u ie n te s: el
equipo pued e n o c o n tar con negro alguno, o n o in clu ir orientales,
p ero ¿qué re su ltad o cae en la región crítica? Si es posible espe­
cificarlo, p o d rá idearse u n a p ru e b a correcta. Si reunim os por
ejem plo a los caucásicos con los orientales, podríam os intere­
sarnos p o r la p ro b ab ilid ad de o b ten er siete o m ás negros en el
equipo. P ero en este caso, com o en otros m uchos, estaríam os
utilizando la distribución binom ial y no la m ultinom ial. R esulta
posible u n segundo tip o de m odificación de la binom ial cuando
se h a estad o m u estrean d o sin reposición u n a población relativa­
m ente pequeña. Si u n a población de tam año M contiene Aíj ele­
m entos del tip o 1, M2 elem entos del tip o 2, y, en general, M¡
elem entos del tipo i, y si los tam años correspondientes de la
m u estra son N y N it la probabilidad de o b ten er exactam ente N lt
N 2, . . . N k casos de cada tipo viene dada p o r lo que se denom ina
distribución hipergeom étrica, a sa b e r:

P ( N v N 2 ........ N

Si deseam os p o r ejem plo d eterm in a r la p ro babilidad de obte­


n e r exactam ente seis espadas, seis tréboles y u n diam ante en una
m ano de b rid g e de tre s ca rtas (to m ad as al azar, p ero sin repo­
sición), ten d ríam o s:

P( 6 ,6 ,1 ) =

lo que re su lta u n núm ero sum am ente pequeño. T ropezaríam os de


nuevo con la m ism a dificultad al especificar las alternativas que
pueden ser consideradas “m ás ra ra s ” que la a n te rio r p a rtic u la r
com binación. E n el capítulo xv harem os u n a p ru e b a exacta de
F ish er p a ra 2 x 2 tablas, b asad a en la distribución hipergeom é-
trica, en la que se incluyen sólo dos tipos de eventos.
Se observ ará p o r últim o que la distribución binom ial puede
ser aproxim ada p o r o tras distribuciones cuando la m u e stra total
sea tan grande que haga que los cálculos resu lten aburridos.
C uando N es grande y p tiene un valor interm edio, con el p ro ­
d u cto N p > 5, cabe acercarse al binom io m ediante u n a d istribu­
ción norm al, en cuyo caso podrem os utilizar pru eb as basadas en
proporciones de éxitos. E stas pru eb as serán p re sen tad as e n los
cap ítu lo s x i y x m .
Se d a a veces el caso de que el tam añ o de la m u e stra sea m o ­
d erad am en te grande, en ta n to que p es m uy pequeño (o sum am en­
te g ra n d e). P or ejem p lo : p (o q ) puede re fe rirse a u n aconte­
cim ien to poco usual, ta l com o el c o n tra e r u n a en ferm ed ad o
suicidarse. Si planteam os el p ro b lem a de m odo que p se re fie ra
a la p ro b ab ilid ad de aquel ra ro evento, de m odo que p < q, y si
N p < 5, p o d rá calcularse aproxim adam ente el binom io, haciendo
u so d e la d istribución de Poisson, p o r m edio de la siguiente
fó rm u la :
l re ~ X
P( r ) = ■
rl

en la que r se refiere al nú m ero de éxitos en N in te n to s : ?. = Np,


y e es la co n stan te n a tu ra l, aproxim adam ente igual a 2.718.
H ay tab las p a ra h a lla r los valores de r! y de e ~ x (véase Spiegel
[8 ]), m ed ian te cuyo em pleo se reduce el tra b a jo del cálculo.
P a ra ilu s tra r el em pleo de la aproxim ación de Poisson, supon­
gam os que la p ro b a b ilid ad de se r a rre sta d o en u n a localidad de­
te rm in a d a es de .06, p ero que en u n m u estreo de 50 japoneses-
n o rteam erican o s ad u lto s sólo u n o de éstos h a sido arrestad o . E n
ta l caso N p = 3.0 y
ílg -3
P W = ---^---= 3e-8
De m an era análoga
3®e-*
P (0 )
0!

en la que convencionalm ente definim os 0! com o la un id ad . Al


o b jeto de o b ten er la pro b ab ilid ad de que u n o o m enos de los
jap o n eses-n o rteam ericanos sea detenido, sum arem os P ( l ) y P ( 0),
o b ten ien d o

P ( l ) + P (0 ) = 4e~s = 4(.0498) = .199

X.5. Sum ario


E ste capítulo contiene u n a can tid ad considerable de ideas, n u e­
vas y fu n dam entales, adem ás de exam inar el m ecanism o de la
p ro p ia distrib u ción binom ial. E n el capítulo siguiente h ab rem o s
de d iscu tir de nuevo, con cierta am plitud, m uchas de estas ideas
co m plem entarias, ta n to b a jo la fo rm a de hipótesis acerca de las
m edias, com o en función de o tras dos distribuciones de m u estras.
P o d rán o b servarse las im p o rtan tes sem ejanzas que se dan en los
pasos o rientados a p ro b a r las hipótesis, y en los conceptos gene­
rales que h an sido p resentados en este capítulo. R evisem os és­
tos de nuevo, brevem ente.
R esulta en p rim e r lugar necesario fo rm u lar algunos supuestos,
tanto acerca d e la población que va a ser estu d iad a com o en re la­
ción con el m étodo de m u estreo de dicha población. U tilizando
tales supuestos y la teo ría de las probabilidades, podrem os hacer
afirm aciones específicas acerca de los resultados, con referencia
a la hipótesis nula. E n el caso del binom io, p o r ejem plo, aquellos
supuestos h acen posible asignar u n valor num érico específico
(p o r ejem plo, p = .5) a las probabilidades de éxito de u n a prueba
determ inada. P ara to m a r decisiones en cu an to a la región crítica
(es d ecir: el g rupo de soluciones p a ra las cuales rechazarem os
H q), necesitam os o b ten er lo que se denom ina u n a distribución
del m uestreo, es d ec ir: u n a pro b ab ilid ad de distribución que
asigna u n a p ro b abilidad num éxica específica a cada solución o a
cad a g rupo de soluciones.
D ecidirem os a continuación lo relativo al nivel de significación,
q ue es la p ro b ab ilid ad de rech azar la hipótesis n ula cuando ésta
es en realid ad v erdadera (u n e rro r tip o I). Idealm ente debe h a '
cerse esta decisión evaluando los costos de u n e rro r tip o I p o r
com paración con los de u n e rro r tip o II , n o rechazando H 0 cuan­
do en realid ad es falsa. Al decidir adem ás h ac er uso de una
p ru e b a de u n a o de dos colas, queda d eterm in ad a n u e stra región
crítica. E ste g rupo de resultados a excluir se en cu en tra acum u­
lan d o las probabilidades, com enzando con los resultados m ás
extrem os y m oviéndose hacia el centro, h a sta que la sum a re su l­
ta n te de p ro b abilidades sea ligeram ente m en o r que el nivel de
significación (p o r ejem plo, .05). Vemos entonces los datos,
com putam os la estad ística de p ru e b a (p o r ejem plo, el núm ero de
éxitos), y tom am os n u e stra decisión. Si el re su ltad o cae dentro
de la región crític a nos verem os obligados a rech azar H n, sa­
biendo que com eteríam os u n e rro r tip o I con u n a probabilidad
igual a la del nivel de significación seleccionado. Si el resu ltad o
n o cae d en tro de la región crítica, n o rechazam os la hipótesis,
corrien d o en este caso el riesgo de com eter u n e rro r tipo II.
Aun cuando es difícil (com o verem os en el cap ítu lo xiv) deter­
m in ar con exactitud la p ro babilidad de com eter u n e rro r tipo II,
pues ello depende de h a sta qué p u n to sea falsa n u e stra hipótesis
nula, sabem os que, p ara u n a m u estra de tam año fijo, cuanto
m en o r hagam os el riesgo de com eter u n e r ro r tipo I, ta n to m a­
y o r será el de com eter uno del tipo II.

G losario

Distribución binomial
Región crítica
Distribución hipergeométrica
Modelo versus hipótesis
Distribución multinomial
Pruebas de una y de dos colas
Distribución de Poisson
Distribución de muestras
Nivel de significación

E jercicios
1. En 11 lanzamientos de una moneda insesgada, ¿cuál es la probabi­
lidad de obtener exactamente cuatro caras? ¿Exactamente siete caras?
¿Menos de tres caras? Respuesta, P(4) = 330/2.048.
2. Supóngase que la moneda del ejercicio anterior está sesgada y
que la probabilidad de obtener cara es en realidad. 6. Sin efectuar los
cálculos, indíquese de qué modo esto afectaría cada una de las pro­
babilidades anteriores (esto es, si las aumentaría, las reduciría o las
dejaría inalteradas). Respuesta, menor de P(4)
3. Supóngase que se quiere verificar la hipótesis nula, en el sentido
de que la moneda es insesgada, echando 11 lanzamientos. Indíquese
la región crítica que se utilizaría:

a) pa^i una prueba de dos colas al nivel de .05. Respuesta: 0, 1, 10


u 11 caras
b) para una prueba de dos colas al nivel de .10
c) para una prueba de dos colas al nivel de .01
d) para una prueba de una sola cola al nivel de .05, anticipando
que P (cara) > .5. Respuesta: 9, 10 u 11 caras.
e) para una prueba de una sola cola al nivel de .10, anticipando que
P(cara) < .5.

4. En una localidad determinada, el 10 por ciento de la población


es judía. Un estudio de los consejos de directores de diversas agen­
cias de servicios indica que de un total de siete presidentes de los
consejos cuatro son judíos. ¿Qué probabilidad existe de que esto
pueda deberse al azar? En éste y los demás ejercicios que comportan
verificación de hipótesis, indíquense los razonamientos y enumérense
los supuestos adoptados. Respuesta, P = .0027.
5. Un psicosociólogo tom a 12 grupos que dispone por pares según
la estatura. Tiene así seis pares de grupos, en los que cada par de un
grupo constituye un grupo experimental y el otro el grupo de control.
El experimento comporta un intento de aum entar la cohesión de los
grupos, y el experimentador está en condiciones de apreciar si el gru­
po experimental es o no m ás coherente que el grupo de control con
el que ha sido apareado. ¿Cómo puede servirse de la binomial para
verificar la hipótesis nula en el sentido de que el experimento es ine­
ficaz? En este problema han de indicarse todos los supuestos reque­
ridos, calcularse la distribución de muestreo y proceder a la elección
de una región crítica.
* 6. Supóngase que se está estudiando un pequeño grupo de 12 per­
sonas y se desea verificar la hipótesis de que cuanto mayor es el
grado de conformación a las normas del grupo tanto más elevada
es la posición de la persona en el grupo. En relación con ambas va­
riables (conformación y posición) sólo se está en condiciones de apre­
ciar si el individuo está por encima o por debajo de la mediana.
¿Cómo se utilizaría la binomial para verificar la hipótesis nula de que
no existe relación alguna entre dichas variables? No se deje de indi­
car el razonamiento.
* 7. Supóngase que sabemos que la probabilidad de que se cometa
suicidio entre un grupo de cierta edad es .003. Se ha descubierto que
en una m uestra seleccionada al azar, de 1200 indios navajos del mis­
mo grupo de edad, no ha habido suicidios. ¿Cuán probable es que esto
haya sucedido por pura casualidad?

B ibliografía
1. Alder, H. L., y E. B. Roessler: Introduction to Probability and
Statistics, 4‘ ed., W. H. Freeman and Company, San Francisco, 1968,
cap. 6.
2. Anderson, T. R., y M.Zelditch: A Basic Course in Statistics, 2-
ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 11.
3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, caps. 3 y 7.
4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 5.
5. Pierce, Albert: Fundamentáis of Nonparametric Statistics, Dicken-
son Publishing Company, Inc., Belmont, Cal., 1970, caps. 9 y 12.
6. Selltiz, C., M. Jahoda, M. Deutsch, y S. W. Cook: Research Methods
in Social Relations, Henry Holt and Company, Inc., Nueva York,
1959, cap. 4.
7. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien­
ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 36-42.
8. Spiegel, M. R.: Theory and Problems of Statistics, Schaum’s Out-
line Series, McGraw-Hill Book Company, Nueva York, 1961, cap. 7.
9. Tables of the Binomial Probability Distribution, National Bureau
of Standards, Applied Mathematics Series, Núm. 6, 1950.
X I. PR U EB A S D E M U E ST R A S S IM P L E S Q U E IM PLIC A N
M E D IA S Y P R O PO R C IO N E S

E n este capítulo nos ocuparem os de verificación de hipótesis


acerca de las m edias y las proporciones de poblaciones. La m e­
dia o la pro p o rció n de u n a m u estra obtenida de u n a sola de éstas
se co m p arará con el p a rá m e tro de la hipótesis y se decidirá
si ésta debe o n o d escartarse. El lecto r no ta rd a rá en d escu b rir
que las p ru eb as de la fo rm a exam inada en este capítulo tienen
m ucho m enos u tilid ad p rá ctica que las que co m portan v arias
m u estras. A estas altu ra s, sin em bargo, im p o rta m ás o b te n e r
u n a b u en a com prensión de las ideas fundam entales que preocu­
p a rse excesivam ente p o r las aplicaciones prácticas. P or desgra­
cia, las p ru eb as m ás sencillas no siem pre son las m ás útiles.
Se re c o rd a rá que las pru eb as estadísticas que incluyen la bino-
m ial se servían de la regla de la m ultiplicación p a ra o b ten er u n a
d istrib u ció n de m u estreo. Pudim os v er en esta fo rm a exactam en­
te de qué m odo se utilizaba la teo ría de las probabilidades p a ra
conseguir dicha d istribución. De aquí en adelante, las considera­
ciones m atem áticas se van haciendo cada vez m ás com plicadas,
a ta l p u n to que, pese al hecho de que sería deseable com prender
lo que hay d etrás de cada argum ento, el lecto r h a b rá de em pezar
a a c e p ta r cada vez m ás enunciados con la g aran tía de la palabra.
Sin duda, hay p ru eb as m atem áticas disponibles, p ero la m ayoría
de ellas n ecesita del cálculo o incluso de u n a prep aració n m a te ­
m ática considerablem ente m ayor.

X I.1. D istribución en m u estreo de las m edias


Un teo rem a relativam ente notable, se b a sa en los m ism os princi­
pios y reglas de p robabilidades que la binom ial, p ero no se deja
co m p ro b ar en u n texto com o éste. Dicho teo rem a puede en u n ­
ciarse así: S i d e una población norm al d e m a g n itu d N con una
m edia de \x.y una variancia de cr2 se extraen reiteradas m uestras al
azar, la d istribución ¡de selección d e las m edias d e las \muestras
será norm al, con la m edia ^ y la variancia o 2/N . E xam inarem os
cu idadosam ente lo que dice el teorem a del lím ite central.
P artim o s p rim ero de u n a población n orm al, a sabiendas, p o r
su puesto, de que en la vida re al sem ejan te población p erfec ta­
m en te n o rm al n o existe. Nos im aginam os luego a nosotros m is­
m os extrayendo de la población en cuestión u n nú m ero m uy
gran d e de m edias de m ag n itu d N al azar.1 P a ra cada u n a de di­
chas m u estras obtenem os u n a m edia X . P o r supuesto, estas m fr
i No se confunda el número de muestras (que es infinito) con el tamaño
de cada una de ellas ( N ).
dias de las m u estras v aria rán algo de u n a a o tra de ellas, pero
esperam os, con todo, que se am o n to n arán a lre d ed o r d e la ver­
d ad era m ed ia p, de la población. E sto es lo que n o s dice el teore­
m a del lím ite central. Dice que si dibujam os u n a gráfica de la
distrib u ció n d e dichas m u estras, el re su ltad o se rá u n a curva n o r­
m al. P o r o tra p a rte , la desviación e stá n d a r d e esa d istribución

F ig . X I.1. C om paración de las distribuciones norm ales de


m u estreo para m uestras d e tam año d iferen te

n o rm al de las m edias d e las m u estras será de cr/V N . P o r consi­


guiente, cu an to m ay o r sea el tam añ o escogido de m u estra, tan to
m en o r será la desviación e stá n d a r en la d istrib u ció n de las m ues­
tra s , esto es, ta n to m ayor será el agolpam iento de las m edias de
éstas (véase fig u ra X I.l). Si consideram os las m edias d e las m ues­
tra s com o apreciaciones de la m edia de la población, podem os
d ecir que hay c ie rta ca n tid ad de e r ro r en n u e stro proceso de es­
tim ación, debido a fluctuaciones del m uestreo. P or consiguiente,
designam os la desviación e s tá n d a r de u n a d istrib u ció n d e m ues­
treo com o error estándar. E n e ste caso, el e r ro r e stá n d a r de
la m edia, in d icado sim bólicam ente com o o-, es o /\/~ Ñ 7
E l le c to r h a de te n e r claram en te p re se n te que se h allan im pli­
cadas tre s d istribuciones d istin tas, dos de las cuales acontecen
se r ex actam en te norm ales. E n efecto, prim ero tenem os la pobla­
ción, de la q u e se p re su m e que es norm al, con u n a m edia d e n
y u n a v arian cia de o2 [e sc rita en adelante, p a ra abreviar, com o
N or(\i, d*)]. E n segundo lugar, tenem os u n a d istrib u ció n de dato s
en el interior de cada m uestra. Si N es grande, e s ta distribución
será p ro b ab lem en te con to d a razón rep resen ta tiv a de la pobla­
ción y pu ed e ser, p o r consiguiente, aproxim adam ente norm al.
O bsérvese q ue ésta es la única d istribución que se obtiene en fo r­
m a efectivam ente em pírica.2 Y en tercer lugar, tenem os la distri-
2 Como quiera que ésta es la distribución que el investigador ve efectiva-
bución de selección de u n a estad ística (en este caso, la m edia).
Acabam os de v er que la distrib u ció n de m u e stra de la m edia será
asim ism o norm al, p ero te n d rá u n a desviación están d a r m enor
q u e la población (a m enos q u e el tam añ o de la m u e stra N sea
u n o ).
La relació n e n tre la población y la d istrib u ció n de m u estreo
pued e verse en d iagram a en la figura XI.2. C uanto m ayor sea la

Fig. XI.2. C om paración en tre las distribuciones de la población


y d e la m u e stra
m ag n itu d N de la m u estra, m ás pun tiag u d a se rá la distribución
de selección, com o p u ed e verse en la fig u ra X I. 1. H ay q u e ten er
c laram en te p re sen te que, pese a que sus desviaciones e stá n d a r se
relacionan directam ente, constituyen, con todo, distribuciones
com p letam en te d istin tas. T odos los "caso s’' de la distribución
de m u estreo son m edias d e m u estras distin tas. Como e ra cierto
en el caso de la binom ial y com o lo será en to d as las dem ás p ru e­
b as estadísticas, es m ás b ien la distribución de m u estreo y n o la
p ob lació n original la que se u tiliza d irectam en te en las p ru e b as
de significación. Los supuestos a p ro p ó sito de la población pue­
d en ap a rec er en el m odelo. M ediante la te o ría de las p ro b ab i­
lidades los enunciados acerca de la población y de los m étodos
d e m u estreo se trad u c en en enunciados acerca de la d istrib u ­
ción de m u estreo.
E n resum en, las m edias y las desviaciones e stá n d a r de las tres
clases de d istrib u ción son com o sigue:
Desviación
Media
estándar
Población {i o
M uestra X s
Distribución de m uestreo fx a /y / N
mente, puede haber propensión a confundir esta dase de distribución con
la de muestreo.
El teo rem a del lím ite cen tral concuerda con la intuición del
sentido' com ún e n que, suponiendo que se hayan evitado d isto r­
siones, pued e tenerse m ás confianza en la apreciación de la m edia
de u n a m u e stra grande que de u n a peq u eñ a.3 Dice, en efecto,
que las m edias de las m u estras v aria rán m enos de u n a m u estra
a o tra si N es grande. P ero constituye, con todo, u n refinam iento
considerable con resp ecto al sentido com ún, en cu an to p ro p o r­
ciona una indicación de cu á n ta m ás confianza deberíam os ten er
si N es au m en tad o e n u n a ca n tid ad determ inada. Así, p o r ejem ­
plo, podem os v er que p a ra p a r tir el e rro r están d a r p o r la m itad
necesitam os h ac er N c u a tro veces m ayor. Nos dice asim ism o
que cu an to m ás hom ogénea es la población, p a ra em pezar, esto
es, cu an to m ás pequeño es el v alor de a, ta n to m en o r es el e rro r
están d a r a / y / N y ta n to m ayor el agrupam iento de las m edias
de las m u estras alre d ed o r de la m edia de la población.
* Puede o frecerse u n a justificación teórica de este im p o rtan te
teorem a in tro d u cien d o la idea de las com binaciones lineales, de
la que h arem os uso m ás adelante en varias ocasiones. Una m edia
es en realid ad u n a función lineal sim ple de las puntuaciones X u
- 1
ya que X = — (X x + X 2 + . . . + X N). P uede m o strarse , en form a
m ás generalizada, que si tenem os u n a variable Y que es u n a com ­
b inación lineal cualquiera de las X {, y si esta X f h a sido selec­
cionada independientem ente, com o o cu rre cuando sacam os al
azar u n a sim ple m u estra, podrem os o b ten er expresiones sim ples
de la m edia (v alo r esp erad o ) de Y, y p a ra la variancia de Y.
E specíficam ente, si

y = cjX j + c2x + C3X 1 + . . . + c¡fX]f

y si las X t son seleccionadas independientem ente, entonces

E ( Y ) = CíECTí) + c2E ( X 2) + . . . + cnE ( X n )

y
V ar Y — a ,/ = c^a * * + c 22ax22 + . . . + a ^ a ^ 2

* E n el caso de las m u estras al azar, el v alor esperado de cada


X { es [x. Si situam os cada cy = l / N , entonces Y p asa a conver­
tirse en la m ed ia de la m u estra, y te n d re m o s :

3 Obsérvese que tenemos más confianza en apreciaciones basadas en


grandes muestras; sin embargo, al descartar una hipótesis al nivel de .05,
asumimos el mismo' riesgo de un error de tipo I, independientemente de la
magnitud de JV. Como veremos dentro de poco, la extensión de la región
crítica utilizada en la prueba toma en consideración la magnitud de la
muestra, lo que explica la incongruencia aparente.
£ ( X ) = £ ( F ) = ^ - i - J [ 1i + | i + . . . + n ] = ^ ( W í*) = u

= —- [ o2 + o2 + . . . + o®]

La ú ltim a fó rm u la es consecuencia del hecho de que la varían-


cia de cada X t es ju sto a2, ya que estam os tra ta n d o en casos in­
dividuales seleccionados con igual p ro b a b ilid ad de e n tre u n a
población con variancia a2. V ista intuitivam ente, la idea es que
si rep etim o s u n experim ento consistente e n sac ar el " p rim e r”
caso u n g ra n n ú m ero de veces, la distribución de estos p rim ero s
casos será ap ro x im adam ente Ñ o r (ji, a2). Lo m ism o o c u rriría con
u n a sacad a re p etid a d e segundos casos, etcétera.
E l teorem a del lím ite central. E stam os a h o ra en la posibili­
dad de fo rm u la r u n teo re m a m ás general, conocido con el nom ­
b re de teo rem a del lím ite central, com o sigue: S i se extraen
diversas m u estra s de m agnitud N al azar de una población cual­
quiera ( de la fo rm a que sea ) con una m edia de y una variancia
de o2, entonces, a m edida que N crece, la distribución de m ues­
treo d e las m ed ia s de las m u estra s se aproxim a a la norm alidad,
con la m edia \jl y la variancia <j®/N.
E ste teo re m a es m ás n o tab le todavía que el anterior. Dice, en
efecto, q u e p o r m uy n o tab le que sea la d istrib u ció n de la que
p artim o s, a condición que N sea lo b a sta n te grande, podem os
c o n ta r con u n a d istrib u ció n de m u estreo aproxim adam ente n o r­
m al. Como q u iera que es la d istribución de m u estreo , y n o la po­
blación, aquella de que nos servim os en las p ru e b as de significa­
ción, e s to significa que, siem pre que N es grande, podem os
ab a n d o n a r p o r com pleto el su puesto acerca de la no rm alid ad
de la p o blación y seguir sirviéndonos en n u e stra s pruebas, con
todo, de la cu rva norm al.
E l lecto r h a de tr a ta r de convencerse de que la ley de los
grandes n ú m ero s tien e sentido* em pírico. La m e jo r m an era de
o b ten er u n a b u en a com prensión de lo que el teo rem a del lím ite
cen tral significa, y de convencerse al p ro p io tiem po u n o m ism o
de q ue el e rro r e stá n d a r es realm en te a / y / N , consiste en e x tra e r
u n n ú m ero de m u estras de u n a población d e m edia y desviación
e s tá n d a r conocidas, calcu lar las m edias, h a lla r la desviación es-
tá n d a r de las m u e stra s y co m p arar el re su ltad o obtenido con
c¡/\ZÑ ~.4 ¿ P o r q u é d e b e ría la distribución de m u estreo hacerse
norm al si la d istrib u ció n original no lo es? Echem os u n a ojeada
P

2 3 4

Fig. XI.3. D istribución d e la población de las probabilidades de


o b ten er caras de 1, 2, 3, 4, 5 o 6 con u n dado perfecto
a u n a pob lación que diste de se r norm al y veam os qué ocurre a
m ed id a q ue v am os to m an d o m u estras m ayores.
Im agínese q u e estam os ech an d o algún dado m atem ático ideal,
con el cual las p ro b a b ilid ad e s d e o b ten er cada u n a de las seis

F ig . XI.4. D istribución d e m u estreo de las m edias de las caras,


con dados p erfec to s y m u estra s d e tam año 2
caras son exactam ente 1/6. La d istribución de p ro b ab ilid ad p ara
la ju g ad a de u n solo dado es e n este caso rectangular, es d ecir:
todos los núm eros (d e 1 a 6 ) tienen la m ism a posibilidad d e ocu­
rrir. E ste tip o de d istribución fo rm a u n c o n tra ste pronunciado
-i Véase el ejercicio 1 al final del capítulo.
con la d istrib u ció n norm al, en la que los valores extrem os son
m enos probables que los que quedan m ás próxim os a la m edia.
S em ejan te d istribución rectan g u lar puede re p resen ta rse com o
e n la fig u ra XI.3. E n rigor, p o r supuesto, la distribución sería
discreta, y n o continua com o parece indicarlo el diagram a.

Fig. XI.5. D istribución d e m uestreo d e las m edías de las caras,


con dados p erfecto s y m uestras de tam año 3

Si consideram os u n a distribución sem ejan te com o población


de to d as las ju g adas posibles del dado, calculem os la d istrib u ­
ción de m uestreo de las m edias de m u estras de tam añ o 2. E sto
significa q ue hem os de ech ar dos dados, su m ar los valores de las
caras y dividir e n tre 2. Como bien lo saben los jugadores experi­
m en tad o s del “c ra p ”, esas sum as van d e 2 a 12, siendo 7 el valor
m ás p robable. Al tr a ta r d e o b ten er las probabilidades d e ocu­
rren cia de cada u n a de dichas sum as, observem os p rim ero que
h ay ( 6) ( 6) o sean 36 resu ltad o s posibles si los dados son d istin ­
tos. Así, pues, el p rim e r dado puede ca er con cada u n a de las
ca ras h acia arrib a, y lo p ro p io puede h a c e r el segundo. P ara
o b ten er la pro b ab ilidad de conseguir u n a sum a de m arcas de 7
y, p o r lo tan to , u n a m ed ia d e 3.5, sólo necesitam os c o n ta r el n ú ­
m ero de m aneras en que dicho re su ltad o pu ed e producirse. Ob­
viam ente, h ay seis p ares que pueden d a r u n a m arca de 7, a sa­
b e r : (1,6), (2,5), (3,4), (4,3), (5,2) y (6,1). Una sum a de 6 sólo
pued e o b ten erse d e cinco m aneras d is tin ta s : (1,5), (2,4), (3,3),
(4,2) y (5,1). Y en fo rm a análoga, sólo hay u n a m an era de o bte­
n e r u n a su m a de 12 ( 6,6) o u n a sum a de 2 (1,1). P or consiguien­
te, la distribución de la pro b ab ilid ad de las m edias puede re p re­
sen tarse com o s ig u e :
Media Probabilidad Media Probabili
1.0 a/36 4 .0 B/ s e
1.5 2/ 36 4.5 V so
2 .0 s / 36 5 .0 3/.86
25 4/ 36 5.5 2/ 86
3 .0 5/ 30 6 .0 v 36
3 .5 **/36 36/36
Si se la re p re se n ta e n fo rm a de gráfica, esta d istrib u ció n asum e
la fig u ra de u n triángulo (fig u ra X I.4).
Si se ju eg a con tres dados, se sum an las caras y se obtienen las
m edias, la d istrib u ció n de m u estreo será com o sigue:

Media Probabilidad Media Probabilidad


1.00 V 216 3.67 27/ 216
1.33 216 4 .0 0 25/ 216
1.67 V 2I 6 4.33 21/ 216
2 .0 0 10/ 218 4 .6 7 15/ 21g
2.33 15/ 216 5.0 0 10/ 216
2.6 7 21/ 216 5.33 6/ 21 G
3 .0 0 25/:216 5 .6 7 3/ 216
3 .33 27 21 g 6.00 216

a le / 216
E s ta d istribución, com o p u ed e ap reciarse en la fig u ra XI.5 em ­
pieza ya a acercarse a la fo rm a de la curva n orm al, pese a que
el tam añ o de la m u e stra n o sea m ás que 3. Después de u n exa­
m en aten to d e las cifras an terio res, el lecto r e s ta rá e n condicio­
nes de co m p ren d er in tu itiv am en te lo que o cu rre y p o r qué se va
obteniendo u n a cu rv a en fo rm a cad a vez m ás p ro n u n ciad a de
cam p an a a m ed id a que la m ag n itu d de N au m en ta. E n efecto,
si bien con u n a sola ju g ad a es tan p ro b ab le sac ar u n 6 com o u n
3 o* u n 4, y de hecho dos 6 son ta n p robables com o dos 3, sólo
hay, con todo, u n a m an era de o b te n e r dos 6, e n tan to que hay
cierto n ú m ero de m an eras d istin tas de o b ten er u n pro m ed io de
3.0 en dos o m ás jugadas. E n lenguaje com ún decim os que los
g randes n ú m eros tienden a se r com pensados p o r pequeños, sobre
to d o si N es grande.

XI.2. Prueba para la m ed ia d e la población, conociendo a


Veam os ah o ra cóm o el teorem a del lím ite cen tral y la ley de los
grandes núm eros pueden ap licarse en las p ru e b as estadísticas.
P a ra em pezar, vam os a to m a r el m odelo m ás sim ple posible con
fines de ilustración. Como quiera que algunos de los supuestos
req u erid o s en este m odelo no son prácticos, se ab an d o n arán m ás
adelante. Se tra ta rá u n a vez m ás con cierto detalle cada uno de
los cinco pasos exam inados en el capítulo x, con o b jeto de que
el lecto r se vaya fam iliarizando con el proceso de d esarro llar
p ru eb as estadísticas.
Problem a. Supóngase que un investigador está in teresado en
v erificar la pro piedad de los procedim ientos de m uestreo em ­
pleados en u n estudio local, realizado p o r entrevistadores sin
experiencia. El investigador en cuestión sospecha que los ingre­
sos correspondientes de las fam ilias de las clases m edia y. supe­
rio r p u ed an h ab e r sido subestim ados, esto es, que hayan tenido
m ayor pro b ab ilidad de ap a rec er en la m u e stra que los d e las
fam ilias de ingresos m ás bajos. Se dispone de datos del censo
que m u estran que el ingreso fam iliar m edio de la localidad es de
$ 7 500 y la desviación e stán d a r de $ 1 500. Una encuesta m ás re ­
d u cid a com prende 100 fam ilias, que se suponen seleccionadas al
azar, y se en cu en tra que el ingreso fam iliar m edio de esta m u estra
es de $ 7 900. ¿Tiene razón el investigador al sospechar que la
m u e stra estab a distorsionada?
1. A dopción de supuestos. Con o b jeto de p o d er servirse del
teo rem a del lím ite central, hay que a d o p ta r ciertos supuestos.
Como ya se indicó an terio rm en te, h a de h a b e r siem pre u n su­
puesto a p ro p ó sito del m étodo de m uestreo. E n el p resen te caso,
suponem os que éste se h a hecho al azar. E n realidad, éste es
el sup u esto que nos in te re sa verificar, y a q u e sospecham os de la
h ab ilid ad de la perso n a que efectuó la en cuesta en cuanto a d ar
a todas las fam ilias u n a o p o rtu n id ad d e selección igual. P resum i­
blem ente, estam os dispuestos a a c e p ta r ciertos supuestos acerca
de la población, a sa b e r: que los datos del censo son m ás fide­
dignos. Si no podem os a c e p ta r las cifras de éste, entonces ten d re­
m os p o r lo m enos dos supuestos dudosos, y la in terp retació n
de los resu ltad o s se h a rá excesivam ente difícil. E n consecuencia,
n u e s tra hipótesis será la de m uestreo al azar. En cu an to a los
dem ás su p u esto s relativos a la población, éstos co n stitu irán el
m odelo.
Si N no es dem asiado grande, se req u iere u n a población n o r­
m al. Aquí se p lan tea la cuestión de sa b e r: “¿cuán grande h a de
se r N p a ra que podam os d e ja r el su p u esto de norm alidad y ser­
virnos del teo rem a del lím ite ce n tral?’' N o existe u n a resp u esta
sencilla a dicha cuestión, y la respuesta depende, e n tre o tr o s : 1 )
d e qué grado de precisión se desea acerca de la apreciación de
la p ro b ab ilid ad de e rro r de tip o I, y 2 ) de cuál grado de aproxi­
m ación poseem os resp ecto de u n a población norm al. Pese a que
haya que se r cau to a p ro p ó sito de las sim ples reglas prácticas,
p u ed e su g erirse que, si N 3 100, el supuesto de norm alidad puede
casi siem pre tu rn arse. Si N 3: 50 y se tiene adem ás evidencia em ­
p íric a e n el sen tid o de que la desviación con resp ecto a la n o rm a­
lid ad no es im p o rtan te, entonces pu ed en tam b ién u tilizarse p ru e­
b as del tipo exam inado en la p re se n te sección. P ero si N < 30, en
cam bio, h a b ría que g u ard arse decididam ente del em pleo de sem e­
ja n te s p ru eb as, a m enos q u e se sepa que la aproxim ación a la
n o rm alid ad es buena. C uando se em plean m u estras pequeñas,
suele p o r lo re g u la r carecerse de sem ejante inform ación, ya que
n o h ay casos suficientes en la m u e s tra p a ra in d icar la fo rm a de
d istrib u ció n de la población. P o r lo tan to , en el caso d e m u estras
pequeñas d eb erían p o r lo re g u la r em p learse o tro s tipos de p ru e ­
bas. Supongam os en el p re sen te p ro b lem a que podem os servir­
nos legítim am ente del teorem a del lím ite cen tral. Como sabem os,
las d istrib u cio n es relativas al ingreso suelen se r e n general algo
disto rsio n ad as. P o r o tra p a rte , tenem os u n a m u e stra razonable­
m en te grande.
A dicionalm ente a los supuestos anteriores, si vam os a servim os
del teo rem a del lím ite cen tral necesitam os a c e p ta r asim ism o las
cifras del censo relativas a [i y o y su p o n er u n a escala de in te r­
valo. Tenem os, p o r tan to , los siguientes su p u e sto s :

N ivel de m e d ic ió n : escala de intervalo


M odelo: población n o rm al (p u ed e ab a n d o n arse )
H = $ 7 500
c = $1500

H ip ó tesis (n u la ): selección al azar.

2. O btención d e la distrib u ció n de m uestreo. A fortunadam ente,


la lab o r de o b ten er la d istrib u ció n de m u estreo nos la dan ya
hecha. Como q uiera que sabem os que la distrib u ció n d e m u estreo
d e las m edias de las m u estras es n orm al o aproxim adam ente
norm al, podem os i r directam en te a la tab la norm al. E n adelan­
te, las d istrib u ciones de m u estreo se d arán siem p re en fo rm a de
tab las del A péndice 2. Im p o rta te n e r p resen te, sin em bargo,
que dichas tab las se h an calculado sirviéndose d e la teo ría de
las p ro b abilidades. Es ta n fácil, en efecto, p e rd e rse en detalles
d e cálculo, q ue se llega a olvidar que cuando en n u e stra s pru eb as
estad ísticas nos servim os de tab las nos estam os sirviendo en re a ­
lid ad de u n a d istrib u ció n de m uestreo.
3. Elección de u n nivel de significación y d e una región crítica.
La elección del nivel de significación apropiado depende, p o r su­
puesto, de los costos relativos que im plican los e rro re s de tipos
I y II. Si el in vestigador d eja de d e sc a rta r la hipótesis d e selec­
ción al azar cu an d o la m u e stra no está efectivam ente equilibrada,
co rre el riesgo de in fo rm a r hallazgos falaces. P or o tra p a rte , si
se d escarta cuando la hipótesis es realm en te cierta, p u ed e te n e r
que re p e tir la encuesta, con los gastos considerables que ello
p u ed a acaso ac arrear. D esde el p u n to de v ista ideal, h a b ría de
a d o p ta r u n a decisión racional b asad a en los costos de dichos dos
tipos d e erro r. E n la p ráctica, sin em bargo, e sto le re su lta rá ta l
vez difícil. Supongam os, p o r ejem plo, q u e se decide p o r u n nivel
d e .05. A continuación d eb ería decidir serv irse de u n a p ru e b a de
u n a sola cola, y a q u e la dirección del sesgo s e h a estim ado. Si

F ig . X I.6. D istribución norm al de m uestras, con área achurada


representando una región crítica de una sola cola al nivel d e
significación de .05

re su lta ra que la m edia de la m u e stra e ra in fe rio r a $ 7 500, difícil­


m en te sosp ech ará q u e los que realizaron la encuesta hayan sobre-
seleccionado los grupos de ingresos m edio y su p e rio r.6 D ada la
elección del nivel de .05 y de u n a p ru e b a de u n a sola cola, la re ­
gión c rític a se d eterm in a p o r la ta b la n orm al. Como q u iera que
so lam en te el 5 p o r ciento del á rea de la cu rv a n orm al se sitú a
a la d erech a de u n a o rd e n ad a de 1.65 desviaciones e stá n d a r m a­
y o r q u e la m edia, sabem os que, si el re su lta d o su p era la m ed ia [i
e n m ás de 1.65 desviaciones están d a r, la hipótesis h a d e descar­
ta rs e (véase fig u ra X I.6 ).
4. Cálculo de la estadística de la prueba. S abem os q u e si todos
los su p u esto s son correctos, la d istrib u ció n de m u estreo de las
X se rá N or(\i, a^/ N). O sea, en los térm inos d e n u e stro ejem p lo :

= f 7 500

y/N V I* »

Con o b jeto de p o d er serv im o s de la ta b la n orm al, es necesario


co n v e rtir a dato s e stá n d a r, o, e n o tro s térm inos, o b ten er u n a
estad ística Z que sea Afor(O.l). A nteriorm ente nos servim os de
la fó rm u la :
s En este problema, los datos de la muestra se han dado en realidad, y
sabemos la dirección del resultado. Sin embargo, el lector debe pensar que
esta decisión pueda efectuarse antes de conocer el resultado.
X -X
Z = ------------

E sta fórm ula es aplicable en el caso de u na m u estra que sea


N o r(X , s2), p ero no en el caso de la distribución de selección.
Recordem os, pues, cada uno de los pasos de nu estro procedim ien­
to. H em os form ulado un a serie de supuestos con o b jeto de obte­
n e r un a distribución de m uestreo. E sta distribución nos indica
cuán probable sería u n a X determ inada si n u estro s supuestos
fueran realm ente ciertos. El sociólogo, en cambio, h a obtenido
de su m uestreo u n a sola X , y quiere servirse de la distribución de
m uestreo teórica p a ra p oder ap reciar la pro babilidad de obtener
u n resultado ta n insólito o m ás insólito que su X p articu lar. En
efecto, al servirse de la tab la n orm al, opera en realidad con la
distribución de m uestreo. E n esta distribución cada _^caso" es
u n a X , la m edia es ¡x, y la d esv iación _están dares a /yJN . P or lo
tanto, X sustituye a X , sustituye a X , y a / \ / N sustituye a s en
la fórm u la an terio r de Z. Tenem os, pues:

c /y /Ñ
7 900 - 7 500
2.67
150

E n otros té rm in o s : la m edia de la m u estra es 2.67 erro res están ­


d a r m ayor que la m edia de la población.
5. Adopción de una decisión. Como quiera que X se desvía de
la p resu n ta ¡i en m ás de 1.65 desviaciones e stán d a r en la dirección
prevista, la hipótesis debería d escartarse al nivel .05. De hecho,
sin em bargo, habiendo calculado Z exactam ente, podem os decir
m ás que esto. E n efecto, sirviéndonos de u n a p ru e b a de u na sola
cola, la probabilidad de ob ten er u n a Z de esta m agn itud o m ayor
es de .0038. E n la p ráctica se recom ienda calcular exactam ente
el nivel de significación, siem pre que ello sea posible. Al hacerlo
así, en efecto, indicam os que el resu ltad o se sitú a en u n a región
crítica m ás reducida todavía que la que o riginariam ente se esta­
bleciera. Como quiera que el lecto r p re ferirá tal vez servirse de
un nivel de significación d istinto de aquel del au tor, re su lta p o r
lo regular ú til p ro porcionar probabilidades exactas, o lo m ás
exactas posibles, de m odo que aquél pueda sacar sus propias
conclusiones en cuanto a acep tar o no los hallazgos. E n el pre­
sente ejem plo, el sociólogo d escartaría la hipótesis nu la de que
la m u e stra fue al azar. Y h a b ría de decidir a continuación si
q u iere o n o e x tra e r o tra m u estra.

XI.3 La d istribución t de S tu d e n t
E n la m ay o ría de los casos es to talm en te im p ráctico tr a ta r a o
com o si fu e ra conocida. P or lo re g u la r in cu rrim o s en d ificulta­
des considerables con o b jeto de a se g u rar el ca rác te r fo rtu ito de
la m u estra, ya que lo que nos in tere sa en p rim e r térm in o es la
com probación de los su p u esto s acerca de la población a estu d iar.
E n p ru e b as de la clase que se exam ina en este capítulo, es pro-
b ab le q ue el lecto r desee verificar u n a hipótesis relativ a a [x. P ero
si así fu e ra el caso, ¿ e sta rá jam ás en condiciones de conocer el
valo r de o? P rácticam en te no. P orque si tu v iera conocimiento* de
a, e sta ría tam b ién sin du d a alguna en condiciones de conocer ¡x,
a m enos, p o r supuesto, que alguien como, p o r ejem plo, su m aes­
tr o de estad ística le estuviera d eliberadam ente o cultando in fo r­
m ación. P o r lo reg ular, pues, n o conocerá los valores ni de ¡x ni
de 0. ¿Q ué puede, pues, h ac er en sem ejan te situación? Como
q u iera que el teo rem a del lím ite ce n tral co m porta a, n o puede
ig n o rar su v alo r p o r com pleto. U na solución p o d ría p arece r con­
sistir en rem p lazar a p o r s, desviación e s tá n d a r de la m uestra.
De hecho, esto es lo que se hacía co rrien tem en te an tes del des­
a rro llo de la estad ística m oderna. E n efecto, en la fó rm u la de
Z, a / \ / N se rem p lazaba sencillam ente p o r s / \ / N y, com o q uiera
q ue s p o d ía calcu larse d irectam en te de los dato s de la m u estra,
no h ab ía m ás incógnitas e n la fórm ula. Y de hecho, este pro ce­
d im iento da re su ltad o s razonablem ente buenos cuando N es gran ­
de. Sin em bargo, com o habrem os de v er a continuación, las
pro b ab ilid ad es o b tenidas e n esta fo rm a pueden ser to talm en te
falaces cu an d o N es relativ am en te pequeño. Veam os p o r qué
es así.
Podem os co n stru ir u n a estad ística altern ativ a d e p ru e b a c o m o :

s/V JV - 1
E sta estad ística fue in tro d u c id a p o r W. S. G osset, que escribía
b a jo el seudónim o de " S tu d e n t”, y se conoce con el no m b re de
d istrib u ció n t de S tudent. C om parando t con Z, observam os
que, en ta n to que los n u m era d o res son idénticos, los denom ina­
dores difieren, en cam bio, e n dos aspectos, a s a b e r : 1 ) tenem os
u n A? — 1 b ajo el radical, y 2) a h a sido* rem p lazad a p o r s. Con
o b jeto de co m p ren d er e sta s m odificaciones, exam iném oslas u n a
después de otra._ Al hacerlo habrem os de in tro d u c ir algunas ideas
nuevas.
La desviación están d a r de la m u estra s puede em plearse com o
una estim ación de a. Si b ien el p roblem a de la apreciación se
tra ta rá en el próxim o capítulo, b a ste m encionar aquí q u e a m enu­
d o necesitam os que u n a estim ación posea ciertas propiedades.
U na de las propiedades de u n a "b u en a” estim ación es que sea
insesgada. A hora bien, co n tra riam en te a lo que p o d ría suponerse,
re su lta que s n o es u n a estim ación com pletam ente insesgada de a.
P uede d em o strarse m atem áticam ente que o tra cantidad, que po­
dem os designar con c y se obtiene m ediante la fó rm u la

2 (X t - X Y
A
a:-V- \ l

'
« -1
N - 1

es u n a estim ación insesgada de afi La ú n ica diferencia e n tre o


y s es el fa c to r N — 1 del denom inador. Así, pues, p ese a que el
lecto r h a ap ren d id o a calcular 5, se en c u en tra ah o ra con que
debería servirse de o tra fó rm u la al estim a r o. E n el p resen te p ro ­
blem a es m ás b ien a / y / N que a la que h a de estim arse, ya que
es la p rim e ra expresión que aparece en el denom inador de Z. Aun
siendo cierto q ue a /y /N sea u n a estim ación m en o r de a/ y / N, es
posible, sin em bargo, ev itar p o r com pleto el cálculo de 5 si s se
h a o btenido ya. O bsérvese que

\/N y/N

Y reco rd an d o que y / a / y / b puede escribirse com o y / a /b , te­


nem os :

N (N — 1)

■« E n r ig o r , n o e s a, l a e s t im a c ió n e q u il ib r a d a d e a, s i n o q u e a 2 e s u n a
e s t im a c ió n e q u i l i b r a d a d e a2. N o te n e m o s p o r q u é p r e o c u p a m o s , c o n to d o ,
p o r e s t a d i s t i n c i ó n s u ti l . E n e s t e te x to n o s s e r v ir e m o s n o r m a l m e n te d e u n
a c e n to c i r c u n f l e j o ( * ) s o b r e u n a l e t r a g r ie g a p a r a i n d i c a r u n a e s tim a c ió n
d e l p a r á m e t r o . A lg u n o s te x to s d e f in e n s c o n N — 1 e n e l d e n o m i n a d o r , p e r o
p r e f e r im o s p o r n u e s t r a p a r t e m a n t e n e r l a d i s t in c ió n e n t r e l a s d o s f ó r m u l a s .
[ I (X i-X m /N
i= l 5

y'N -l y/N -í

Así, pues, podem os to m a r u n a estim ación algo sesgada de a, divi­


d ir e n tre u n a can tid ad que es ligeram ente m ás pequeña que y / N ,
y lleg ar a s /-\/N — 1 com o estim ación insesgada d e a /^ /N . É sta
es la razó n de q ue aparezca N — 1 en el denom inador de f.7
Al su s titu ir Z p o r t, la m odificación in tro d u cid a sirviéndonos
d e N — 1 es relativam ente pequeña, p e ro la su stitu ció n de a p o r s,
en cam bio, pued e re v estir u n significado considerable si N es p e ­
queña. Como q u iera que s v aría de u n a m u e stra a o tra, el deno­
m in ad o r de t v aría lo m ism o que el n u m erad o r. P ara u n valor
dad o de X , si la s de u n a m u e stra p a rtic u la r acontece s e r dem a­
siado pequeña, entonces t será m uy grande, y si s es grande, t será
relativ am en te pequeña. P o r consiguiente, h a b rá u n a m ayor va­
riab ilid ad e n tre los valores de t que e n tre los valores com para­
bles de Z. E sto significa que la d istrib u ció n de m u estreo d e í
será m ás ap lan ad a que la norm al. P o r lo tan to , la distribución
t te n d rá colas m ayores. Qué ta n aplan ad a sea t dependerá de la
m ag n itu d de la m u estra. Si N es m uy pequeña, la d istrib u ció n í
será m uy p lan a en com paración con la cu rv a norm al. E n o tro s
térm in o s: será n ecesario a p a rta rse u n n ú m ero m ayor de desvia­
ciones está n d a r de la m ed id a p a ra in clu ir el 95 p o r ciento d e los
casos. A m edida q u e N crece, la d istrib u ció n t se va acercando
cad a vez m ás a la d istribución norm al, p ero perm aneciendo siem ­
p re, sin em bargo, ligeram ente m ás a c h atad a que ésta. Así, pues,
hay u n a d istribución t p a ra cada m agnitud de la m u estra. El
h echo de que la d istrib u ció n t se vaya acercando a la n o rm alidad
co b ra sen tid o in tu itiv am en te si nos dam os cu en ta de que, a m e ­
d id a que N crece, s se convierte en u n a estim ación m uy p recisa
de a, de m odo que im p o rta poco que nos sirvam os en el denom i­
n a d o r de ésta o de aquélla.
Con o b jeto de servirnos de la distribución t, hay que suponer
un a población norm al, so b re to d o si N es relativam ente pequeña.
El cálculo de la distrib u ció n de m u estreo de t req u iere que el
n u m era d o r ( X — ¡x) esté n o rm alm en te d istrib u id o y que varíe
tam b ién ind ep en dientem ente del denom inador s / y / N — 1. P o r lo
general, no esp eraríam os que haya independencia e n tre el nu m e­
ra d o r y el denom inador, ya que s se calcula en realidad tom ando

7 A lg u n o s t e x to s r e c o m ie n d a n e l e m p le o d e N — 1 p a r a m u e s tr a s p e q u e ñ a s
y d e N p a r a l a s g r a n d e s . S in e m b a r g o , s e m e j a n t e p r o c e d im ie n to p a r e c e
a ñ a d i r u n a c o n f u s ió n in n e c e s a r ia . P o r s u p u e s to , e n e l c a so d e m u e s tra s
g ra n d e s , es in d ife re n te s e rv ir s e d e u n a c if r a o d e la o tra .
desviaciones con resp ecto a X y, p o r consiguiente, sería sorpren­
d en te en c o n trar X y s estadísticam ente independientes u n a res­
p ecto de o tra. Conociendo la X de la m u estra, esperaríam os
a u m en ta r n u e s tra posibilidad de an tic ip a r s p a ra la m ism a m ues­
tra . Acontece, sin em bargo, que, p a ra las poblaciones norm ales
y m u estreo al azar, la m edia y la desviación e stá n d a r de la m ues­
tra son estad ísticam ente independientes u n a de o tra. Como q uiera
que, con todo, esta pro p ied ad n o se verifica p a ra to d as las d istri­
buciones de la población y que, p o r o tra p a rte , X — jx n o estará
d istrib u id a n o rm alm en te a m enos que N sea grande, de ahí que
al serv im o s de la p ru e b a t hayam os de su p o n er u n a población
norm al.
Problema. S upóngase que se están apreciando los program as
de u n a m u estra al azar de 25 agencias de asistencia social indi­
vidual seleccionadas e n tre la población de to d as las del E stado
de Nueva Y ork. Cada u n a de ellas lleva u n reg istro del porcen­
ta je de los casos favorables, de acu erd o con u n crite rio uniform e.
Se h a establecido u n a n o rm a según la cual el p o rc en taje m edio
de éxitos sería del 60 p a ra todas las agencias. Sin em bargo, en
su m u e stra el lecto r en c u en tra que el p o rc en taje m edio es del
52 y la. desviación e stá n d a r del 12 p o r ciento. ¿Tiene el lector
algún fu n d am en to p a ra sospechar que p a ra la población co n ju n ta
de las agencias el nivel de los éxitos está p o r debajo de la norm a
esperada?
1. Form ulación d e supuestos. Los supuestos necesarios pueden
en u m erarse com o sigue:
N ivel de m e d ic ió n : escala de intervalo
M o d elo : m u estreo al azar
población n orm al
H ip ó te sis : n = 60 p o r ciento.

O bsérvese que n o se re q u ie re su p u esto alguno a p ro p ó sito de


cr, ya que en re alid ad s se h a obten id o em píricam ente y puede
em p learse d irectam en te en la p ru e b a t. El nivel de m edición, en
cam bio, re q u ie re ciertos com entarios. Como q u iera que cad a clien­
te de u n a agencia es u n éxito o u n fracaso, y com o q u iera que
las cifras obtenidas p a ra cada agencia, son p o rc en tajes de éxitos,
ca b ría p en sa r q ue nos hallam os sim plem ente en p resencia de una
escala nom inal dicotóm ica, y n o de u n a escala de intervalo. Y
efectivam ente, si las unidades del análisis fu e ran clientes en lugar
de agencias, éste se ría el caso. R ecuérdese, sin em bargo, que las
unidades que se están estudiando son agencias. Se h a obtenido
u n a m arca p a ra cada agencia (e sto es, u n p o rc en taje de éxitos),
y esta m arc a re p resen ta legítim am ente u n a escala de intervalo.
Así, p o r ejem plo, u n a diferencia e n tre el 30 y el 40 p o r ciento es
lo m ism o que u n a diferencia e n tre el 70 y el 80 p o r ciento. Am­
b as diferencias pu eden convertirse en el m ism o núm ero real de
clientes.
2. O btención de la distribución de m uestreo. Las distribucio­
nes de m u estreo p a ra t se dan en el cu ad ro D del A péndice 2.
Como q u iera que esas distribuciones difieren p a ra cada m agnitud
de la m u estra, el cu ad ro en cuestión se h a condensado de m odo
que sólo dé las colas de cada distribución. Al servim os del
cu ad ro necesitam os p rim e ro localizar la m agnitud ap ro p iad a de
la m u estra leyendo la colum na de la izquierda de a rrib a abajo.
E stos tam años de la m u e stra se dan p o r lo re g u lar en térm inos
de grados de libertad df ( degrees o f freed o m ), que en este tipo de
p ro b lem a es siem pre N — l .8 A continuación, hállese el nivel
de significación apropiado leyendo horizontalm ente arrib a. Las
cifras del cuerpo del c u a d ro indican la m ag n itu d de t necesaria
p a ra o b ten er significación en el nivel designado.
3. Selección de u n n ivel de significación y d e una región crítica.
Sirvám onos del nivel de .05 y de u n a p ru e b a de u n a sola cola.
Del cu ad ro D vem os que p a ra 24 grados de lib ertad se necesita
u n a t de 2.064 o m ás p a ra o b ten er significación al nivel de .05
p a ra u n a p ru e b a de dos colas. P ara u n a p ru e b a de u n a sola cola
y el nivel de .05, sólo necesitam os u n a t de 1.711 o m ayor. E n el
caso de p ru eb as de u n a cola sim plem ente p artim o s en dos los
niveles de significación requeridos p a ra las pru eb as de dos colas.
E sto se debe a que nos ap artam o s de la m edia el m ism o núm ero
d e desviaciones están d a r, con o b jeto de o b ten er u n a región crí­
tica de u n a sola cola d e .05, que nos ap a rtaríam o s p a ra o b ten er
u n a región de dos colas de .10.
4. Cálculo de la estadística de la prueba. Si bien es cierto que
la d istrib u ció n de m u estreo de X es N o ria , a2 / N ) y que, p o r con­
siguiente, la d istrib u ció n de Z es Nor{ 0,1), e sta inform ación no
n os sirve, con todo, de gran cosa, ya que a n o nos es conocida.
E n lu g ar de ello calculam os el valor de t, y o b ten em o s:

s/y/N - 1 12/V 24

5. Decisión. H allam os que toda t cuyo v alo r num érico fuera


> 1.711 se en c o n trará en la región crítica. P or consiguiente, des­
cartam o s la hipótesis de que ji = 60 y, con cierto riesgo de erro r,
vem os que el nivel real de éxitos de las agencias queda p o r
d eb ajo del nivel esperado. Leyendo horizontalm ente en el cua­
d ro D la hilera correspondiente a 24 grados de lib ertad , vem os
que p a ra u n a p ru e b a d e u n a sola cola el nivel de significación
8 P a r a e l e x a m e n d e lo s g r a d o s d e li b e r ta d v é a s e s e c c . X I I . l .
co rresp o n d ien te a u n t de 3.27 cae en algún p u n to com prendido
e n tre .005 y .0005.9
E n este p u n to p u ed en re g istra rse varios hechos a p ro p ó sito de
la d istrib u ció n t. Si se exam ina la colum na co rresp o n d ien te a
P ~ -05 p a ra u n a p ru e b a de dos colas, se ob serv ará que a m edida
q u e la m ag n itu d de la m u e stra au m en ta, los valores de t dism i­
nuyen y convergen con b a sta n te rapidez h acia 1.96, o sea el valor
necesario p a ra significación si se em p lea ra el c u a d ro norm al.
E stos valores d eb ieran d a r urna id ea razonablem ente b u en a del
grad o de aproxim ación a la curva n orm al p a ra cu alq u ier m ag­
n itu d dada de la m u estra. P ara valores d e N — 1 m ayores que 30,
se necesitará p o r lo re g u la r interpolación, y p a ra valores m uy
superiores a 120 h a b rá que servirse del cu ad ro n orm al, ya que
los valores de t n o se dan. Algunos textos indican arb itra ria m e n te
que sólo se n ecesita em p lear la ta b la t cuando N < 30. P ese a que
e s ta regla p rá ctica dé resu ltad o s razonables, la posición que aquí
ad o p tam o s es que siem pre es p re ferib le servirse d e la tabla t
cuando a es desconocida y puede p re su m irse u n a población n o r­
m al. Como q u iera q u e el cu ad ro t n o es de u so m ás difícil, parece
razonable serv irse de valores exactos con p re fere n cia a aproxi­
m aciones norm ales. Conviene recalca r tam b ién que n o hay una
teo ría ú n ica que se aplique a m u estras pequeñas y o tra, to tal­
m en te distin ta, q ue se aplique a las grandes, com o algunos textos
lo dan a en ten d er.
Como pu ed e verse del cu ad ro t, las distribuciones n o rm al y t
sólo difieren considerablem ente cuando la m ag n itu d de la m ues­
tra es relativ am en te pequeña. P o r o tra p a rte , siem pre q u e se
em plea t hay que su p o n er u n a población normad, a m enos que N
sea m uy grande, en cuyo caso Z puede su stitu ir aproxim adam ente
a t . P o r lo tan to , la p ru e b a t reviste v alor p ráctico en situaciones
en las que se tienen m u estras pequeñas y que se p u ed e suponer
una población norm al. P o r desgracia, cu an d o las m u e stra s son
pequeñas p o r lo re g u la r solem os sa b e r m enos acerca d e la n a­
tu raleza ex acta de aquélla. Así, p o r ejem plo, si u n investigador
realiza u n estu d io de exploración con 17 casos, ¿tien e m uchas
p ro babilidades de e s ta r en condiciones de a c e p ta r el su p u esto de
n o rm alidad? P ro b ablem ente no. Según verem os en el cap ítu lo xiv,
hay pruebas q ue pueden em plearse com o altern ativ as de la t y
quo no im plican el su puesto d e norm alidad.

XT.4. Pruebas que com portan proporciones


H asta aquí sólo hem os considerado en este cap ítu lo ejem plos que

0 P e s e a q u e n o p u e d a n o b te n e r s e d e l a t a b l a d e p r o b a b ilid a d e s e x a c ta s ,
l a in te r p o la c ió n , c o n to d o , s ie m p r e e s p o s ib le . S i n e m b a r g o , p o r lo r e g a l a r
b a s t a i n d i c a r q u e p q u e d a e n t r e d o s v a l o r e s d e t e r m i n a d o s , v.gr. .0005< p £
co m p o rtab an u n a escala de intervalo. P or o tra p arte , había
q ue p re su m ir tam b ién n o rm alid ad de población en el caso de
m u estras pequeñas. E n e sta sección verem os cóm o puede em ­
p learse la ley de los grandes núm eros p a ra a b a rc a r p ru e b as que
co m p o rtan proporciones, siem p re que N sea b a s ta n te grande. En
efecto, las p ro p o rciones se tra ta rá n com o casos especiales de las
m edias, de m odo que n u e stra s consideraciones an terio res segui­
rá n ten ien d o aplicación.
Supóngase que tenem os u n a sim ple escala nom inal dicotóm ica.
Podem os q u e re r verificar u n a hipótesis relativa, p o r ejem plo, a
la p ro p o rció n de los varones en u n a población. Asignamos a rb i­
tra ria m e n te el v alor u n o a los varones y cero a las hem bras, y
tra ta m o s las m arcas com o u n a escala de intervalo. Aunque no
se dé u n a u n id ad claram en te concebida, a m enos que ésta sea
el a trib u to de “m ascu lin id ad ”, que se posee o n o se posee, pode­
m os, con todo, tr a ta r dichas m arcas a rb itra ria s com o u n a escala
d e in terv alo , p o rq u e sólo son dos. Si se añ a d ie ra u n a te rc era
categoría, ello y a n o sería posible, sin em bargo, y a que en tal
caso sería necesario d eterm in a r la posición exacta de dicha ca­
teg o ría e n relación con las de las o tra s dos. Lo q u e aq u í decim os,
en efecto, es que n o es necesario h ac er u n a distinción e n tre es­
calas nom inales, o rdinales y d e intervalo en el caso de u n a dico­
tom ía, ya que el p ro b lem a de c o m p arar distancias e n tre m arcas
n o se p la n te a nunca.
Tenem os así u n a población com puesta p o r e n te ro de unos y
ceros. E s é sta u n a d istrib u ció n bim odal, d e casos concentrados
todos ellos en un o d e lo s dos puntos, que ciertam en te n o es n o r­
m al. P ero sabem os que, si N es suficientem ente grande, la dis­
trib u ció n de m u estreo de las m edias de las m u estras será aproxi­
m ad am e n te ATor(ji, a2 / M) , independientem ente de la fo rm a de
la población. Todo lo que h ay que hacer, pues, es averiguar la
m ed ia y la desviación e stá n d a r de esa población d e unos y ceros.
Pongam os q u e p u re p re s e n ta la p ro p o rció n de varones en la
p o blación y qu la p ro p o rció n d e hem bras, en la s que la u sub­
índice in d ica que tra ta m o s de la población universal. Con o b jeto
d e o b ten er la m edia de los unos y los ceros de ésta, sum am os
sim p lem en te los valores y dividim os e n tre el n ú m ero total d e ca­
sos. E l n ú m ero de unos será así el n ú m ero to ta l de casos m u lti­
p licad o p o r la p ro p o rció n de varones. In d ep en d ien tem en te del
n ú m ero d e ceros, la contribución de éstos a la sum a será cero.
P o r lo tan to , la m edia de la población s e r á :
M pu

en donde M re p resen ta la m agnitud de la población (en cuanto


d istin ta de la m agnitud N de la m u e stra ). E n consecuencia, la
m edia de cierto núm ero de unos y ceros es exactam ente la pro­
porción de unos. E n v irtu d de u n razonam iento sim ilar, X = p s,
en donde p 8 re p resen ta la p roporción de varones en la m uestra.
S irviéndonos de la fó rm u la general de la desviación están d ar,
podem os d em o strar que a = \ f p uqu. Si em pleam os los sím bolos
de los p arám etro s de población, la fó rm u la de a se tran sfo rm a
en:
I 31 í M
S ( X « - f i )2 ^ ¡ ^ ( X { - Pu)2
. = \ -
M * M

O bservando el n u m era d o r de la cantidad debajo del radical, ve­


m os que h a b rá sólo dos tipos de cantidades que rep resen ten las
desviaciones cu ad rad as de la m edia p u. P ara cada m arc a de uno,
la desviación cu a d rad a resp ecto de la m edia será de ( I — p u)2, y
p a ra cada cero será de (0 —p u)‘2. Como q u iera que en la sum a
de cuadrados h a b rá M pu unos y M qu ceros, ten em o s:

_ J M pu( 1 - p j 2 + M qu(0 - p u )2 _ J M puq u2 + M qup u2


° 1 M M

Si de cada térm in o del n u m era d o r ponem os M puqu en factor, ob­


tenem os :

M puqu(q u +p „ ) _ J M pvqv
V M ~ V M

* PuQu
Obsérvese, de paso, q u e M se elim ina ta n to e n la fó rm u la de ^
com o en la o, la m edia y la desviación e stá n d a r d e la población
so n independientes de la m ag n itu d re al de la población.
P o r lo tan to , podem os servim os del teorem a del lím ite central
p a ra o b te n e r:

v;
PuQu
°x = Gp* ' N

en donde el sím bolo cPl indica que operam os con el e rro r están­
d a r de las p roporciones de la m u estra. E n n u e stra nueva term i­
nología, p s su stitu y e a X , pu sustituye a ¡i, y aPt sustituye a c - en
la fó rm u la de Z. Así, p u e s :
M* P& Pu

Oj y/PuQu/N

O bsérvese que au n q u e parezca que tengam os u n a fó rm u la to ta l­


m en te d istin ta de la an terio r, no hay e n é s ta e n realid ad n ad a
nuevo, excepto u n cam bio de sím bolos. E sto es así p o rq u e
hem os estad o en condiciones de d em o strar que las proporciones
pu ed en tra ta rs e com o casos p artic u la res de las m edias. Conviene
recalcar, con todo, que la ley de los grandes núm eros re q u ie re
q u e N sea grande, con o b jeto de p o d er serv im o s de la aproxi­
m ación norm al. C uando N sea pequeña, la binom ial co n stitu irá
u n a p ru e b a m ás apropiada.
* E xiste u n a relación estre ch a e n tre esta p ru eb a, relativa a las
p ro p o rcio n es, y la d istrib u ció n binom ial. Y a se h a indicado que
si N es grande, y si N p > 5, en donde p < q, podrem os, m ed ian te
u n a d istrib u ció n n orm al, aproxim am os a la d istribución bino­
m ial. Es cierto que en el caso de la d istribución binom ial u tili­
zam os cifras de éxitos, m ás que proporciones.
E l v alor esp erad o del n ú m ero de éxitos re su lta se r N p, y la
desviación e stá n d a r del n ú m ero de éxitos es y /N p q . P a ra con­
v e rtir cad a u n o de ellos e n proporciones podem os dividirlos e n tre
N, obten ien d o p com o v alor esperado, y

p a ra la desviación e stá n d a r. Así en el caso de m u estras grandes


p o d ríam o s h a b e r fo rm u lad o u n p roblem a binom ial en fo rm a de
p ro p o rcio n es, cam biando n u estro s sím bolos a p„ y qu y tra ta n ­
do el p ro b lem a de acuerdo con los procedim ientos señalados en
e ste m ism o capítulo. P o r ejem p lo : en el caso de u n a p ru e b a de
signo p o dríam os h a b e r utilizado la hipótesis n u la de que p u =
.5, co m p aran d o este v alor con la p roporción de éxitos p 8 que se
halló en la m u estra.
Problem a. El lecto r e stá in teresad o en a p re c ia r el p ro g ram a de
u n a agencia de asistencia social individual y h a ex traíd o u n a
m u e stra al azar de 125 casos de su archivo. Se h a en contrado
q u e el p o rc en taje de los casos favorables es de 55, en co m p ara­
ción con la n o rm a del 60 p o r ciento. ¿Puede sacarse de ello la
conclusión que el éxito de la agencia en cu estió n queda p o r de­
b a jo de la no rm a?

1. Form ulación de supuestos.


N ivel de m edición: escala nom inal dicotóm ica
M o d elo : m u estreo al azar
H ip ó te sis: pu = .60

E ste ejem plo es deliberadam ente sem ejan te al an terio r, con


o b jeto de p o n er de relieve la diferencia e n las unidades del análi­
sis. Aquí, en efecto, se estu d ia u n a sola agencia, y la m u e stra es
de clientes, que constituyen éxitos o fracasos. E n el ejem p lo de
an tes, las u n idades seleccionadas era n las agencias y no los clien­
tes, y la m edida de cada agencia consistía en el porcentaje de
casos favorables. O bsérvese que n o se re q u ie re m ás supuesto
acerca de la población que la hipótesis, ya que se supone im plí­
citam en te que aquélla es bim odal.
2. O btención d e la distribución de m uestreo. La distribución
de m u estreo será aproxim adam ente norm al, ya que N es grande.
3. E lección de nivel de significación y región crítica. E n gracia
a la variedad, elijam os u n nivel de .02 y u n a p ru e b a de u n a sola
cola.
4. Cálculo de la estadística de la prueba. Calculam os Z de la
siguiente fo rm a :

Pe — Pu -55 — .60 —.05


Z = ——— ——- = --------------------------- = ------------= -1 .1 4
y / p uq J N V [(-6 ° )(.4 0 )]/1 2 5 .0438

O bsérvese que en el denom inador se em plean p„ y qu con prefe­


re n cia a p s y qs. E n el caso de que el lecto r se viera inclinado a
servirse de t en lu g ar de Z, observe que en la hip ó tesis de p u el
v alo r de a está determ in ad o p o r la fó rm u la o = V íW «-
5. Decisión. Del cu ad ro n o rm al p u ed e verse q u e u n a Z de
—1.14 o m enos o c u rriría aproxim adam ente el 13 p o r ciento de las
veces p o r azar, si los supuestos fu e ra n ciertos. E n consecuencia,
n o descartam os la hipótesis al nivel de significación de .02. So­
b re la base de los dato s disponibles, n o se d eja estab lecer que la
agencia se halle p o r d eb ajo de la norm a.

Glosario
Teorema del límite central
Distribución rectangular
Error estándar
Distribución t

E jercicios

1. Sirviéndonos del cuadro de números al azar del cuadro B del Apén­


dice 2 (véase sece. XXI.l para la explicación del empleo de dicho cua­
dro), elíjanse 10 muestras, de magnitud 4 cada una, de la población
de los 65 cosos dados en ol ejercicio 1 del capítulo iv. Calcúlese la
media de cada una de esas 10 m uestras y obténgase la desviación es­
tándar de estas 10 medias. Se tiene ahora una apreciación bruta y
ligeramente distorsionada del error estándar de la media. ¿Cómo se
presenta la cifra obtenida en comparación con el error estándar
conseguido sirviéndonos del teorema del límite central y empleando
para ello la desviación estándar calculada en el ejercicio 2 del capí­
tulo vx?
* 2. Verifiqúese la distribución de selección de la media de tres gol­
pes de dados del diagrama de la figura XI.5.
3. Una m uestra de magnitud 50 tiene una media de 10.5 y una des­
viación estándar s de 2.2. Verifiqúese la hipótesis de que la media de
la población es de 10.0 sirviéndose: a) de una prueba de una sola cola
al nivel de .05, y b) de una prueba de dos colas al nivel de .01. Hágase
lo mismo con muestras de tamaños 25 y 100 y compárense los resulta­
dos. Respuesta, para N = 50, t = 1.59; sin rechazo para a) y b).
4. Supóngase sabido que el ingreso medio anual de trabajadores que
en una fábrica trabajan en la línea de ensamble es de $7 000 con
una desviación estándar de $900. El lector sospecha que los trabaja­
dores sindicalmente activos obtendrán ingresos superiores al promedio,
y tom a una m uestra aleatoria de 85 de dichos miembros activos, obte­
niendo una media de $ 7 200 y una desviación estándar de $ 1000. ¿Pue­
de decirse que los miembros activos del sindicato tengan ingresos
notablemente superiores? (Empléese el nivel de ;01.) Respuesta Z =
2.05; no rechazar.
5. Se ha establecido una lista de 200 residentes de una localidad,
en edad de voto, y se ha encontrado que de dos candidatos a un cargo
el candidato A obtuvo el 54 por ciento de los votos seleccionados.
¿Existe fundamento para suponer que A ganará? Empléese el nivel de
.05. Enumérense todos los supuestos que hay que formular. Respuesta,
Z = 1.13.
6. Supóngase que se ha normalizado una prueba de medición de los
"deseos de uniformidad” de estudiantes universitarios en todo el
país. El 50 por ciento de los estudiantes tenía puntuaciones brutas
de 26 o más (las puntuaciones altas indicando deseos mayores de uni­
formidad). Sospechando que estos deseos serán por lo regular más
grandes en el caso de adultos sin instrucción universitaria, un soció­
logo extrae una m uestra aleatoria de adultos de 25 años o mayores,
residentes de su localidad. Encuentra: 1) que el 67 por ciento de los
257 adultos sin instrucción universitaria m uestran m arcas de 26 o más
altas, y 2) que el 59 por ciento de 80 adultos de instrucción universi­
taria presentan marcas dentro de dicho margen.
a) ¿Puede deducir que las m arcas de cada grupo de adultos en la
localidad son significativamente más altas que las correspondientes a
los estudiantes universitarios, cuya prueba ha sido estandarizada?
(utilícese el nivel .001).
b) Supóngase que el sociólogo conoce la distribución exacta entera
de las m arcas de los estudiantes universitarios de la prueba. Sobre
la base del m aterial del presente capítulo, indíquense algunos proce­
dimientos alternativos para verificar el significado de las desviaciones
de los dos grupos de marcas de los adultos respecto de las marcas
normalizadas. ¿Requieren dichos procedimientos alternativos algunos
supuestos adicionales? Expliqúese.
B ibliografía
1. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11.
2. Hagood, M. J., y D. O. P nce: Statistics for Sociotogists, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 15 y 16.
3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 10.
4. Wallis, W. A., y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, caps. 11 y 13.
H asta aquí el exam en de la inducción estad ística sólo h a trata d o
de la verificación de hipótesis. A parte de ello puede tam bién
h a b e r in terés en la estim ación de p arám etro s de población, y
a este tem a se dedica el p resen te capítulo. Después de exami­
n a r los principios que la estim ación com porta, procederem os
a e stu d iar las relaciones existentes e n tre las verificaciones de
las estim aciones y las hipótesis. Exam inarem os en dicho m o­
m en to las m odificaciones que req u ieren p a ra ello la distribución
t y las proporciones. Finalm ente, estudiarem os la cuestión gene­
ra l de la determ in ación del tam año de la m u estra, ilu stran d o el
pro b lem a m ed ian te procedim ientos de estim ación.
E n los dos capítulos precedentes, el lecto r h a b rá observado
que en cierto nú m ero de problem as prácticos la verificación de
las hipótesis es im practicable, p o rq u e n o estam os en condiciones
de co n c retar algún valor hipotético determ inado p a ra el p arám e­
tro , p o r ejem plo, (i. V am os a ver ahora en qué form a los p ro c e ­
dim ientos de estim ación pueden p ro p o rcio n ar en tales casos una
altern ativ a m uy ú til de las pruebas reales. P or o tra p arte, el so­
ciólogo pued e ev entualm ente ten er m ayor in terés en las estim a­
ciones q ue en las verificaciones de hipótesis. Así, p o r ejem plo, en
u n a en cu esta el objetivo práctico del estudio puede consistir
en estim ar lji p ro p orción de personas que consum en u n d eterm i­
nad o p ro d u cto o que votan en u n as elecciones. O puede se r n e ­
cesario e stim ar el ingreso m ediano en u n a región, o el núm ero
m edio de hijos p o r m atrim onio. Sin duda, las pruebas de hipó­
tesis concretas p u ed en rev estir cierta u tilid ad en tales casos,
p e ro la estim ación constituye, con todo, el procedim iento m ás
obvio.
H ay b ásicam ente dos clases de estim ación, a saber, la estim a­
ción del p u n to y la estim ación del intervalo. E n la p rim e ra de
ellas nos in tere sa el m e jo r valor singular que pu ed a utilizarse
p a ra ap reciar u n p arám etro . Así, p o r ejem plo, podem os ap reciar
que el ingreso m edio en la ciudad de Nueva Y ork es de $ 8 500.
Sin em bargo, p o r lo re g u la r querem os o b te n e r tam bién alguna
idea acerca de cuán exacta sea n u e s tra estim ación. N os g u staría
p o d er an ticip ar q u e el p arám etro se sitú a en algún lu g ar de un
in terv alo determ inado, o a u n lado u o tro de la estim ación del
p u n to . Así, p o r ejem plo, podem os q u e re r fo rm u lar u n enunciado
p o r el estilo de "el ingreso m edio en la ciu d ad de Nueva Y ork se
sitú a e n tre $ 8 000 y $ 9 000". E stos dos tipos de estim ación
se exam inan en las secciones que siguen a continuación.
E l p ro b lem a relativ o a cuál estad ística d eb a em plearse como
estim ación de u n p a rá m e tro parece s e r ab so lu tam en te obvio y
c o n stitu ir m a te ria de sentido com ún. E n efecto, si se q u iere es­
tim a r la m ed ia (o la m ed ian a o la desviación e s tá n d a r) de una
población, ¿ p o r qué n o servirse d e la m edia (o la m ediana o la
desviación e s tá n d a r) de la m uestra? Pese a que en tales casos el
sen tid o com ún n o nos p ro p o rcio n aría resu ltad o s dem asiado abe­
rra n te s, verem os, con todo, q u e el p ro b lem a n o es ta n sencillo
com o p arece. O bviam ente, podríam os a p reciar la m ed ia de u n a
p oblación en cierto n ú m ero de m an eras distin tas. E n efecto,
adem ás de la m ed ia de la m u estra, podríam os servirnos de la
m ed ian a o del m odo, o p odríam os u tiliza r u n n ú m ero situado' en
m edio de dos valores extrem os, o podríam os u tiliza r com o estim a­
ción el v alo r de la observación decim otercera. Algunos de esos
procedim ientos serían m ejo res que otros. N ecesitam os, p o r con­
siguiente, criterio s que nos p erm itan a p reciar el grad o de bondad
de cada clase de estim ación. E l sociólogo, q u e se sirve de las esta­
dísticas com o de u n in stru m en to aplicado, ra ra vez n ecesita p re­
o cu p arse p o r sem ejantes criterios. P o r lo regular, en efecto, sólo
se le dice que se sirva de u n a estim ación d eterm in ad a. No obs­
tan te, vale la p e n a sab e r p o r lo m enos d e cuáles criterio s se sirve
el m atem ático al decidir cuál estim ación deba em plearse. Dos
de los criterio s m ás im p o rtan tes del m atem ático son el sesgo
( b ia s) y la eficiencia. Vam os a exam inarlos uno p o r uno. E n re ­
lación con o tro s criterio s, tales com o la suficiencia, la consisten­
cia y el p rin cip io de la m áxim a p robabilidad, el le c to r h a de
re c u rrir a textos m ás avanzados.
Sesgo. Se dice de u n a estim ación q u e n o es sesgada si la m edia
de su d istribución de m u e stre o es exactam ente igual al valor del
parám etro que se aprecia. E n o tro s té rm in o s : el v alor esperado
a la larg a de la estim ación es el p a rá m e tro m ism o. O bsérvese
q u e n ad a se dice aquí acerca del v alor de cualquier re su ltad o de
alguna m u e stra p artic u la r. De acu erd o con esta definición, X es
u n a estim ación sesgada de jj,, ya que la distribución de m u estreo
de X tien e a ¡x com o m edia o v alor esperado. E sto no significa,
sin em bargo, q u e podam os e sp e ra r que algún valor p a rtic u la r
cu alq u iera de X sea igual a ni sab rem o s nunca, en cualquier
p ro b lem a reíd, si la m edia de n u e s tra m u e stra co rresp o n d e o no
d e hecho a la m ed ia de la población. H ay que te n e r p resen te
que el térm in o sesgo, ta l com o aq u í se em plea, se refiere a los
resu ltad o s a la larga. E n la investigación p ráctica, en cam bio,
el lecto r pued e e s ta r a c o stu m b ra d o a servirse del térm in o p ara
re ferirse a las p ropiedades de la m u e stra p a rtic u la r q u e haya
extraído.
Ya se dijo e n el cap ítu lo a n te rio r q u e la desviación están d a r
5 de la m u e stra es u n a estim ación ligeram ente sesgada de o . La
estad ística s tien e u n a distrib u ció n de selección, lo m ism o que
la tien e X . E n o tro s térm in o s, las desviaciones e stá n d a r de la
m u e stra esta rá n d istrib u id as alred ed o r de las desviaciones e stán ­
d a r de la población real, del m ism o m odo e n q u e las m edias de
las m u estras se d istrib u y en alre d ed o r de ja. S in em bargo, p u ed e
d e m o stra rse m atem áticam en te que la m edia de la distribución
d e m u estreo de s 2 es [Af — l/AHcr2, y n o o2. P o r consiguiente, s 2
es u n a estim ació n sesgada de a2. P ara h a lla r u n a estim ación no
sesgada de o2, tom am os la can tid a d :

S ( X t ~ X )2
N N 4=1
-------- 52 = ------------------------------
N - l N - l N

I ( X t - X )2
«=i

Como q u iera q u e la d istrib u ció n de m u estreo de s2 es [ N —l / N ] o 2


vem os q u e a 2 tiene u n a distribución de m u e stre o de m edia exac­
tam en te igual a :
N [/ N -l \ 1

Si b ien la razón b ásica d e p o r qué sea a 2 (y n o s2) la estim a­


ción n o sesgada es que los m atem áticos o p e ra n en esta form a,
a v ec es; con todo, se da de ello u n a explicación in tu itiv a e n té r­
m in o del concepto de los grados d e libertad, térm in o q u e será
u sad o en capítulos p o sterio res. El n ú m ero de los grados de
lib e rta d es igual al nú m ero de cantidades desconocidas m enos el
n ú m ero d e ecuaciones independientes que ligan esta s incógnitas.
E l lecto r re co rd a rá que, con o b jeto de llegar a u n a solución única
de u n sistem a de ecuaciones algebraicas sim ultáneas, se necesi­
tab a el m ism o n ú m ero de ecuaciones que de incógnitas. Así, pues,
p a ra p o d er resolver en relación con X , Y y Z se necesitan tre s
ecuaciones que liguen e n tre sí estas variables. Si sólo se tuvie­
ra n dos ecuaciones, entonces se p o d ría asig n ar a alguna de las
variables, p o r ejem p lo Z, cu alq u ier valor q u e se nos an to jara.
Los valores de las o tra s dos variables p o d rían entonces se r d e te r­
m inados m ed ian te las dos ecuaciones sim ultáneas. Si se tu v ieran
cinco incógnitas y sólo tre s ecuaciones p o r reso lv er sim ultánea­
m ente, entonces se p o d rían asig n ar valores a rb itra rio s a dos
cualesquiera de las incógnitas, y los valores de las dem ás incóg­
nitas estarían determ inados. E n este caso tendríam os dos grados
de libertad, ya q ue podem os a trib u ir lib rem en te valores a dos
variables cualesquiera.
Al calcular u n a desviación e stá n d a r de valores de la m uestra,
hem os de servirnos de u n a ecuación que ligue las N variables X

F ig .
X II.l. Comparación de las distribuciones de m aestreo de
una estim ación sesgada, con alta eficacia, y una estim ación no
sesgada, de eficacia m enor
N _
a la m edia de la m uestra, o sea la ecuación 2 X J N — X . Dado
_ <=i
el valor de X , podem os a trib u ir valores a rb itra rio s a N — 1 de
las X (, y la ú ltim a de éstas e sta rá determ inada p o r la ecuación.
Como q u iera que hem os perdido u n grado de lib e rta d al deter­
m in ar el valor de la m edia de la m u estra alrededor de la cual se
han tom ado desviaciones, p a ra o b ten er n u e stra estim ación no
sesgada de a2 hem os de dividir e n tre N — 1 en lugar de N. Si el
lector p refiere p en sa r en esta form a, puede considerar que hem os
aju stad o ligeram ente el núm ero de casos, con o b jeto de com pen­
sa r p o r el hecho de que hem os tom ado desviaciones resp ecto de
la m edia de la m u estra y no de la m edia de la población verda­
dera. E sencialm ente, al calcular la m edia de la m u estra, hem os
despreciado un caso. Se verá que las estim aciones no sesgadas
n o obtienen frecu entem ente d iv id ien d o 'en tre los grados de liber-
tuü, m ejor que dividiendo e n tre el nú m ero to tal de casos.
I', f ¡ciencia. La eficiencia de u n a estim ación se refiere al grado
en que la distribución de m uestreo está agrupada alrededor del
verdadero valor del parám etro. Si la estim ación no está sesgada,
dicho u gnipam iento puede m edirse p o r medio- del e rro r están d a r
de la estim ació n : cuanto m en o r sea el e rro r están d ar, ta n to m a­
yor es la eficiencia d e la estim ación. La eficiencia siem pre es
relativa. Ninguna estim ación puede se r to talm en te eficiente, ya
que esto im plicaría que no existía e rro r de m u estreo alguno. Sin
em bargo, podem os c o m p arar dos estim aciones y decir que u n a
de ellas es m ás eficiente que la otra. Supóngase, p o r ejem plo,
q ue tenem os u n a población norm al. E n e ste caso, el e rro r están ­
d a r de la selección al azar es a / y / N . Si p a r a ap re c ia r la m edia
de la población se u tilizara la m ediana d e la m u estra, entonces
el e rro r e s tá n d a r de la m ediana sería de 1.253 o / y / Ñ ,1 p a ra m ues­
tra s al azar. P o r lo tan to , ya que el e rro r e stá n d a r de la m edia
es m ás peq u eñ o que el de la m ediana, la m edia es la estim ación
m ás eficiente. É sta es, p o r supuesto, la razón d e que p o r lo r e ­
g u lar se u tilice la m edia con preferen cia a la m ediana, incluso
cuando, com o en el caso d e u n a población norm al, su m edia y
su m ed ian a son idénticas. Decimos que la m ed ia está m enos
su je ta a las fluctuaciones de la m u estra o, en o tro s térm inos, que
es m ás eficien te.2
De los dos criterios que acabam os de exam inar, el de la eficien­
cia es el m ás im p o rtan te. Si dos estim aciones tienen el m ism o
grado de eficiencia, escogerem os, p o r supuesto, la que esté m enos
sesgada. É sta es la razón de que se u tilice a con preferen cia a s.
E n cam bio, u n a estim ación eficiente lig eram en te sesgada será
p referib le a o tra no sesgada p e ro m enos eficiente. Un sim ple
d iagram a ay u d ará a co m p ren d er el p o rq u é d e ello. E n la figu­
ra X II.l, la curva p u n tiag u d a ligeram ente sesgada sería p re fe ri­
ble, ya que, pese a que a la larg a p ropenderíam os a su b estim ar
el p a rá m e tro en u n a peq u eñ a cantidad, tenem os con todo m ayor
p ro b ab ilid ad , en el caso de u n a p ru e b a dada, de o b ten er u n a es­
tim ación de la m u e stra relativ am en te vecina del p arám etro . El
hecho de que sepam os que a la larg a las estim aciones se irán
p ro m ed ian d o hacia la cifra co rrecta no nos sirve de gran con­
suelo si, en relación con u n a m u estra d eterm in a d a cualquiera,
la aproxim ación tiene probabilidades de a p a rta rs e m ucho del
p arám etro .

XII.2. E stim a ció n del intervalo


El lecto r re co rd a rá que, cu an d o estu d iab a física elem ental, se le
in v itab a a p esa r u n pedazo de m ad era varias veces y a bu scar
luego el v alor m edio e in d icar el m argen de e r ro r posible. Así
pudo, p o r ejem plo, h a b e r indicado que el peso del pedazo de

1 Aquí la media y la mediana de la población serían idénticas.


2 No siempre es cierto que la media constituya la estimación más efi­
ciente, aunque para la mayoría de las poblaciones, sobre todo si la desvia­
ción respecto de la normalidad no es demasiado grande, sea efectivamente
así. Obsérvese que la cuestión acerca de la eficiencia relativa es totalmente
distinta de la cuestión acerca de cuál medida sea la medida descriptiva más
apropiada de la tendencia central. Esta última, en efecto, sólo se refiere
al problema de hallar la medida singular mejor para representar los datos
de la muestra.
m ad era era de 102 ± 2 gram os, significando que consideraba que
el peso verd ad ero se situ ab a en algún lugar e n tre 100 y 104 gra­
m os. Al p ro ced er así, el lecto r ad m itía la posibilidad de e rro r
de la m edición e indicaba qué grado de confianza ten ía en la
ex actitu d obtenida. Pese a que en dicho m om ento n o se llam ara
expresam ente su atención al respecto, el lecto r tam b ién h ab ría
ad m itido que no estab a absolutam ente cierto que el verdadero
v alor estu v iera com prendido en el intervalo obtenido. Sin em ­
bargo, si éste se h u b iera am pliado, aquél h a b ría estad o m ás se­
g u ro de que sí e sta b a com prendido en el nuevo intervalo. Así,
p o r ejem plo, h a b ría estado p rácticam en te seguro de q u e el valor
v erdadero h ab ía de situ arse e n tre 98 y 106 gram os, y se h ab ría
ju g ad o h a sta el últim o centavo en favor de que se en co n trab a
e n tre 2 y 202 gram os. Al o b ten er apreciaciones de intervalo en
relación con p arám etro s, hacem os esencialm ente lo m ism o que
hace el físico, con la diferencia que estarem os en m ejores con­
diciones de estim ar la probabilidad exacta de erro r.
E l p rocedim iento efectivo em pleado p a ra o b ten er u n a estim a­
ción de intervalo, o lo que se designa com o intervalo de confian­
za, es m uy sencillo y n o co m p o rta idea básica realm en te nueva
alguna. E stablecerem os p rim ero sim plem ente cóm o el intervalo
se obtiene, p rocediendo luego a exam inar p o r qué se construye de
este m odo. Se decide p rim ero acerca del riesgo de e rro r que
se está d ispuesto a asu m ir al a firm a r que el p arám etro se sitúa
en algún p u n to al in te rio r del intervalo si e n realidad no es así.
Digam os q ue se decide e s ta r dispuesto a a d m itir que se está
equivocado el .05 de las veces, lo q u e suele designarse com o in­
tervalo de confianza del 95 p o r ciento.8 El intervalo se obtiene
ap artán d o se en am bas direcciones de la estim ación del pu n to
( v.gr. la m edia de la m u e stra ) cierto m ú ltip le de erro res e stán d a r
co rrespondiente al nivel de confianza elegido. Así, p o r ejem plo,
p a ra ap reciar la m edia de la población, obtenem os u n intervalo
com o sigue (sirviéndonos del nivel de 95 p o r cien to ):

X ± 1.96 (í- = X -± 1.96 — —


X __
yJN
en donde 1.96 co rresponde a la región crítica de la curva norm al,
sirviéndonos del nivel de .05 y de u n a p ru eb a de dos colas. Si
X — 15, a = 5, y N = 100, el in terv alo de confianza sería :
5
15 ± 1.96------------ = 15 ± 0.98
V io c T
3 Obsérvese que en el caso de intervalos de confianza nos referimos a la
unidad menos la probabilidad de error. Esto indica que tenemos “confian­
za” de estar en lo cierto el 95 por ciento, por ejemplo, de las veces.
E n o tro s térm in o s: el intervalo iría de 14.02 a 15.98.4
Con o b jeto de in te rp re ta r los intervalos obtenidos con dicho
m étodo, necesitam os volver a lo que sabem os acerca de la d istri­
bución de m uestreo, en este caso la de la m edia. Supongam os
que tenem os u n a distribución de m u estreo n orm al con u n a m e ­
dia de ¡i y u n a desviación e stá n d a r de a / \ / N . P ara n u estro s pro-

F ig .
XII.2. Comparación de intervalos de confianza con la d istri­
bución. d e ¡muestreo de la m edia, m o strando p o r q u é los inter­
valos de confianza del 95 por ciento com prenden jx
el 95 p o r ciento d e tas veces

p ó sitos hay dos clases de m edias de u n a m u estra, a sa b e r: 1 )


las q ue no caen en la región crítica, y 2 j las que sí caen en ella.
S upongam os p rim ero que hem os obtenido u n a X ( X x de la figu­
ra X II.2 ) q u e n o cae en la región crítica. Sabem os que u n a X
sem ejan te h a d e q u ed ar en el in terio r de_1.96 o-j de [i. Si pone­
m os u n in terv alo a am bos lados de esta X , ap artán d o n o s de ella
en 1.96 o j en am bas direcciones, debem os c ru zar fre n te a fx, la
m edia de la d istrib u ció n de m uestreo, ta n to si X está a la derecha
com o a la izquierda de jx. Y en fo rm a análoga, si la X o b tenida
queda al in te rio r de la región crítica (véase X 2 en la figura X II.2),
entonces esta X qu ed ará a m ayor distancia de 1.96 erro res es­
tá n d a r de la (x, y el intervalo d e confianza n o llegará h a sta ésta.
P ero sabem os tam bién q u e el 95 p o r ciento d e las veces o bten­
d rem o s X que n o caen en la región crítica, y sólo u n 5 p o r ciento
de las veces X que caen en ella. En o tro s té rm in o s : sabem os que
sólo un 5 p o r ciento de las veces obtendrem os con este procedi­
m ien to intervalos que no com prendan el parám etro (v.gr. fx). El
95 p o r ciento re sta n te de las veces el procedim iento nos d ará

4 Estos puntos terminales del intervalo se designan a menudo como lími­


tes de confianza.
m edias de u n a m u e stra lo suficientem ente vecinas del p arám etro
p a ra que los in terv alo s de confianza obtenidos com prendan efec­
tivam ente a éste.
Al in te rp re ta r los intervalos de confianza conviene te n e r p re ­
sentes las siguientes advertencias. El estu d ian te p rin cip ian te tien­
d e a servirse de frases vagas p o r el estilo de “tengo u n 95 p o r

xz
f3
¿4
*5
*6
*1
-*3

■*10

F ig. XII.3. Distribución de intervalos variables de confianza con


respecto a un valor fijo del parám etro u,

ciento de confianza en que el intervalo contiene el p arám etro ",


o bien “la p ro b ab ilid ad de que el p a rá m e tro quede en el in terio r
del intervalo es de .95”. Al hacerlo así puede n o darse cuenta
cabal de que el p a rá m e tro es u n v alor fijo y que son los interva­
los los que v arían de u n a m u estra a o tra. De acuerdo con nues­
tr a definición de la probabilidad, la p ro b ab ilid ad de que el p ará­
m etro quede en el in te rio r de u n intervalo determ inado cual­
q u iera es cero o uno, ya que el p a rá m e tro está o n o está en el
in terio r del in terv alo obtenido. Un sim ple diagram a indicando
el v alo r fijo del p arám etro , en este caso ¡x, y la variabilidad de
los intervalos ay u d ará a co m p ren d er m ás claram en te la in te rp re ­
tación co rrecta. La figura X II.3 pone de m anifiesto que n u estra
confianza está m ás bien en el procedim iento utilizado que en
algún intervalo cualquiera. Podem os decir que el procedim iento
es tal que, a la larga, el 95 p o r ciento de los intervalos obtenidos
co m p ren d erán el v erd ad ero p arám etro (fijo ). E l lecto r h a de
g u ard arse de concluir o su poner que el in terv alo p a rtic u la r o bte­
n ido posee alguna p ro p ied ad especial que n o poseen o tro s in te r­
valos com parables obtenidos de o tra s m u estras. Algunas veces
se afirm a que, si se e x tra je ra n m u estras reiterad as, el 95 p o r
cien to de las veces las m edias de estas m u estras caerían e n el
in te rio r del in tervalo de confianza que se h a calculado (p o r
ejem plo, 15 ± 0.98). E sto im plica, p o r supuesto, que la X obtenida
en la m u estra del investigador es igual exactam ente a [i o es,
p o r lo m enos, u n a aproxim ación m uy cercana a ¡i. E n realidad,
sin em bargo, el intervalo p a rtic u la r obtenido puede ser tal que
sólo u n as pocas X caigan en su in terio r. N u e stra confianza, com o
sucede siem pre en la inducción estadística, no está en algún re ­
su ltad o p a rtic u la r cualquiera de la m u estra, sino en el procedi­
m ien to em pleado.
E s posible p o n er el riesgo de e rro r a cu alq u ier nivel deseado,
sirviéndonos p a ra ello del m ú ltip le ap ro p iad o del e rro r están d ar.
Sin em bargo, el lecto r h a de o bservar que, al re d u cir el riesgo
d e e rro r, se au m en ta tam b ién necesariam ente la am p litu d del
intervalo, a m enos que se aum ente sim ultáneam ente el núm ero
de casos. C uanto m ás am plio sea el intervalo, ta n to m enos nos
dice acerca del p arám etro . D ecir que el ingreso m ediano de las
fam ilias de N ueva Y ork se sitú a e n tre $ 1 000 y $ 25 000 equivale
a p ro clam ar lo que to d o el m undo sabe. Así, pues, el investigador
se en fren ta a u n dilem a. Puede a firm a r que el p a rá m e tro se
sitú a en el in te rio r de u n intervalo m uy angosto, p ero la p ro b a­
b ilidad de e rro r será grande, o puede h acer u n a afirm ación m uy
vaga, con la seguridad v irtu al de e sta r en lo cierto. Lo que se
decida a h acer exactam ente dependerá del c a rá c te r de la situa­
ción. A unque convencionalm ente suelan em plearse intervalos de
confianza del 95 y el 99 p o r ciento, cabe in s istir en que dichos
niveles n ad a tienen de sagrado.
Intervalos de confianza y pruebas de hipótesis. Si bien el o b je ­
to explícito de p o n er intervalos de confianza de u n a estim ación
está en in d icar el grado de exactitud de ésta, los intervalos de
confianza constituyen tam b ién pruebas im p lícitas de u n a vasta
serie de h ip ó tesis.6 Son pru eb as im plícitas en el sentido de que
las hipótesis concretas n o se form ulan, sino q u e se hallan sim ­
plem en te im plicadas en aquéllos. E n efecto, en el intervalo de
confianza tenem os u n a p ru e b a im plícita de todo valor posible
de jí que pued a suponerse. L a figura X II.4 indica de qué m odo
los intervalos de confianza se relacionan con las pru eb as de las
hipótesis.
C oncentrém onos en el intervalo de confianza trazado alrededor
6 Conviene insistir en que, si bien la estimación de intervalo y la prueba
de hipótesis comportan ideas íntimamente relacionadas, constituyen, con
todo, procedimientos distintos.
de X . Supóngase que, en lugar de h a b e r obtenido sem ejan te in­
tervalo, hem os form ulado hipótesis a p ro p ó sito de varios valores
altern ativ o s de p, y hem os procedido a com probarlas. Supóngase,
p a ra m ayor sencillez, que el valor de a h a sido dado y que se ha
em pleado el nivel de significación de .05 y se utilizó u n a prueba

Fig. XII.4. Comparación de un intervalo de confianza del 95 por


sie n to con p ruebas de hipótesis al nivel de .05 m ostrando el no
rechazo d e la m edia hipotética \ilt q u e queda d en tro del intervalo,
y el descarte d e la jx2 hipotética, que queda fu era del intervalo

d e dos colas. S upóngase p rim ero que habíam os an ticip ad o hipo­


téticam en te u n v alo r com o el de ^ (fig u ra X II.4a), q u e se sitúa
efectivam ente al in te rio r del in terv alo de confianza en cuestión.
E n este caso, la m edia X de la m u e stra n o caería, m anifiesta­
m ente, en la región crítica, y la hipótesis n o se h a b ría descartado
a l nivel de .05. P o r o tra p a rte , si hubiéram os su puesto un v a
lo r al ex terio r del intervalo, ta l com o ^ (fig u ra X II.46), la dis­
tan cia e n tre la d e la hipótesis y X sería m ayor que 1.96 o - ,
y esta segunda hipótesis se h a b ría descartado. E stá claro, pues,
que si supusiéram os valores hipotéticos de jx que se sitúan en
ajgún p u n to al in te rio r del in terv alo de confianza, n o d escarta­
ríam os dichas h ipótesis al nivel d e significación apropiado. Y si
supusiéram os valores de ji que quedan al ex terio r del intervalo,
sabem os que estas hipótesis se d escartarían .
Así, pues, h ab iendo o b tenido u n in terv alo d e confianza, pode­
m os d ecir a sim ple vista cuáles h a b ría n sido los resultados si
h u b iéram o s verificado las hipótesis. Si el c a rá c te r de n u estro
p ro b lem a fu e ra tal que n o se sugiriera hipótesis p a rtic u la r alguna
com o p referib le a las o tra s, entonces, obviam ente, la altern ativ a
p ráctica, en relación con u n a serie de pruebas, consistiría e n obte­
n e r u n solo in tervalo de confianza.6 El le c to r debería convencerse
p o r sí m ism o de que los ejem plos exam inados en el capítulo p re­
cedente p u d iero n h ab e rse tra ta d o con igual facilidad p o r el m é­
to d o del in terv alo de confianza.
S u p u esto s en relación con los intervalos de confianza. E l em ­
p leo de intervalos de confianza no nos lib era de la necesidad de
fo rm u la r supuestos ac erc a de la n atu ra leza de la población y del
m éto d o de m u estreo utilizado. B ásicam ente, los supuestos en el
caso de u n p ro b lem a de intervalo de confianza son los m ism os
q ue los que se req u ieren p a ra cualesquier pru eb as im plícitas,
con la diferencia d e que n o es necesario, p o r supuesto, suponer
u n v alo r hip o tético d eterm in ad o p a ra el p a rá m e tro que se estim a.
E n este tex to supondrem os siem pre el m u estreo aleatorio. P or
o tra p arte , si se em plea u n a distribución de m uestreo, hem os de
su p o n er u n a población n o rm al o de te n e r u n a m u e stra suficien­
tem en te grande. Si se em plea, en cam bio, u n a distribución t o
cu alq u ier o tra d istrib u ció n d e m u estreo , entonces h a b ría que
fo rm u la r los supuestos usuales req u erid o s en p ru e b as com pa­
rables.

X II.3. In terva lo s de confianza para otros tipos de problem as


H a sta aq u í el exam en de los intervalos de confianza sólo h a com ­
p re n d id o casos en los q u e el p a rá m e tro que se estim ab a e ra la
m edia de u n a población siendo 0 conocida. Si el p ro b lem a se
cam bia, las m odificaciones del p rocedim iento son obvias, y la
in te rp re ta c ió n b ásica de los intervalos de confianza y su relación
con las p ru eb as de las hipótesis siguen siendo las m ism as. El
in terv alo de confianza d e u n p a rá m e tro se o b tien e siem pre p r o ­
cediendo a u n a e stim ación del p a rá m e tro en cuestión e incluyén­
dolo en u n in tervalo cuya am plitud es función del e rro r está n d a r
d e la estim ació n .7
Si debido a n o conocerse a hay que servirse d e la distribución
t, re cu rrim o s sim plem ente a la estim ación del e rro r e stá n d a r

6 Debe observarse, sin embargo, que cuando probamos una determinada


hipótesis nula obtenemos un valor específico de probabilidad, tal corno
P = .032, lo que normalmente no obtendríamos en relación con un inter­
valo de confianza.
t En algunos casos, sin embargo, como en el de los intervalos de con­
fianza para coeficientes de correlación, la estimación del punto puede no
caer exactamente en el centro del intervalo.
y su stituim os el m ú ltip lo obten id o sirviéndonos del cu ad ro n o r­
m al p o r la cifra correspondiente del cu ad ro í. E n esta form a,
p a ra u n in terv alo d e confianza de 99 p o r ciento p a ra la m edia y
24 grados de lib ertad , ten d ría m o s:

s
X ± 2.797 = X ± 2.797
v w -i

Si en el ejem p lo de la sección XI.3 del capítulo a n te rio r se hubie­


r a operado con u n intervalo de confianza del 99 p o r ciento, el
re su ltad o h a b ría sido:

P or consiguiente, el intervalo de confianza del 99 p o r ciento va


de 45.15 a 58.85. Vemos que este re su ltad o concuerda con el que
se obtuvo p rev iam ente (esto es, .001 < p < .0 1), p o r cu a n to la ¡i
su p u esta d e 60 cae efectivam ente fu e ra del in terv alo calculado,
y sabem os, p o r lo tanto, que la hipótesis h a b ría debido descar­
ta rse al nivel de .01 (en u n a p ru e b a d e dos colas).
Y en fo rm a análoga, podem os o b ten er intervalos de confianza
p a ra las p ro p o rciones. E n efecto, su stituyendo X p o r p s y a /y J Ñ
p o r V Puq J el intervalo de confianza del 95 p o r ciento se ría :

Nos encontram os aquí con u n a dificultad que no se p re sen tab a


cuando p o día an ticip arse p a ra p u u n valor determ inado. En efec­
to, com o q u iera que obviam ente p u n o será conocido, se hace
n ecesario ap reciar el e r ro r e stán d a r. Pueden recom endarse a tal
o b jeto dos p ro cedim ientos sencillos, u n o de los cuales es m ás
conservador que el o tro .8 E n p rim e r lugar, to d a vez que la m ag­
n itu d de la m u e stra h a de se r gran d e p a ra ju stific a r el uso de
las tablas norm ales, p s co n stitu irá p o r lo re g u lar u n a apreciación
razonablem ente b u en a d e p„. P o r consiguiente, si sustituim os
sim plem ente p a p o r p u (y qs p o r qu), podem os o b ten er u n in te r­
valo que p o r lo reg u lar será b a sta n te p arecido al correcto. Así,
p o r ejem plo, en el caso d e la sección XI.4 del cap ítu lo precedente

8 Para un tercer método algo más preciso véase p. 244.


h ab ríam o s o btenido el intervalo de confianza del 98 p o r ciento
de la m an era siguiente :

p , ± 2.33 \ l J ™ ! - = .55 ± 2.33 t i - - - - - = .55 ± 0.1037


" N * 125

Si alguien siente preocupación en u tiliza r u n a estim ación del


e rro r e stán d a r sin co rreg ir en alguna fo rm a el e rro r adicional de
m uestreo in tro d u cid o de este m odo, p u ed e servirse de u n m étodo
m ás conservador p a ra o b ten er el intervalo. E n efecto, com o quie­
ra q ue el p ro d u c to pq alcanza u n valor m áxim o p a ra p = q = .5,
síguese que el in tervalo de confianza m ás extenso posible se ob­
te n d rá sirviéndose del v alor .5 com o estim ación de p „.9 T oda vez
que p o r lo reg u lar se desea u n intervalo angosto, nos co m porta­
m os cau tam en te al o b ten er u n intervalo que es todo lo grande
q u e p u ed a ser, in dependientem ente del v alo r de p u. Sirviéndonos
de este m étodo m ás conservador, obtenem os u n intervalo algo
d istin to , a sab e r:

O bsérvese que este segundo intervalo es sólo ligeram ente m ás


ancho que el p rim ero. S iem pre que .3 < p < .7, los dos m étodos
d a rá n ap ro x im ad am ente los m ism os resultados.
* Si p s re su lta se r m uy grande o m uy pequeño, el m étodo con­
serv ad o r pu ed e d a r u n intervalo que sea m uy am plio. Si alguien
sien te p reocupación en u s a r el p rim e r m étodo en el que p u es
e stim ad a p o r p s, es posible com binar los dos m étodos p a ra con­
seguir u n in tervalo m ás razonable que siga, con todo, siendo
conservador. E n ta l caso, nos servim os p rim ero del m étodo m ás
co n serv ad o r p a ra o b te n e r u n intervalo de confianza aproxim ado.
S upóngase que este in terv alo vaya de .10 a .25, siendo p a d e .175.
E starem o s entonces razonablem ente seguros de que el valor real
de p u h a de situ a rse e n algún p u n to al in te rio r de dicho intervalo
aproxim ado (y co n serv ad o r). Al calcular el in terv alo m ás exacto,
tom am os ah o ra com o estim ación de p u el v alo r aproxim ado d en ­
tro del in terv alo q u e q u ed e m ás cerca de .5. E n el ejem plo n u ­
m érico a n te rio r escogeríam os el v alo r .25, ya que el em pleo del
m ism o en la fó rm u la del e rro r e stá n d a r nos d a rá u n intervalo
m ás am plio de lo que h a ría cualquier o tro v alo r del in terv alo .10
a .25. E n o tro s térm in o s : en lu g ar de servirnos de n u e stro p,
real (e sto es, de .175), escogem os el m ay o r v alo r q u e suponem os
que p u pu ed a ad o p tar. P o r consiguiente, calculam os el intervalo
de confianza del 95 p o r ciento com o sig u e :
® El lector debería convencerse por sí mismo de que es así.
(.25) (.75)
N

E ste intervalo será m ayor, y p o r consiguiente m ás conservador,


que el q ue se o btiene to m ando b a jo el radical a p a, y n o com por­
ta, con todo, el em pleo del valor .5, del que sospecham os que es
con m ucho d em asiado grande.

X II.4. D eterm inación del tam año d e la m uestra


De a c u erd a con la p rá ctica seguida de i r intro d u cien d o pocas
ideas nuevas a la vez, hem os aplazado la cuestión de cóm o pue­
d a d eterm in arse el tam año de la m u e stra con an terio rid ad a la
recopilación de los datos. Una de las preg u n tas que con m ayor
frecuencia le p o nen al estad íg rafo es la de “¿cuántos casos nece­
sito ?" La re sp u esta depende, p o r supuesto, de lo que se tenga el
p ro p ó sito de h ac er con los re su ltad o s de la m uestra. Más con­
c retam en te: hay que d eterm in a r diversos hechos an tes de poder
d a r u n a re sp u esta adecuada. P o r lo regular, lo que hem os de
h ac er es rem o n tarn o s hacia a trá s, a p a r tir de los datos que es­
peram o s o b ten er, p a ra p o d er d eterm in a r el tam añ o desconocido
de la m u estra. H a sta aquí hem os considerado el tam año de la
m u estra com o ca n tid a d conocida. Las estadísticas tales com o
la m edia y la desviación e stá n d a r de la m u estra pueden ob ten er­
se de los re su ltad o s de ésta. Una vez que hem os decidido el nivel
d e significación de u n a p ru e b a o el intervalo de confianza de­
seado, podem os p o n e r todos estos valores en u n a fó rm u la y
d ecid ir la am p litu d del in terv alo de confianza, o b ien si deba
o n o d esc artarse u n a hipótesis nula. Sin em bargo, en la clase
de problem as que estam os considerando en esta sección el ta ­
m añ o de la m u e stra será desconocido. E sto significa que, p a ra
resolver n u e stra ecuación con resp ecto a N , hem os de conocer
to d as las dem ás cantidades d e la fórm ula. Y u n a vez integrados
todos esos valores en la ecuación, entonces la solución de N se
convierte en u n sencillo p ro b lem a algebraico. Con o b jeto de
ilu s tra r el p roceso nos servirem os de u n p roblem a de intervalo
de confianza.
Supóngase que querem os sab e r cuántos casos se requieren
p a ra estim ar el n ú m ero prom edio de años de escuela com pleta­
dos p o r las personas de pad res nacidos en el ex tran jero . Antes
de p o d er d a r u n a resp u esta a esta cuestión, necesitam os obte­
n e r los siguientes elem entos d e in fo rm ac ió n : 1 } el nivel d e con­
fianza a u tilizar, 2 ) el grado de exactitud con q u e deseam os
ap reciar el p arám etro , y 3) alguna estim ación razonable d e los
valores de cualesquier p arám etro s que pu ed an ap arecer en la
fórm ula. Así, p o r ejem plo, podem os q u erer a p reciar la m edia
con u n a aproxim ación de ± .1 año de escolaridad y servirnos de
un in tervalo de confianza del 95 p o r ciento. O bsérvese q u e hay
q ue c o n c retar ta n to la u n a com o la o tra de dichas cantidades,
ya que podem os o b ten er siem pre u n a aproxim ación de ± .1 añ o si
estam os dispuestos a a d m itir u n gran riesgo de e rro r. Nos ser­
vim os ah o ra de estos valores en la fó rm u la del intervalo de
co n fian za:
X ± 1.96— - —

'------ V------ '


.1

E l conocim iento del nivel de confianza deseado nos h a perm itido


in tro d u c ir el v alor 1.96. Como quiera que deseam os u n a aproxi­
m ación de ± .1 , o u n a am p litu d to tal de intervalo de .2, sabem os
que la ca n tid a d de 1.96 o / \ / N h a de se r igual a .1. Aunque el va­
lo r de X sea desconocido, vem os inm ediatam ente que ello no
rev iste im p o rtan cia alguna en este problem a, ya que deseam os
o b ten er u n in tervalo de cierta am plitud, independientem ente del
v alo r de X .
S upóngase que tra ta m o s ah o ra de resolver la ecuación

cr
.1 = 1.96----- -
y /N

resp ecto de N . Tenem os todavía u n a incógnita, o sea <r. Pero,


¿cóm o podem os o b ten er o an tes de h a b e r reu n id o los datos? La
cosa es c la r a : hem os de estim a r su valor p o r algún m étodo que,
en cierto sentido, vaya m ás allá de los datos que habrem os de
reu n ir. E n esencia, hem os de fo rm u lar u n supuesto ilu strad o
en cu an to a su valor, y a sea sirviéndonos de u n conocim iento
experto, de los resu ltad o s de estudios previos, o eventualm ente
de u n estudio-guía de cualquier clase que sea. P or lo regular, u n
estudio-guía re su lta rá m uy costoso y, p o r consiguiente, hay que
re m itirse a u n o u o tro de los dos m étodos restan tes. Incuestio­
nablem ente, el procedim iento m ás satisfactorio consistiría en de­
te rm in a r a exactam ente, pero, si esto p u d iera hacerse, ya no
te n d ría pro b ab lem ente in terés alguno el e x tra e r u n a m u estra.
O bsérvese que el tip o de estim ación necesario en esta clase de
p ro b lem a es to talm en te distinto del que se em pleó en a p reciar
a a p a r tir de los datos de la m uestra. P o r lo tanto, de n a d a sirve
estim ar a con a o sirviéndonos de la distribución t. Si de todos
m odos hem os de estim ar, lo m ism o podríam os estim ar el valor
de a que el de o o s. E n el p re sen te ejem plo, supóngase que so­
b re la b ase de la m e jo r inform ación obtenible estim am os que o
será de ap ro x im ad am en te 2.5 años. Sirviéndonos de este valor
y resolviendo re sp ecto del tam añ o re q u erid o de la m uestra,
te n e m o s :

o sea
V aT = J ^ L = 49

y
N = 2 401

O bsérvese que hem os_resuelto re sp ecto de N p asando to d as las


can tid ad es excepto \ / N a u n lado de la ecuación y sim plificando.
F inalm ente elevam os al cu ad rad o am bos m iem bros de la ecua­
ción p a ra elim in ar el radical.
S in duda, sólo podem os o b te n e r u n valor aproxim ado p a ra el
tam año deseado de la m u estra, ya que los p a rá m e tro s h a b rá n
de estim arse. No te n d ría ciertam en te sen tid o alguno, p o r ejem ­
plo, to m ar ex actam ente los 2 401 casos. Sin em bargo, sem ejante
aproxim ación nos d ará p o r lo re g u la r re su ltad o s m ucho m ejores
q u e cu alq u ier corazonada in tu itiv a acerca del n ú m ero de casos
necesario. E n las aplicaciones p rácticas solem os p o r lo re g u la r
estu d ia r m ás de u n a variab le a la vez, lo q u e com plica todavía
la cosa considerablem ente. E stam os tam b ién lim itados, general­
m ente, p o r los recu rso s disponibles, y a m enudo hem os de aco­
m o d am o s con cualquier grado de ex actitu d que podam os obtener.
P ero au n así, se rá ú til a m enudo calcular el tam año necesario
de la m u e stra a títu lo de guía de n u estro p ro p ó sito de inves­
tigación.
Si bien la cuestión de d e te rm in a r el tam añ o de la m u e stra no
se ex am in ará en los capítulos siguientes en conexión con otros
p ro cedim ientos estadísticos, el le c to r e n c o n tra rá algunos e je r­
cicios que le im ponen la estim ación de N a p ro p ó sito de o tras
clases de problem as. E n todos estos casos la aplicación es obvia,
au n q u e en ocasiones haya que re c u rrir ab u n d a n te m en te al ál­
gebra.
Glosakxo
Intervalo de confianza
Grados de libertad
Eficiencia de la estimación
Estimación del intervalo
Estimación del punto
Estimación no sesgada
E je r c ic io s

1. Obténganse los intervalos de confianza para los ejercicios 3, 4 y 5 del


cap. xr. ¿Concuerdan los resultados obtenidos con los de ejercicios
anteriores? ¿Cómo se sabe? Respuesta al ejercicio 5, .47—.61.
2. Se toma una m uestra aleatoria de 200 familias de una localidad
y se encuentra que en el 36 por ciento de los casos es el marido quien
toma más de la m itad de las decisiones de carácter financiero. ¿Cuál
es el intervalo de confianza del 99 por ciento para el porcentaje de
familias en las que el marido toma más de la m itad de dichas decisio­
nes? ¿En qué sentido concreto proporciona el intervalo pruebas implí­
citas de hipótesis?
3. ¿Cuántos casos se necesitarán para establecer un intervalo de con­
fianza del 99.9 por ciento para la media si la amplitud total del inter­
valo de confianza no ha de rebasar $500 y la desviación estándar se
supone ser de $ 1 300? Respuesta, N = 295.
4. Si se sospecha que la proporción de propietarios de casa es de
aproximadamente .75 en una determinada zona de residencia, ¿cuántos
casos se necesitarán para obtener un intervalo de confianza del 95 por
ciento y de amplitud no mayor a .03, expresada en términos de propor­
ciones? Supóngase que la proporción de los propietarios de casa se
aprecia en .5, ¿cuántos casos se necesitarán en este supuesto?
5. Sirviéndonos del hecho de que para poblaciones normales la dis­
tribución de muestreo de la mediana presenta un error estándar de
1.253 a/ VN, podemos situar un intervalo de confianza alrededor de la
mediana. Supóngase que en el ejercicio 3 precedente se deseaba poner
un intervalo de la misma amplitud alrededor de la mediana de la mues­
tra. Sirviéndonos de la misma apreciación de la desviación estándar,
¿cuántos casos necesitaríamos? ¿Qué revela el resultado a propósito de
las eficiencias relativas de la media y la mediana? Respuesta, N = 463.
* 6. Se ha sostenido que el intervalo de confianza del 95 por ciento
representa una serie de pruebas implícitas de dos cotas al nivel de
.05. Expliqúese por qué el intervalo de confianza del 95 por ciento no
representa pruebas implícitas de una cola al nivel de .05.

B iblio g rafía

1. Freund, J. E.: M odem Elementary Statistics, 3* ed., Prentice-Hall,


Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11.
2. Hagood, M. J. y D. O. Price: Statistics for Sociologists, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 15 y 16.
3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc.; Nueva
York, 1963, caps. 7 y 9.
4. Wallis, W. A. y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 14.
C uarta P a r te

E S T A D IS T IC A S BIV A R IA D A S Y M ULTIVARIADA S
X II I. PR U E B A S D E DOS M U E S T R A S : D IF E R E N C IA D E
LAS M E D IA S Y LAS P R O P O R C IO N E S

E n el cap ítu lo x i se exam inaron p ru e b as que consideraban u n a


sola m u estra. H allam os que dichas p ru e b as n o e ra n m uy p rá c ti­
cas p a ra el sociólogo, ya que p o r lo re g u la r n o es posible encon­
tr a r u n a hipótesis suficientem ente concreta p a ra p re d ecir u n valor
p a ra ¡i o p u. S in em bargo, cuando el in teré s se cen tra en co m ­
paraciones en tre v arias categorías de m u estras, re su lta innecesa­
rio co n c retar los niveles absolutos de u n o u o tro de los grupos.
E n lu g ar de ello, p u ed e p ro b a rse sencillam ente la hipótesis nula
de que no existe e n tre ellos diferencia alguna. Así, p o r ejem plo,
sería extrem ad am ente difícil a n ticip ar el nivel d e ingreso de los
n eg ro s en D etroit o el nivel de p re ju ic io de los blancos en esa
d u d a d . Sin em bargo, supóngase que nos in tere sa b a p ro b a r la hi­
p ótesis d e que el ingreso prom edio de los negros es el m ism o que
el de los blancos nacidos en el ex tran jero , o q u e los judíos tienen
p a ra los negros el m ism o grado de p re ju ic io que los n o judíos.
E ste ú ltim o tip o de hipótesis lo reconsiderarem os aquí.
E n u n a ciencia social com o la sociología, el in terés p ro p e n d e a
c e n tra rse en estab lecer relaciones e n tre variables. E sto c o n tra sta
con el tip o de la en cu esta que reú n e dato s y en la cual, según
vim os, la estim ación del p u n to y el in terv alo de u n solo p a rá m e ­
tro pu ed e re v estir im p o rtan cia prim ordial. C uando se establecen
com paraciones e n tre dos m u estras, tenem os la clase m ás sim ple
de p ro b lem a en el que dos variables pu ed en re fe rirse u n a a o tra.
H a sta aq u í sólo nos hem os ocupado de u n a sola v ariab le a la vez.
É sta es tal vez la razón principal de que las p ru e b as exam inadas
h a s ta el p re sen te n o hayan sido dem asiado ú tile s p a ra los soció­
logos. E n este capítulo vam os a ocuparnos de p ru e b as en las
q u e u n a sim ple variable dicotóm ica p u ed e se r re ferid a a o tra
variable. Así, p o r ejem plo, al c o m p arar a los ju d ío s y los n o ju ­
díos p o r lo que se re fiere al prejuicio, relacionam os de hecho a
éste con la religión. Y en fo rm a análoga, p o d ría q u ererse com pa­
r a r los dos sexos co n re sp ecto a "otros asp e cto s” o desde el p u n to
de v ista de o tras ca racterísticas relativas a la personalidad. Las
com paraciones pu eden establecerse asim ism o e n tre u n g ru p o de
co n tro l y u n grupo de experim ento en el q u e se h a in tro d u cid o
alguna variable. E n los capítulos siguientes se exam inarán p ru e ­
b as q ue co m p o rtan m ás d e dos m uestras.

X III.1. Prueba de la diferencia de las m edias


Con o b jeto de ex tender la p ru e b a de las m edias de una m u estra
ú n ica a u n a p ru e b a e n la que p u ed a estab lecerse u n a com para-
231
ción e n tre las m edias de dos m u estras, hem os de servirnos n u e­
v am ente del teo rem a del lím ite central. Un teorem a im portante,
derivado, pu ed e enunciarse com o sigue: si se extraen m uestras
independientes al azar, de los tam años N x y N z respectivam ente,
d e poblaciones que son respectivam ente N o r ^ j , al) y N or(ji2, al),
la distribución de m u estreo de la. diferencia entre las dos m edias
de las m u estra s ( X 1 —X 2) será igual a N or(n*—[¿2, Oi/JVi+ a l/N 2 ).
Lo m ism o que en el caso de m u estras individuales, este teorem a
puede generalizarse en el caso de m u estras grandes p a ra a b a rca r
cualesquier poblaciones de m edidas ^ y ¡j.2 y de variancias of y
respectivam ente. E n efecto, a m edida que y N 2 aum entan, la
distribución de selección de X 1 — X 2 se aproxim a a la norm ali­
dad, lo m ism o que antes. Exam inem os ah o ra este teo rem a m ás
de cerca.
Se hace referencia a m u estras aleatorias independientes. E sto
significa que las m u estras h an d e seleccionarse independiente­
m en te una de otra. El hecho de que la m u estra sea al azar ase­
g u ra independencia en el interior de ella, en el sen tid o de q u e el
conocim iento de la m arc a del p rim e r individuo seleccionado no
nos ayuda a p re d ecir la m arc a del segundo. E sto no es, con todo,
lo que aquí se entiende p o r “m u estras al azar in d ependientes”. E n
efecto, n o sólo h a de h a b e r independencia en el in te rio r de cada
m u estra (aseg u rad a p o r el hecho de la selección al azar), sino
q ue h a de h ab e rla adem ás entre las m u estras. Así, p o r ejem plo,
las m u estras n o pueden aparearse, com o sería eventualm ente el
caso e n tre grupos de control y grupos de experim ento. Si se fue­
ra n a co m parar, p o r ejem plo, los dos sexos, n o p o d ría utilizarse
la p ru eb a de la diferencia de las m edidas en m u estras com pues­
ta s de p a re ja s de m arid o y m ujer.
E l req u isito de que las m u estras sean independientes u n a de
o tra es sum am ente im p o rtan te, au n q u e a m enudo se lo p ase p o r
alto en la investigación, p artic u la rm en te cuando se m an eja con
u n a m u estra en grupo. Si la m u e stra en con ju n to es estrictam en ­
te al azar, y si se com paran dos su b m u estras tom adas de u n a
m ism a m u e stra aleato ria m ayor, el supuesto de independencia
e n tre las dos su b m u estras en cuestión te n d rá lugar, ya que todos
los casos de la m u e stra m ayor se h a b rá n seleccionado indepen­
dientem ente u n o de otro. P or ejem p lo : si se com paran varones
con hem bras, deberem os h ac er u n m u estreo general de los varo­
nes y otro m u estreo, seleccionado' independientem ente, de todas
las hem bras. Es d ec ir: la selección de B ob Jones n o tiene in­
fluencia ninguna en la p robabilidad de que sea seleccionada Susie
Sm ith.
P or lo regular, en la investigación social tom am os una sola
m u estra m ayor, aunque con fines d e análisis podam os conside­
r a r los datos como procedentes d e diversas m u estras indepen­
dientes. E n la m ayoría de los casos, el p roblem a de la fa lta de
independencia en tre las m u estras no se p lan teará, a m enos que
deliberadam ente las hayam os apareado. Como pueden d arse cir­
cunstancias en las que el diseño del m u estreo n o sea ta n sencillo,
d eb erá p re sta rse atención a la posibilidad de que n o se satisfaga
el sup u esto de independencia e n tre las m u estras.
E n el teo rem a en cuestión se nos dice que si continuáram os a
seleccionar indefinidam ente, seleccionando cad a vez dos m ues­
tra s y estableciendo u n a gráfica de sus m edias, la distribución de
selección de e s ta diferencia e n tre m edias sería n o rm al o aproxi­
m ad am en te norm al. E l lecto r h a de tr a ta r de re p resen ta rse exac­
tam en te lo q ue aquí ocurre. Tenga p re sen te que, com o sociólogo,
él sólo o b ten d rá en re alid ad dos m u estras y u n a sola diferencia,
en tan to q ue aquí tra ta m o s de la distrib u ció n h ip o tética de to d as
las diferencias posibles. Como q u iera q u e la distrib u ció n de
m u estreo es p a ra u n a diferencia e n tre m edias de m uestras, la m e ­
dia de la d istribución de m u estreo está d ad a p o r la diferencia
e n tre dos m edias de población, m ás bien q u e p o r cu alq u iera de
ellas separadam ente. E n el caso especial en que ¡J4 y {x2 sean igua­
les, la m edia de la d istribución de m u estreo será cero. Si > ¡j,2,
esperam os que la m ayoría de las X 1 será m ay o r que las X 2, co­
rresp o n d ien tes, y que la m edia de la d istrib u ció n de selección
será p o r consiguiente positiva. P or ejem plo, si (ix = 60 y = 40,
la d istrib u ció n de X x — X 2 te n d rá 20 com o m edia o valor es­
perado.
No es en cam bio ta n fácil v er p o r qué la variancia h a b ría de ser
a l/N i + o l/N s, o sea la su m a de las variancias de la d istribución
de m u estreo de las m edias separadas. Es obvio que no p o d ría
em p learse u n a diferencia de variancias a f / N x — o l/N , ya q u e po­
d ría obtenerse, p a ra la distribución de m u estreo , cero o u n a va­
rian cia negativa. E n cam bio, la variancia ax/N 1 + c|/A ?2 es rnayor
que cu alq u iera de las dos variancias a 1/ N 1 o a 2/ N s. ¿P or qué es
esto así? A unque n o p u ed a darse u n a justificación com pleta de
la fó rm u la sin re c u rrir al razonam iento m atem ático, puede, con
todo d arse cierto tipo d e explicación intuitiva. F undam entalm en­
te, esperam os q ue el e r ro r e stá n d a r co rresp o n d ien te a la diferen­
cia de las m edias sea m ay o r que cualquiera de los e rro res e stán ­
d a r separados, p o rq u e tenem os ah o ra dos fuentes de erro r, o sea
u n a en cada m u estra. Así, pues, la m ita d d e las veces las dos X
e sta rá n en e rro r en sentidos opuestos. Con fines de sim plifica­
ción, supongam os que |xx = u2- E n este caso, si X t es m ayor que
¡i! y X 2 es m ayor que el re su ltad o de la sustracción será u n a
can tid ad gran d e positiva, p o rq u e los e rro res son e n sentidos
opuestos. P o r ejem plo, si X x es m ás gran d e en 20 que (¿i y X<¡ es
m en o r en 15 que |x2, la diferencia re su ltan te, X, — X 2 diferirá de
[ii — |i2 en 35, com binando, pues, los erro res im plicados. Y en
fo rm a análoga, si X t es pequeña y X 2 es grande, p u ed e re su lta r
u n a diferencia negativa sustancial. E n o tro s té rm in o s : con m u­
cha frecuencia obtendrem os diferencias relativ am en te grandes
en tre las m edias de las m u estras, ya que cada m edia v aria rá in­
dep en d ien tem ente de la otra. E n consecuencia, la distribución de
m u estreo de u n a diferencia te n d rá u n a desviación e stá n d a r m a­
yor que cu alq u iera de las d istin tas distribuciones de m u estreo
separadas.
* La fó rm u la p a ra el v alor esp erad o y la variancia de X x — X¡¡
puede ser d educida utilizando una vez m ás las expresiones co rres­
pondientes a las com binaciones lineales. Se re c o rd a rá que si
Y = cíX 1 + c^X2, tendrem os E ( Y ) = C jE C ^ ) + czE ( X 2), y aT2 ~
ci2 + c 22 Gx22, a condición de que X x y X s sean independien­
tes. Si hacem os ah o ra que Y re p resen te u n a diferencia de medias,
sustitu y en d o X x p o r X ít y X 2 p o r X 2, haciendo cx = 1 y c2 = —1,
tendrem os, com o caso especial, los resultados

E ( Y ) = E ( X x - X 2) = ( D E m + ( - 1 ) £ ( X 2) = m - |x*
y
Oí2 022
—¡ j— +
i
0,* = ( l ) 2 0 / + ( - 1 ) 2 0j 2 =
2 Ni —rf—
N2
Obsérvese que si hubiésem os fo rm ad o la sum a de X-¡ y X 2, la
expresión de la variancia p a ra dicha can tid ad h u b ie ra sido la m is­
m a que la co rresp o n d ien te a su diferencia. E n el capítulo xvi
estu d iarem o s o tro s tipos m ás com plejos de com paraciones en las
q u e se incluye u n a generalización de esta sim ple com paración
de dos m ed ias de m u estras.
Vamos a v e r ah o ra u n ejemplo- ilu strativ o del em pleo de la
p ru e b a de la diferencia de las m edias. El caso de las 0 conocidas
n o lo exam inarem os, y a dicho p ro b lem a es obvio y m ás bien
poco práctico-. S upondrem os, pues, que las 0 no se conocen. Con­
siderarem os dos casos p a rtic u la re s : en el p rim ero supondrem os
que 0X= 02, en ta n to que e n el segundo se su p o n d rán dos 0 des­
iguales. Es obvio que estos dos m odelos com prenden todas las
altern ativ as posibles,
Problem a. Se establece u n a com paración e n tre dos tipos d e dis­
trito s, o sea e n tre los pred o m in an tem en te u rb an o s y lo-s que son
fu n d am en talm ente ru rales. Los d istrito s en cuestión se com paran
en relación con el p o rc e n ta je de p e rso n a s que votan p o r los de­
m ó cratas en u n a elección presidencial, con los siguientes resul­
tados :
Distritos urbanos Distritos rurales

N ± = 33 iV2 = 19
= 57 % X2 = 52 %
5! = 11 % s2 = 14 %

¿P resen tan estos datos m otivos razonables p a ra suponer que


existen diferencias significativas en las preferen cias electorales
de dichos dos tipos de d istrito s? Supóngase que éstos se h an se­
leccionado al azar d e u n a lista de todos los d istrito s del F a r W est,
y que estudios previos h a n m o strad o que las respectivas d istri­
buciones de población son aproxim adam ente norm ales.

M odelo 1: ai = o2

1. S u p u esto s
N ivel de m e d ic ió n : el p o rc en taje de votos dem ocráticos es u n a
escala de intervalo
M odelo: m u estras aleatorias independientes
poblaciones norm ales, ai — a2 = a.
H ip ó te sis: = ^2.

E l su p u esto de n o rm alid ad puede aban d o n arse siem pre que l a s .


N sean grandes (p o r ejem plo, am bas so b re 50). El supuesto a —
<r2 pued e co m probarse efectivam ente p o r m edio d e la p ru e b a F
quse se exam inará en el capítulo xvi. E sta p ru e b a co m porta una
com paración de las dos desviaciones e stá n d a r de las m u estras.
Si Si y ss n o difieren m u ch o n o p o d rá rechazarse la hipótesis de
que ai = a2- Si de acu erd o con los re su ltad o s de la p ru e b a F el
su p u esto de desviaciones está n d a r iguales es razonable, será m ás
eficaz aprovecharse de ello p a ra ap re c ia r el v alo r com ún de o.
D ado el supuesto d e q u e las dos poblaciones sean norm ales, los
su p u esto s adicionales de m edias y desviaciones e stá n d a r iguales
equivalen a so stener que las dos poblaciones son idénticas.
Como q u iera que estam os interesados e n sab e r si existe o no
alguna diferencia e n tre los dos tipos de distrito s, n u e stra h ip ó te­
sis n u la será la de q u e n o existe diferencia. P or lo visto, sospe­
cham os que sí existe diferencia, y p o r ello form ulam os u n a hipó­
tesis que deseam os descartar. E n este caso podem os designar
legítim am ente la hipótesis com o hipótesis "n u la”, que n o indica
relación e n tre las variables “tip o de d is trito " y "preferencia elec­
to ra l”. Se concibe que hubiéram os podido e sta r e n condiciones
de co n cretar que las m edias de la población se esp era que sea
alguna co n stan te d istin ta de cero. Así, p o r ejem plo, las hipótesis
pu d iero n h ab e r ad o p tad o la fo rm a de ^ — p,a = 10, si se hubiera
an ticip ad o que la votación en favor de los dem ócratas sería un
10 % su p erio r e n los d istrito s u rb a n o s. S in em bargo, e n ciencias
sociales estam o s ra ra m e n te en condiciones de p o d e r co n cretar
tanto.
2. D istribución de m uestreo. Nos servirem os de la distribución
t, ya q u e las a no se conocen y q u e el n ú m ero to ta l de casos es
m uy in ferio r a 120.
3. N ivel de significación. E scojam os el nivel de .01 y u n a p ru e ­
b a d e dos colas.
4. Cálculo del estadístico de la prueba. Se re c o rd a rá que la dis­
trib u ció n t se calcula to m ando la diferencia e n tre el valor o b te­
n id o de la m u e stra y la m edia de la d istrib u ció n de m u estreo , y
dividiendo e n tre u n a estim ación del e rro r e stá n d a r d e e sta d istri­
bución. N os in te re sa aquí la diferencia e n tre las m edias de la
m u estra, X 2. Como q uiera que la m ed ia d e la distribución
de m u estreo es ^ — |x2, obtenem os p a ra t la siguiente expresión:

en donde a j _ - g es u n a estim ación del e r ro r e stá n d a r de la dife­


re n cia e n tre las m edias de la s m u estras. Como q u iera que en la
hipótesis n u la se h a su p u esto que ¡xj = ¡_i2, la expresión p a ra t se
convierte, en este caso especial, e n

La sem ejanza e n tre el n u m era d o r a n te rio r y el que utilizam os en


la p ru e b a de u n a sola m u e stra es m ás o m enos casual, o sea re­
su ltad o del hecho de que, en la hipótesis nula, las ¡j, se elim inaron.
Sin em bargo, no debe sacarse la conclusión de q u e la ¡j. del p ri­
m e r tip o de p ro b lem a se h a rem plazado sim plem ente p o r la
de la m u estra de la segunda de éstas. E n realidad, la expresión
(X j—X &) h a rem plazado a X , (¡ii~ ¡i2) h a rem plazado a ¡x, y
h a rem plazado a a - . 12

Nos fa lta a h o ra evaluar o-^ . Sabem os, p o r supuesto, que


Como q u iera que en este caso Oí = a2, podem os in d icar el valor
com ún com o o, sacarlo del radical, y sim plificar la expresión
de 7 com o sigue:

la 2 o3 / l l |N i + #2
=V^vT+ ~ Ñ 7 ~ ° ^ ~ K "ÑT_aV
La varian cia com ún o2 puede evaluarse ah o ra obteniendo u n a
apreciación com binada de am bas m u estras. Como q u iera q u e las
dos variancias de las m u estras se b a sa rá n p o r lo re g u lar en n ú ­
m eros distin to s d e casos, podem os o b ten er u n a apreciación d e o2
to m an d o u n pro m edio p o n d erad o de las variancias de las m ues­
tra s, poniendo cuidado e n dividir e n tre los grados propios de liber­
tad , con o b jeto de conseguir u n a estim ación insesgada. E xtrayen­
d o la raíz cu ad rada, obtenem os la estim ación de o com o sigue:

A . I ^1S18 + N 2 S 22
a-
+ N2 - 2
_
P u esto q u e : Ar1s12 = 2 ( X a - X x )2, podrem os su s titu ir N 1s 12 p o r :
í=i

2 ¿Cu2, en donde x it = X {1 — X i.

Si hacem os lo m ism o p a r a iV2s22, obtenem os

Xnz + 2 xiSz

Nt + N2- 2

De este m odo, si tom am os la sum a de los cu ad rad o s alred ed o r


de la m edia de la p rim e ra m u e stra y sum am os a ella la su m a de
los cu ad rad o s de las desviaciones alre d ed o r de la m edia de la
segunda m u estra, dividiendo finalm ente e n tre N í + N 2 — 2, o bte­
nem os u n a estim ación com binada de la variancia com ún.
O bsérvese q ue el sím bolo a se em plea a h o ra p a ra re p re se n ta r
u n a estim ación d istin ta de la que vim os en los capítulos an te­
riores. P ara in d icar u n a estim ación insesgada se em plea a m enu­
d o en la lite ra tu ra estad ística el sím bolo “A”. Como q u iera q u e
hem os p erd id o 2 grados de lib ertad , u n o en cada cálculo de sx y
s 2 a p a r tir de Xj y X¡, los grados to tales de lib ertad quedan en
jVjl AT2 — 2. P a ra o b ten er n u e stra estim ación, nos hem os servido
de am b as m u estras, d an d o u n m ayor peso a la variancia de la
m ayor de ellas. S em ejan te estim ación com binada será m ás eficaz
que las estim aciones b asa d as en u n a u o tra sola de las m u estras
en cuestión. A títu lo de control del cálculo, el valor num érico
de a se situ a rá p o r lo re g u la r e n tre los de sx y s2.
F inalm ente, obtenem os u n a estim ación de a 2 tom ando nues-
Nt + N2
tr a estim ación de a y m ultiplicando p o r — com o en la
’ tfiiV2
ecuación (X III.2 ). Así:

A ! N lSl* + ¡N1+ N2
c . _ T. = i - -, 7 ' (X III.4 )
2 i AT-i + iVo — 2 " N i N i

O bsérvese que la ecuación ( X III.4 ) se diferencia de la ecuación


(X III.2 ) en q ue el a de la ecuación (X III.2 ) h a sido sustituido
p o r su estim ad o a, com o se define en la ecuación (X III.3 ). En
este p u n to la fó rm u la parece terrib le. S in em bargo, el lecto r de­
b ería re p a sa r los p aso s algebraicos exam inados anteriorm ente,
p a ra convencerse de que la fó rm u la n o es ta n com plicada com o
a p rim e ra v ista parece.
E n n u estro ejem plo num érico obtenem os los siguientes resu l­
tados :

£_ _ = J ü (121) + 19 (-9— J ü ± Í L = ( 12.42) (.288) = 3.58


\ 33 + 1 9 - 2 T 33(19)

P o r lo tan to ,

(X t — X 2) — 0 _ 5 7 - 5 2 _

358

O bsérvese q ue n u e stro estim ado a = 12.42 cae e n tre ^ = 11 y


s t ~ 14.
5. Decisión. Com o q uiera que se utilizó u n a estim ación com bi­
nad!! de la desviación está n d a r com ún, los grados de lib ertad
asociados » t serán N, + N¡¡ — 2, o sea 50. E ncontram os que t =
1.40, cuya pro b ab ilidad sería considerablem ente su p erio r a .01 si
todos los supuestos lu cra n correctos. Decidim os, pues, no des­
c a rta r la hipótesis nula al nivel de .01, y llegam os e n consecuen­
cia a la conclusión de que no se dan diferencias electorales signi­
ficativas en tre los d istrito s urbanos y ru rales del F a r W est.
Modelo 2: a$. Vemos aliora cuáles m odificaciones resu ltan
necesarias cuando es im posible suponer que las dos poblaciones
p re sen tan las m ism as desviaciones están d ar. P robablem ente h a ­
brem os verificado y d escartad o la hipótesis de <n = a2. E n conse­
cuencia, ya no es posible a h o ra sim plificar la fó rm u la cr-,
in tro d u cien d o u n v alor com ún p a ra a, ni lo es tam poco fo rm a r
u n a estim ación com binada. E n sem ejan te caso, estim am os las
dos desviaciones e stá n d a r (d is tin ta s) separadam ente. E stim am os
a p a r tir d e s12/(A r1 — 1), y a22/ N 2 so b re la base de s22/
(N 2 — 1), con lo que o b te n e m o s:

a I s i2 s22
= 1 ñ = i + J ¡¿ ri W
E n el ejem plo em pleado an terio rm en te tenem os, p u es:

121/32 + 196/18 = V3.78 + 10.89 = ^ /1 4 ¿ 7 = 3.83


57 — 52
Y p o r consiguiente, í = ------------= 1.31.
3.83
Así, pues, los resultados obtenidos en los dos m odelos d istin to s
no difieren grandem ente.
Si b ien el p ro cedim iento em pleado e n el m odelo 2 es m ás sen­
cillo desd e los p u n to s de v ista lógico y de cálculo a la vez, la
estim ación d e o - v n o es, con todo, ta n eficaz, en él, com o
1 2
la q u e se obtuvo an terio rm en te. P or o tra p arte , a u n si supone-
m os poblaciones norm ales, el m odelo 2 re su lta algo dudoso en
los casos en que las N n o son m uy grandes o en que los tam años
de las m u e stra s d ifieren m u ch o u n a de o tra. La dificultad se hace
p re sen te al escoger el grado adecuado de lib ertad . Así, p o r ejem ­
plo, si la p rim e ra m u e stra fu e ra excepcionalm ente pequeña, sería
m uy falaz servirse de + N 2 — 2 com o grados de lib ertad , ya
q u e sx sería u n a estim ación m uy deficiente de o1( y a que el valor
de 5lV ( N i — 1 ) sería p o r lo re g u lar m u ch o m ayor que el de
s 22 / ( N 2 — 1). E sto es c ie rto p o rq u e n o siendo m uy diferentes los
valores de Sj2 y 5¡¡2, los tam años relativos d e las dos fracciones
ven d rán fu n d am en talm en te determ inados p o r sus denom inadores.
S e h a sugerido que, a m enos que las N sean grandes, es p re fe ri­
ble serv irse de la siguiente expresión p a ra o b ten er u n a aproxim a­
ción de los grados co rrecto s de lib e rta d :

V a t.- i n, - iJ

” ( A Y ( « í i H & r (s~ n )™ ,
E n esta fo rm a obtenem os en el ejem plo a n te rio r:

d f = "(3.78)*( 1/34) + (10.89)2(1720) ~ 2 = 33-89 ~ 2 = 3L89 ~ 32

Obsérvese que algunas de las m agnitudes de la fó rm u la de los


grados d e lib e rta d ya se calcularan an terio rm en te. De la ta b la t,
sirviéndonos de 32 grados de lib ertad , vem os que la hipótesis
n u la no d eb ería d escartarse al nivel d e .0 1.
P o r lo q ue se re fiere a los supuestos, la ú n ica diferencia en tre
los m odelos 1 y 2 es el supuesto de que — or2. O bsérvese que
n ad a h ay en el segundo procedim iento que requiera que las des­
viaciones e s tá n d a r sean desiguales. Si o cu rre que son iguales
(o casi) el segundo m odelo será sencillam ente el m ás eficaz. Pa­
re cerá tal vez que el segundo p rocedim iento sea p referib le en
general, p o rq u e no req u iere el su puesto de cr, = a2. Sin em bargo,
según acabam os de ver, este m odelo necesita aproxim aciones
p a r a los grados de lib ertad . E n el caso d e m u estras grandes, los
dos m étodos p ro p o rcio n ará n p o r lo re g u lar re su ltad o s sim ilares,
si tas desviaciones estándar son efectivam ente iguales, ya que las
dos desviaciones e stá n d a r de las m u estras serán, u n a y o tra, b u e ­
n as estim aciones d e la a com ún.
Si se d a el caso d e q u e las a se conocen p a ra am bas poblacio­
nes, entonces sus respectivos valores pueden po n erse directam en­
te en la fó rm u la de a - -- , y a que no se re q u ie re estim ación
i 2
alguna. P uede en este caso calcularse Z y u tilizarse el cuadro
norm al. Con las a conocidas, n o h a b rá necesidad, p o r supuesto,
d e distin g u ir e n tre los m odelas 1 y 2. Es obvio, sin em bargo, que
los casos en que am bas <r sean conocidas serán extrem adam ente
ra ra s en la investigación p ráctica.

X III.2. Diferencia d e proporciones


Lo m ism o que en el caso de p ru e b as q u e co m p o rtan proporcio­
nes de u n a sola m u estra, la diferencia e n tre dos proporciones
puede tra ta rs e com o caso p a rtic u la r d e la diferencia e n tre dos
m edias. Si com param os dos m u estras aleatorias, independientes,
en relación con las proporciones de personas afectadas de p re­
juicios, podem os fo rm u lar la hipótesis n u la de q u e las proporcio­
nes y p u„, respectivam ente, de p erso n as con p rejuicios son igua­
les en las dos poblaciones. Como q u iera que ya se dem ostró en
el caso de p roporciones que ai = y a2 = \ / p %2q un, síguese
q u e las desviaciones e stá n d a r de las dos poblaciones h an de ser
iguales. P or lo tan to , el siguiente ejem plo se sirve esencialm ente
de los m ism os procedim ientos em pleados en el p rim e r m odelo,
en el caso de la p ru e b a de diferencia de las m edias.
Problem a. Supóngase que se establece u n a com paración a p ro ­
p ó sito de los hábitos de recreación e n tre trab a jad o res de línea
de ensam ble y personas cuyo tra b a jo n o consiste en u n a m era
rep etició n ni se halla su jeto al ritm o de la m áquina. Suponga­
m os que el investigador sospecha que los trab a ja d o re s de línea
d e ensam ble serán m ás propensos a escoger form as de re cre a­
ción del tipo de esp ectad o r "pasivo”. E n u n a m u estra aleatoria
de 150 trab a jad o res de ensam ble en u n a determ in ad a fábrica se
en c u en tra que el 57 p o r ciento dan preferencia a las form as de re ­
creación pasivas. E n u n a segunda m u estra, seleccionada asim is­
m o al azar, el 46 p o r ciento de los trab a jad o res, sobre 120, indi­
can tam b ién p referencia p o r las form as de recreo pasivas. ¿E xiste
al nivel de .05 diferencia significativa alguna en tre am bos grupos?

1. Supuestos.
N ivel de m edición: el tipo de recreación com o dicotom ía
M odelo: m u estreo al azar independiente
H ip ó tesis: pUl = p n (im plica ax = as )

2. D istribución d e m uestreo. Como q u iera que am bas N son


relativ am en te grandes, la distribución de m u estreo de las dife­
rencias e n tre las proporciones será aproxim adam ente norm al, con
la m edia p n - p U2 = 0, y u n a desviación e s tá n d a r d e :

en donde qUl y q „2 son iguales, respectivam ente, a 1 — p H y 1 —

3. N ivel de significación y región crítica. E l problem a especi­


fica que hem os de servirnos del nivel .05. R esulta indicada u n a
p ru e b a de u n a sola cola, ya que la dirección de la diferencia se
anticipa. P o r consiguiente, cualquier v alo r positivo su p erio r a 1.65
in d icará que los resultados son ta n im probables, con dichos su­
puestos, que la hipótesis n u la h a de descartarse.
4. Cálculo d e la estadística de la prueba. Como q uiera que p o r
hip ótesis tenem os p n = p t,2, síguese que Gi = a2 = a, pudiendo em ­
p learse la fó rm u la especial:
¡N i + N 2

A nteriorm ente, en la p ru e b a de proporciones de una sola m ues-


1 Si las muestras son pequeñas, nos servimos de la prueba de Fisher, des­
crita en el capítulo xv.
tra , p u d o p re scin d irse de la estim ación de a, ya q u e el valor de
p u se suponía. Ahora, en cam bio, la hipótesis en u n cia sim plem en­
te que p Ul = p„2, p e ro sin especificar, con todo, cuál sea el valor
re al de estas p roporciones. É sta es la razón de que necesitem os
u n a estim ación com binada del e r ro r e stán d a r. E n lu g ar de b u s­
c a r u n p ro m ed io p onderado de las dos variancias d e las m u estras,
q u e es lo q u e hicim os antes, podem os o b ten er u n a estim ación
lig eram en te m en o r, calculando u n a estim ación com binada ( p u)
d e p u. E n co n tram o s luego qu p o r sustracción. Ya q ue:

o — ~\/PuQu

p odem os p o n e r a = V PuQu
Así, pues

A A , ¡ ¿*1 + N2 ^|a A + Í V 2
C¡ ~ * J Ni
p* i - p*2 “ ° 1 N tN 2 1 1 NiN. (XIIL8)

Con o b jeto d e o b ten er p u, se to m a u n pro m ed io p o n d erad o de


las pro p o rcio n es de las m u estras de la m a n e ra sig u ie n te :
N i PH + N 2p S;¡
P* = --- nJT-TT
± + n t2---- (XIIL9)
O bsérvese q u e el n u m e ra d o r de esta expresión n o es m ás que el
n ú m ero to ta l d e los individuos d e am bas m u estras q u e p refieren
fo rm as de recreació n de tipo pasivo. Así, en el caso de n u estro
ejem plo num érico, obtenem os:
a 150( .57) + 120(.46)
Pu- = .521
150 + 120

P o r lo tan to , qu = 1 — p u = .479
150 + 120
SPn-> .2 = V ( - 5 2 1 ) ( . 4 7 9 ) /
(150)(120)
= (.4996) (.1225) = .0612
Y de ahí que
( P „ , - f t 2) - 0 .5 7 - .4 6
Z= ---------------= _ ü_ _ = 1.80
5. Decisión. Como quiera que con u n a p ru e b a de u n a sola cola
la p ro b ab ilid ad de o b ten er u n valor d e Z igual o m ayor que 1.80
es de .036, siem pre q u e la hipótesis n u la sea efectivam ente co­
rrecta, podem os d e sc a rta r esta hipótesis al nivel de .05. Conclui­
m os, pues, que existe u n a diferencia significativa en relación con
la preferen cia de tipos de recreación pasiva en tre las dos clases
de trab a jad o res d e la fáb rica considerada.
H ay que m en cionar aquí que existen diversas clases a lte rn a ti­
vas de p ru ebas, la m ás im p o rtan te de las cuales es la de la 1 y_ al
cuadrado, que se exam inará en el capítulo xv, que pueden u tili­
za rse en lu g ar de la p ru e b a de la diferencia de las proporciones.
Com o q u iera que, e n efecto, el em pleo de la p ru e b a de la dife­
ren cia de las proporciones está lim itado a dos m uestras y una
variab le dicotóm ica, é sta no re su lta ta n p rá ctica com o la p ru eb a
% al cuadrado, que puede aplicarse lo m ism o a tres o m ás m ues­
tra s . Sin em bargo, u n a de las ventajas de la p ru e b a de la diferen­
cia de las p roporciones es que, m ed ian te m odificaciones adecua­
das, se la puede u tiliza r en el caso de m u estras de áreas o p o r
conglom erados. D esafortunadam ente, las m odificaciones en cues­
tió n n o tienen cabida en el m arco del p re sen te texto.
* Diferencia de diferencias de proporciones. Podem os am p liar
fácilm ente el p rincipio de u n a p ru e b a p a ra u n a diferencia de p ro ­
porciones (o m ed ias) h a sta a b a rc a r u n a diferencia de d iferen­
cias, o incluso u n a d iferencia de diferencias de diferencias. Su­
pongam os, p o r ejem plo, q u e tenem os datos relativos ta n to a
trab a jad o res com o a trab a jad o ras, y que deseáram os co m parar
los sexos en o rd en a la relación e n tre los trab a jo s realizados
y las preferencias recreacionales. Tal vez encontraríam os en el
caso de los h o m bres u n a diferencia ta l com o la que acaba­
m o s de ilu strar, p e ro ninguna en el caso de las m ujeres. O tal
vez la dirección de la diferencia pu ed a re s u lta r co n tra ria e n tre
am bos sexos. A m pliando esta ilustración podríam os d esear agre­
g ar el d ato relativo a las edades. E n tal caso puede concebirse
que ten d ríam o s u n a diferencia de diferencias (e n tre h om bres y
m u je re s) en el caso de los trab a jad o res jóvenes, y u n resu ltad o
d istin to p a ra los trab a jad o res adultos. P uede observarse q u e es­
tam os an ticip an do problem as que ta l vez su rja n cuando m an eje­
m os m ás de dos variables, y cuando las diferentes variables pue­
d an cau sar peculiares efectos com binados. En tales casos se
afirm a que hay "in teracció n ” e n tre las variables, o q u e sus efec­
to s unidos son n o aditivos. E n los capítulos xvi y xx tendrem os
o p o rtu n id ad de estu d ia r con m ás d etalle estos tipos de posibili­
dades.
E n el m uy sencillo ejem plo en el que deseam os co m p arar las
diferencias de proporciones e n tre h om bres y m ujeres, suponga­
m os que p Ul y p „2 re p resen ta n las proporciones de población p a ra
h om bres, com o en el a n te rio r ejem plo. T endrem os entonces dos
pro p o rcio n es sem ejantes, p U3 y p „4 q u e re p re se n ta rá n las m u je­
res, y p o d ríam o s h ac er u n a p ru e b a sim ilar de la hipótesis nula,
ta l como, p a ra las m u je re s p«3 —A,4. P ero podem os p ro b a r asi­
m ism o la h ip ó tesis m ás com pleja de que las diferencias (d e p o ­
b lació n ) p a ra los sexos son tam b ién idénticas. N u e stra hipótesis
n u la p asa así a se r

PH ~ P«2 = Pus ~ PH o ( pn - p u 2 ) - ( p „ a - p ui) = 0

E xp resad o de o tra m an era, estam o s sen tan d o la hipótesis de


que la relación e n tre clase de tra b a jo y p referen cias recreativas
(m ed id a p o r u n a diferencia de p ro p o rcio n es), es igual p a ra am ­
bos sexos. U na hipótesis altern ativ a p o d ría co n sistir en que la
diferencia es m ay o r e n tre los h o m b res que e n tre las m u jeres.
Podem os u tiliz a r de nuevo el p rin cip io de las com binaciones
lineales, p lan tean d o

Y = c xp Sl + c2p S2 + csp ss + c 4p H

E n cu an to a la hipótesis n u la que estam os considerando, h a r e ­


m os c 1 = c 4 = 1 , y c2 = c8 = 1 , re su ltan d o (siem p re que se tra te
d e m u estras seleccionadas indep en d ien tem en te)

E ( Y ) = E ( p , 1 ) - E ( P ''¡) - E ( p , 8 ) + E ( p H )¿=(pUl- p V2 ) - ( . p i,¡i- p ili)

y
P v xQux P«8<7«8 í*«4*7«4
g tt ~ — Nn ------
x 1--------N
¡rr------ 1— t í ------- 1-------- n —
z Ns N4

podem os ya fo rm a r Z, com o sig u e :

( P gl ~ P s2 ) ~ ( P s 3 ~ P H )

Pv,-flnx P«2^,“2 P«g?«3 P«4^f«4


\ ---------- ¡------------ ----------- - H-----------
’ Nx N2 Ns N4

y u s a r el cuadro- n o rm al e n fo rm a directa. Como el denom inador


contiene las incógnitas p u. y qu., podem os estim árselas m ediante
las corresp o n d ientes p 8. y qs., fija n d o conservadoram ente cada
g ru p o com o igual a .5.
Es im p o rtan te a d v e rtir que la expresión p a ra la variancia de Y
com prende c u a tro N t diferentes, las que aparecen com o denom i­
n ad o res en fracciones separadas. Com o q u iera q u e los p ro d u cto s
paiq„i se en c u e n tra n n o rm alm en te cerca del v alor .25, verem os
que el v alo r de cada fracción será p rim o rd ialm en te fu n d ó n del
tam añ o de la su b m u estra. E n u n te rre n o práctico, si hay u n a sub-
m u e stra m uy pequeña, ésta puede d o m in ar la expresión co rres­
p o n d ien te a la variancia de Y , y p o r ta n to tam b ién al denom ina­
d o r d e Z. De esta m an era, y p a ra lo g rar u n m áxim o de eficacia,
desearem os u s a r su b m u estras del m ism o tam añ o aproxim ado. Si
u n a su b m u estra es m uy pequeña, p o d rá n o re s u lta r significativa
la p ru e b a an terio r, p o r razó n de se r g ra n d e el d enom inador de Z,
re su ltan d o ad em ás in ju stifica d a la aproxim ación norm al.
P uede seguirse exactam ente el m ism o pro ced im ien to e n relar
ción con las diferencias e n tre las m edias, p o r ejem plo ( X x — X 2) —
( X 3 — X 4). H abrem os sin em bargo de ap lazar este asu n to h asta
q ue e n el capítulo xvi abordem os las com paraciones generales en­
tre k m edias.

X III.3. In terva lo s de confianza


E n el caso de p ro b lem as de u n a sola m u estra, ya vim os que la
con stru cció n de u n in terv alo de confianza constituye a m enudo
u n p ro ced im ien to m ás p rá ctico que la verificación de las h ip ó te­
sis. E n la investigación social, sin em bargo, los intervalos de con­
fianza ra ra m e n te se em plean com o altern ativ as de p ru e b as de
dos m u estras. La razó n de ello re sid e en que nos in te re sa p o r lo
re g u la r estab lecer la existencia de u n a relació n e n tre dos varia­
bles, esto es, de u n a d iferencia significativa. E n ta n to que in tere sa
m enos, en cam bio, la m ag n itu d efectiva de la diferencia en cues­
tión. E l sociólogo, en efecto, ra ra m e n te t r a ta de sac ar la conclu­
sión d e que la d iferencia e n tre dos m edias se sitú a e n tre 17 y 28,
p o r ejem plo. P o r lo regular, se da p o r satisfecho si e n c u e n tra
alguna diferencia significativa cualquiera. E ste hecho revela in­
d u d ab lem en te la fa lta de m adurez de las ciencias sociales y la
p rep o n d eran cia de los estudios exploratorios. Es posible que, a
m ed id a que las hipótesis se vayan haciendo m ás precisas, aum en­
te tam b ién la n ecesidad de los intervalos de confianza e n los p ro ­
blem as de dos m u estras.
E l pro ced im ien to em pleado p a ra el establecim iento de in terv a­
los de confianza es u n a extensión d irec ta del que se exam inó an ­
terio rm en te. Se to m an sim plem ente los re su ltad o s de las m ues­
tra s, en este caso u n a d iferencia e n tre su s m edias, y se sitú a un
in terv alo alre d ed o r de X t — X¡¡, que sea u n m ú ltip lo adecuado del
e rro r e stá n d a r. Así, p o r ejem plo, si se deseaba u n intervalo de
confianza del 95 p o r ciento, lo o b ten d ríam o s com o sigue:
Si se re q u irie ra u n a estim ación del e rro r e stá n d a r y de la distri­
bución t, la fó rm u la se m odificaría de la m an era usual.

X III.4. M uestras dependientes: pares asociados


E n ocasiones re su lta ventajoso concebir u n estu d io e n el que las
m u estras no sean independientes u n a de o tra. Uno de los tipos
m ás com unes de los problem as de esta clase es aquel en que los
casos de las dos m u estras se h a n asociado p o r pares. Puede h a­
b e r grupos de control y grupos experim entales, en los que los
m iem bros se h ayan apareado desde el p u n to de vista de algunas
características im portantes. O puede em plearse u n sim ple esque­
m a "antes y después”, en el que las m ism as p ersonas se com paran
antes y después de haberse intro d u cid o alguna variable experi­
m ental. E n este últim o caso, las "d o s” m u estras constan de los
m ism os individuos. Es obvio que sem ejantes m u estras n o son in­
dependientes u n a de otra. E n efecto, el conocim iento de las m arcas
de los p rim eros m iem bros de cada p a r (p rim e ra m u e stra ) ayuda­
ría a p red ecir las de los segundos. De hecho, el objeto del aparea­
m iento, o de servirse dos veces de los m ism os individuos, con­
siste en c o n tro la r las m ás variables posibles, a p a rte de la ex­
perim en tal. Se persigue h acer las dos m u estras lo m ás iguales
posibles, o sea m ucho m ás que si se h u b ieran seleccionado inde­
pendientem ente.
E n relación con sem ejantes problem as, el investigador podría
verse ten tad o a u sa r u n a p ru e b a de diferencia de las m edias. Sin
em bargo, h a b ría de ser obvio que este procedim iento n o estaría
justificado, ya que no tenem os 2N casos (N en cada m u e stra ) que
se hayan seleccionado independientem ente. Como q u iera que, en
efecto, las m u estras se h an apareado deliberadam ente, cuales-
q u ier peculiaridades de las m u estras se d arán probablem ente lo
m ism o en la o tra. E n realidad, sólo se tienen N casos indepen­
dientes, siendo cada "caso" u n par de individuos, u n o de cada uno
de las m u estras. P or consiguiente, si trata m o s cada p a re ja de
individuos, com o u n solo caso, podem os legítim am ente proceder
a efectu ar p ru eb as estadísticas, a condición que se cum plan los
dem ás supuestos requeridos. E n lu g ar de efectu ar u n a pru eb a de
diferencia de las m edias, podem os p ro ced er p o r com paración
directa p o r pares, obteniendo u n a m arca de diferencia p a ra cada
par. Si nos servim os de la hipótesis nula de que n o existe dife-
r e n d a alguna e n tre las dos poblaciones, suponiendo así que la
variable experim ental no- produce efecto alguno, podem os esta­
blecer sim plem ente la hipótesis de que la m edia de las diferencias
p o r p ares (¡xfl) es cero. El problem a se reduce así a u n a verifica­
ción de u n a sola m u estra de la hipótesis u0 = 0.
Problema. Supóngase que u n grupo de acción se propone in­
flu ir a los electores urbanos p a ra que voten en favor de unas
p ro p u e sta s de viviendas populares en las próxim as elecciones. Se
ap a rea n cuidadosam ente las ciudades del E stad o en relación con
variables que se suponen se r significativas, y se em plean dos
m étodos d istin to s de e je rc e r influencias so b re los electores. E l m é ­
to d o del g rupo A co m p o rta u n procedim iento in d irecto co nsistente
en in flu ir sobre los elem entos directivos de las ciudades, p ero
sin ap e la r d irectam en te a la m asa. E n las ciudades del g ru p o B ,
en cam bio, la organización actú a com o g ru p o de presión, ape­
lando, com o organización ajena, d irec tam en te al elector. Las ci­
fras siguientes in dican los p o rc en tajes de votos en favor de la
fluorización. ¿E s uno de los m étodos su p erio r al o tro ?

Nám. del par Grupo A, % Grupo.B, % Diferencia, %

1 63 68 5
2 41 49 8
3 54 53 - 1
4 71 75 4
5 39 49 10
6 44 41 - 3
7 67 75 8
8 56 58 2
9 46 52 6
10 37 49 12
11 61 55 —6
12 68 69 1
13 51 57 6
52

1. S u p u esto s
N ivel de m edición: El p o rc en taje de los votos es u n a escala
de intervalo
M odelo: muestreo- aleatorio
diferencias de población d istrib u id as n o rm alm en te
H ip ó te s is : [xD = 0.

H ay q ue su p o n er que los p ares que fig u ran en las m u e stra s


h an sid o seleccionados al azar de alguna población de p ares.
Como se verá m ás abajo, este supuesto p lan tea algunas veces u n
p ro b lem a difícil de in terp retació n . Como q u iera que son las dife­
ren cias de cada p a r las que nos in teresan directam ente, hay q u e
su p o n er que la población de todas las diferencias posibles está
d istrib u id a n o rm alm ente. Si N fu e ra grande, p o d ría p re sc in d irse
de este supuesto.
2. D istribución de m uestreo. Como q u iera que n o se d a la- des­
viación e s tá n d a r de las diferencias de la población, hay que r o
c u rrir a la distrib ución t, con N — 1, o sean 12 grados de libertad.
O bsérvese que éstos re p resen ta n la m ita d de los grados de liber­
ta d que se h ab ría n utilizado si la p ru e b a de la diferencia de las
m edias ( con ai = o2) h u b iera sido posible.
3. N ivel de significado y región crítica. Sirvám onos del nivel
d e .05 y de u n a p ru e b a de dos colas. P or consiguiente, con 12
grados de lib ertad , si t ^ 2.179, descartarem os la hipótesis nula.
4. Cálculo de la estadística de la prueba. P rim ero hallam os la
m edia de las diferencias de la m u estra sum ando las de la colum ­
n a de diferencias y dividiendo en tre N( = 13). Se obtiene adem ás
la desviación e stá n d a r de la m u estra de las diferencias.

X D = 52/13 = 4.0

P o r consiguiente:

Xj) —|A/> 4.0 — 0


= 2.76
sd / \/N - 1 5 .0 2 3 y l2

O bsérvese que u n a vez que se h a obtenido la colum na de dife­


rencia, dejam os de p re s ta r atención a las re sta n te s colum nas.
E ste m ism o p rin cipio es de aplicación en situaciones m ás com­
plejas, en las que p o r ejem plo podem os te n e r u n a diferencia de
diferencias p o r cada par. (V er ejercicio 5.)
5. Decisión. Con 12 grados de lib ertad , u n a p ro babilidad de .02
corresponde a u n a t de 2.681. Decidim os, e n consecuencia, des­
c a rta r la hipótesis n u la y, observando la dirección de la diferen­
cia, concluim os que el m étodo1 B es su p erio r al A.

X III.5. C om entarios a propósito de los esquem as experim entales


y pruebas de significación
Pese a que no sea posible p ro fu n d izar m ucho en u n texto com o
éste en cuestiones de la planificación de experim entos, unos b r e ­
ves com entarios tienen con todo aquí su lu g ar adecuado .2 El lec­
to r po d rá acaso hab erse p reg u n tad o a sí m ism o cóm o sea que
preferíam os siem pre servirnos de m u estras asociadas, en lugar de
m u estras independientes. Indudablem ente, se p ierd e n con aqué-

s Para más detalles acerca de los esquemas experimentales, véase cual­


quier texto corriente sobre métodos de investigación. Véase en particular
[8], capítulo iv.
lias algunos grados de lib ertad y, com o q u iera que el em pleo de
las m u estras asociadas im plica p a r tir los casos p o r la m ita d (e n
relación con la p ru e b a ), ¿es que n o se p ierd e m ás, con ello, de lo
que se gana? Todo esto depende de cuán acertados estem os en
el apaream ien to de los casos. P or supuesto, el o b jeto d e la aso­
ciación e stá en re d u cir las diferencias debidas a variables extre­
m as. E sto significa que u n ap aream ien to cuidadoso debería re­
d u cir considerablem ente cad a u n a de las diferencias p o r pares.
E n o tro s térm in o s: cu an to m e jo r sea el ap aream iento, tan to
m en o r será la desviación e stá n d a r de las diferencias. Así, pues,
si bien el n ú m ero de casos se reduce, la sD debería re d u cirse asi­
m ism o. Si se obtiene u n a fu e rte reducción de la desviación están ­
d a r de las diferencias en relación con la p érd id a de casos, enton­
ces salim os ganando al a p a rea r. Como q u iera que, p o r lo regular
se p e rd e rá n casos en los procedim ientos de apaream iento (véase
infra), la conclusión lógica es la siguiente: n o se apareje, a m e­
nos de e s ta r co m pletam ente seguro de h a b e r localizado las varia­
bles significativas im p o rtan tes. Si el le c to r e stá estu d ian d o la
delincuencia y ap area conform e al color del pelo, se v erá p ro b a ­
b lem en te m ás ap u rad o que si n o a p a re a ra en absoluto.
Los textos sobre m étodos suelen p o r lo re g u la r m encionar el
hecho de q ue es p ro b ab le q u e con el procedim iento de ap a rea­
m ien to se p erd erá u n n ú m ero considerable d e casos. O sea que
h a b rá que elim inar m uchos casos, p o rq u e n o hay casos sim ilares
con los que se d ejen a p a rea r. S em ejante reducción p u ed e resu l­
ta r d esastro sa en el caso del supuesto de la m u estra aleatoria.
E n efecto, u n sociólogo puede eventualm ente p a r tir de u n a m ues­
tr a aleato ria de 1 000 casos y te rm in a r con 200 que se dejen
ap arear. Al p ro ced er así, es pro b ab le que se sesgue fu ertem en te
su m u estra final, elim inando la m ayoría de los casos m ás ex tre­
m os o poco com unes, difíciles, efectivam ente, de ap arear. E n esta
fo rm a re su lta a m enudo difícil d eterm in a r el c a rá c te r de la po­
blación a cuyo p ro p ó sito se está generalizando. P or ello hay que
p ro c ed er con la m ayor p ru d en cia al generalizar los resultados.
P o r lo tan to , este tipo de esquem a es p ro b ab lem en te m ás ú til en
estu dio s en que el in terés p o r generalizar resp ecto de u n a pobla­
ción fin ita concreta, tal com o la de los blancos nativos en Chica­
go, es secundario.
E n conexión con sem ejan te reducción de casos y las dificulta­
des en cu an to a generalizar a u n a población concreta, se sostiene
a m enudo q ue no hay verd ad ero in terés en la población misma*
ya q ue el o b jeto fu n d am en tal del investigador consiste e n esta ­
b lecer "relaciones e n tre variab les”. Así, p o r ejem plo, u n psicólo­
go p u ed e acaso em pezar sirviéndose d e aquellos novatos varones
b lancos que siguen u n cu rso de in troducción a la psicología y se
p re s ta n v o lu n tariam en te com o sujetos de estudio. Puede p ro d u ­
cirse m ay o r m u estreo todavía, a m edida q u e algunos sujetos se
van elim in an d o en el proceso de apaream iento. Supóngase q u e
se en c u en tra entonces u n a relación e n tre la v ariab le experim en­
tal y alguna variable dependiente. Se prop en d erá, en este caso,
a sacar la conclusión que la m ism a relación su b sistiría indepen­
dientem ente de la población estudiada, esto es, concluir que se
tra ta de u n a relación universal. Si ello re su lta efectivam ente ser
así, el sociólogo puede m uy bien a firm a r que no tien e in teré s
alguno p o r ex ten d er la generalización a cierta población fin ita
cualquiera. Pero, ¿sobre cuál base puede su p o n er que la relación
hallad a en u n a población ta n re strin g id a es c ie rta asim ism o en
relación con o tra s poblaciones? O bviam ente, antes de p o d er h acer
legítim am ente sem ejan te afirm ación, el experim ento h a de efec­
tu arse sobre u n gran nú m ero de poblaciones m uy distintas. Pese
a que en u n experim ento' cuidadosam ente d ispuesto se p u ed e
o b ten er el co ntrol de cierto n ú m ero de variables, p rodúcese casi
siem pre u n a p é rd id a co rresp o n d ien te del grado en que los resul­
tados se pued en generalizar a poblaciones m ás extensas.
E n el ag ru pam iento p o r p ares re su lta indicado seleccionar al
azar en el in te rio r de cada p a r echando u n a m oneda al aire p a ra
decidir cuál m iem b ro del p a r deba asignarse al g ru p o experim en­
tal y cuál al g rupo de control. S em ejante p rocedim iento confiere
m ay o r contenido lógico a la in terp re tació n de los resultados, en
el sentido de que cabe excluir la autoselección. Así, p o r ejem plo,
en el in ten to de in flu ir sobre los electores en m a te ria de vivienda
p op u lar, supóngase que se p erm itía a las au to rid ad es locales ele­
gir aquel de los dos tipos de influencia que p re fería n o q u e
creían ib a a re s u lta r m ás eficaz en su localidad p artic u la r. Es
posible, en estas condiciones, que todas o- la m ayoría de las lo ­
calidades con cierto tipo de au to rid ad es fu e ran objeto' del m éto­
do' indirecto, en ta n to que las de o tro tipo' de dirigentes se verían
tra ta d a s p o r el m étodo directo. Tendríam os así u n a variable in­
co n tro lad a (el tipo de au to rid a d es), cuyos efectos se confundirían
irrem ed iab lem ente con los de la variable experim ental. Concre­
tam ente, supóngase que el g rupo B re su ltab a te n e r el p o rc e n ta je
m ás elevado de votos favorables, pero que al p ro p io tiem po dicho
grupo ten ía las autoridades m ás dem ocráticas, debido al hecho
que éstas ten dían a favorecer la aplicación a sus respectivas lo­
calidades del m étodo indirecto. ¿Cóm o podríam os sab e r si la di­
ferencia en la votación se debía efectivam ente a la superioridad
del m étodo B y no, acaso, a las diferencias e n tre las au to rid ad es
de los dos grupos de localidades?
Podría alegarse que el tipo de au to rid ad es h u b o de h ab erse con­
tro lad o en el proceso de apaream iento, de m odo que dos locali­
dades de u no cualquiera de los pares tuviera el m ism o tipo. Sin
em bargo, es obviam ente im posible c o n tro la r en el proceso de
ap aream ien to todas las variables operantes, no sólo debido a difi­
cultades prácticas, sino a causa de n u estro s conocim ientos lim i­
tad o s acerca de cuáles variables son efectivam ente las m ás im ­
p o rtan te s. En algún pu n to habrem os de a d m itir que puede
h ab e r variables im p o rtan tes, m uchas de las cuales el investigador
n o conoce y q u e n o se h an controlado en el proceso de ap a rea­
m iento. Y es p recisam ente en dicho m om ento cuando confiam os
en la selección al azar, o sea en las leyes de la probabilidad, espe­
ra n d o que los efectos d e las variables incontroladas se h ab rán
neu tralizad o m u tu am ente. Así, p o r ejem plo, con una N m ayúscula,
esperam os que, en núm eros redondos, la m ita d de las localidades
de auto rid ad es m ás dem ocráticas h a b rá n quedado en el g ru p o A,
y la o tra m ita d en el grupo B. Y lo m ism o acontecerá con o tras
variables incontroladas.
E n los esquem as experim entales ex p o st facto, en las que el
investigador sólo e n tra en función después de h ab erse efectuado
el experim ento y en las que, p o r lo tan to , n o h a tenido o p o rtu n i­
dad de efectu ar tales asignaciones al azar, la posibilidad de auto-
selección n u n ca puede descartarse. Ni nos ayudan las leyes de las
pro babilidades a a p reciar los efectos de la variable experim ental
e n com paración con los efectos posibles de variables resp ecto de
las cuales los grupos n o se h an apareado. Una de las m ayores
v en tajas de los experim entos de la b o ra to rio sobre los llam ados
" n a tu ra le s”, o ex p o st fació, está p recisam en te en ese control al
azar de la autoselección posible.
Sugiérense a m enudo o tro s m étodos de asociación de m uestras,
a títu lo de altern ativ as del m étodo p o r p ares. P o r lo regular, ta ­
les m étodos altern ativos p re sen tan la v en taja de a te n u a r la re ­
ducción de los casos, p e ro conducen a dificultades cuando* se llega
al análisis estadístico. Uno de dichos m étodos co m porta la aso ­
ciación p o r d istrib uciones de frecuencia. Así, p o r ejem plo, puede
p o nerse atención en que los dos grupos sean sim ilares en relación
con el ingreso m edio, la edad m edia, la distribución general del
ingreso, etcétera. E n esta form a, los grupos re su ltan com pa­
rab les en relación con dichas m edidas de resum en, aunque algún
individuo no tenga en el o tro grupo c o n tra p a rtid a exacta alguna
con la que se lo p u ed a ap a rea r. E n ese tip o de esquem a violam os
claram en te u n a vez m ás el supuesto de in d ep en d en cia; pero, que
el a u to r sepa, n o existe m odo sim ple alguno de servirse de u n a
p ru e b a estad ística que sea a la vez eficaz y no com porte algún
supuesto en entredicho. Se po d rían a p a re a r casos lo m ejo r posi­
b le y p ro ced er com o acaba de indicarse, pero el apaream iento
co nducirá in dudablem ente a u n esquem a inoperante. Sin duda, no
sería legítim o servirse de u n a pru eb a de diferencia d e m edias de
N x + N 2 — 2 grados de libertad.

Pruebas de significación y generalizaciones a poblaciones. Se ha


su scitad o un amplio' d ebate en la bibliografía sociológica en re la­
ción con la adecuación de las pru eb as de significación en aquellas
ocasiones e n q ue u n o tr a ta con la población ín teg ra. (V er espe­
cialm ente [3 ], [7 ], [9 ] y [10].) Puede, p o r ejem plo, co n tarse con
dato s corresp o ndientes a todos los condados o estados de los
E stados Unidos o de u n a región en p artic u la r. Si así ocurre, no
h a b rá u n a población m ás extensa en relación con la cual se desee
generalizar, p u d ien d o ser difícil concebir el p roceso de generali­
zación in volucrando u n a extrapolación a u n universo m ás am plio
de p ro b abilidades, o a estos m ism os casos b a jo circunstancias
análogas. E n este caso re su lta ría n inadecuadas las p ru e b as de
significación, y a que n o h a b ría ím plicito ningún e rro r en el
m uestreo.
La a c titu d que u n o adopte en esta cuestión depende en p rim er
lu g ar de si está satisfecho con generalizaciones a poblaciones fijas,
o si desea sac ar conclusiones acerca del proceso causal que pue­
den h ab e r generado los datos de población. E n este texto hem os
conceptualizado el p ro b lem a com o si n u e stro único objetivo fuese
el de deducir p artie n d o de poblaciones fijas, p e ro es evidente que
cuando deseam os relacionar n u estro s hallazgos con análisis teó­
ricos n u estro s objetivos no son n u n ca ta n sencillos. El problem a
d e sac ar deducciones causales p a rtie n d o de dato s n o experim en­
tales, basados b ien sea en m u estreo s o en la to talid a d de las p o ­
blaciones, es dem asiado com plicado p a ra su exam en en u n texto
elem ental com o éste. Sin em bargo, h ay u n procedim iento p a ra
o b ten er las p ru e b as de significación m ucho m ás com patible con
las explicaciones teóricas en lo que se refiere a p o r qué se h a
h allado u n a relación p artic u la r.
Supongam os, p o r ejem plo, que, hab ien d o u sad o la to talid a d de
los 50 estados, hem os hallad o u n a diferencia e n tre los del n o rte
y los del sur, o b ien en tre los que tienen gobernadores republi­
canos o d em ócratas. N orm alm ente n o nos conform aríam os con
h acer u n a sim ple descripción de tales diferencias, sino que que­
rríam o s o frece r u n a explicación, relacionada ta l vez con las dife­
ren cias regionales o políticas. A dm itam os que hem os advertido
q u e los estad o s del su r gastan u n a p ro p o rció n relativam ente m a­
y o r de su s p resu p u esto s en su p ercarretera s, p e ro m en o r en edu­
cación su p erior. A ntes de q u e podam os h ac er declaraciones acer­
ca de que n u e s tra explicación deberá o rien ta rse a b u sc a r factores
causales d eterm in an tes de esta diferencia regional, habrem os de
p en sa r en u n escéptico hipotético que establezca el planteam ien­
to de u n a sencilla explicación altern ativ a de n u e stro hallazgo,
a sab e r: la “causalidad".
Podría, en efecto, d ecirnos: "A firm a u sted que h a encontrado
u n a diferencia achacable a ca racterísticas regionales. Yo podría
h ab e r utilizado u n a tabla de n úm eros al azar p a ra dividir los 50 es­
tados. O bien, p o d ría haberlos o rd en ad o alfabéticam ente con base
e n la te rc era le tra de sus nom bres. Si yo pudiese p ro b a r que tal
proceso, b asad o o casi basad o en el azar, h u b iera p ro d u cid o u n a
diferencia ta n g ran d e o m ay o r que la suya, re su lta ría que su ex­
plicación n o e ra m ás plausible que la m ía.”
O bsérvese que aquí n o se h ab la de u n a generalización a una
población m ay o r que la to ta l de los 50 estados. El argum ento gira
a lre d ed o r de los procesos que pueden h a b e r generado diferencias
e n tre subpoblaciones o rdenadas de d istin tas m aneras. Es eviden­
te q ue si h ubiese sido posible o b ten er diferencias ta n grandes
com o las diferencias regionales al h acer uso de u n a ta b la de n ú ­
m ero s elegidos al azar, y siendo la teoría del escéptico m ucho
m ás sim ple que la n u estra , n o te n d ría o b je to ad e n trarse m ás en
ios datos. Si adoptam os este p u n to de v ista en relación con el
p ro ceso de la generalización, tiene sentido el h ac er p ru e b as de
significación, incluso cuando se cuente con datos correspondien­
tes a la to talid a d de la población. P arecería com o si la m ayoría
de los sociólogos tu v iera p re sen te este m ás am plio objetivo,
o rien tán d o se a d ecir algo acerca de los procesos causales, y p o r
ello p la n te a ra n p ru e b as dirigidas a elim in ar la altern ativ a del
sim ple “proceso casu al”. Sin em bargo, debe in sistirse que la
p ru e b a de significación n o excluye m uchas o tra s clases de expli­
caciones altern ativas, ta l com o la que, p o r ejem plo, in tro d u ce
v ariab les adicionales com o causas com unes de las dos variables
b a jo estudio. E n el cap ítu lo xix volverem os a este, m ás dificulto­
so, problem a.
E je r c ic io s

/. Se seleccionan al azar 50 distritos electorales en una ciudad. Se en­


cuentra que 20 de ellos están atendidos por centros de la localidad,
en tanto que los restantes no lo están. Se comparan los porcentajes de
delincuencia en esos dos tipos de distritos y se obtienen los siguientes
datos (que se indican en el núm ero de delincuentes por 1000 adoles­
centes ):

Medida Con centro Sin centro


Magnitud de la m uestra 20 30
Media 27 31
Desviación estándar(es) 6 8

Efectúese una prueba de significación de la diferencia entre los dos


tipos de distritos (nivel de .0 1), sirviéndose a) del modelo 1 , y b) del
modelo 2. ¿Cómo se presentan unos respecto de otros los resultados?
Respuesta, a) t = 1.87; no rechazo.
2. Una m uestra al azar de mujeres casadas que siguen viviendo con
sus m aridos ha sido objeto de selección, clasificándose a las mujeres
en ''satisfechas” o "insatisfechas” con sus respectivas vidas maritales.
Se comparan luego los dos grupos de mujeres en relación con el tiem­
po de sus matrimonios, con los siguientes resultados:
Tiempo del matrimonio Satisfechas Insatisfechas
(redondeado al año) fi ^2
0-2 34 10
3-4 41 16
5-9 50 23
10-14 39 25
15-19 18 14
20-39 15 16
Total 197 104

¿Existe alguna diferencia significativa entre estos dos grupos al ni­


vel de .01?
5. Supóngase que se espera encontrar que la diferencia entre los in­
gresos medios anuales de m uestras de médicos y dentistas sea de unos
$500 (esto es, X t — X 2 = 500). Se aprecia que las desviaciones están­
dar son respectivamente de $ 1 900 y $ 1 600. Se planea seleccionar en
la m uestra total el mismo número de médicos que de dentistas. ¿Cuán­
tos casos se necesitarán para establecer significación entre los ingre­
sos medios de doctores y dentistas al nivel de .05? Supóngase que se
quiere tom ar un núm ero doble de médicos que de dentistas. ¿Cuántos
casos se necesitarán en este últim o supuesto? Respuesta, .95 de cada
uno.
4. Se ha clasificado una m uestra aleatoria de estudiantes universi­
tarios como "dirigidos por otros” y "dirigidos por sí mismos”. Se en­
cuentra que el 58 por ciento de los alumnos avanzados son dirigidos
por otros, en tanto que pertenece a esta categoría el 73 por ciento de
los alumnos novatos. En la m uestra total figuran 117 alumnos avan­
zados y 171 alumnos novatos. ¿Es esta diferencia significativa al nivel
de .001?
* 5. Supóngase que se ha dispuesto un experimento de antes —y—
después con grupo de control. En otros térm inos: se han relacio­
nado dos grupos por pares y se han tom ado medidas de ambos grupos

Grupo de control Grupo experimental


Par ---------------------------- ---------------------------
Antes Después Antes Después
A 72 75 66 77
B 61 60 61 65
C 48 37 43 49
D 55 64 55 53
E 81 76 76 91
F 50 59 52 68
G 42 49 40 51
H 64 55 65 74
I 77 75 67 79
J 69 78 64 63
antes y después del experimento. Empléese la prueba t en relación
con la efectividad de la variable experim ental: a) sirviéndose solamen­
te de las m arcas de “después" e ignorando las de “antes” ; b) emplean­
do las m arcas "antes” y “después” en el grupo experimental única­
mente, y e ) utilizando los cuatro juegos de marcas. (Indicación: ¿Cómo
pueden emplearse las cuatro m arcas para descartar los efectos sobre
la variable experimental de factores ajenos susceptibles de haber afec­
tado ambos grupos? Compárense las ventajas y los inconvenientes de
los métodos a) y b). ¿Cuáles son las ventajas de c) respecto de a) y
b)7 Respuesta, a) t = 1.25, sin rechazo.
* 6. En el cuadro XV.4 del capítulo xv se encontrarán algunos datos
relacionando las puntuaciones que los niños reciben por su habilidad,
esfuerzo y clase social.
a) Teniendo en cuenta tan sólo la clase media, hágase una prueba
para ver si la relación entre esfuerzo y grado varía según el nivel de
habilidad del estudiante.
b) Amplíese esta prueba para ver si la "interacción” probada median­
te a ) difiere según sea la clase social del estudiante.
Nota: En realidad, en b) se estará buscando una interacción de una
interacción, o lo que se denomina una interacción de segundo orden.

B iblio g rafía

1. Alder, H. L., y E. B. Roessler: Introduction to Probability and


Statistics, 4? ed., W. H. Freeman and Company, San Francisco,
1968, caps. 8 y 10.
2. Downie, N. M., y R. W. Heath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incoiporated, Nueva York, 1965,
caps. 11 y 12.
3. Gold, David: “Statistical Tests and Substantive Significance",
American Socialogist, Vol. 4 pp. 42-46, 1969.
4. Goodman, L. A.: “Modifications of the Dom-Stouffer-Tibbetts Me­
thods for ‘Testing the Significance of Comparisons in Sociolo-
gical D a ta '”, American Journal of Sociology, Vol. 66, pp. 355-359,
1961.
5. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 19.
6. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 10.
7. Kish, Leslie: “Sootne Statistical Problema in Research Design",
American Sociological Review, Vol. 24, pp. 328-338, 1959.
8. Selltiz, C., M. Jahoda, M. Deutseh y S. W. Cook: Research Me­
thods in Social Retations, Henry Holt and Company, Inc., Nueva
York, 1959, cap. 4.
9. Selvin, H. C„ "A Critique of Tests of Significance in Survey Re­
search", American Sociological Review, Vol. 22, pp. 519-527, 1957.
10. Winch, R. F., y D. T. Campbell: “Proof? No. Evidenee? Yes. The
Significance of Tests of Significance", American Sociologist, Vol.
4, pp. 140-143, 1969.
X IV . ESCALAS O R D IN A L E S : PR U E B A S NO
PA R A M ÉTR IC A S D E DOS M U E ST R A S

H a s t a aq u í n o hem os tenido ocasión de exam inar pru eb as de sig­


nificación que co m p o rtaran escalas ordinales, p ese a h a b e r seña­
lado en el capítulo n que éstas son m uy frecuentes en ciencias
sociales. E n el p resen te capítulo vam os a ocuparnos de pruebas
de dos m u estras que pueden em plearse con escalas ordinales,
p ru eb as com parables d irectam ente con las que co m p o rtan dife­
rencias de m edias y proporciones, tales com o las vim os en el ca­
p ítu lo an terio r. P o r lo tan to , las pru eb as exam inadas en este
capítulo pued en em plearse p a ra relacio n ar variables de escala o r­
dinal con las que co m portan u n a escala nom inal dicotóm ica. E n
los capítulos sucesivos verem os luego pru eb as que p erm iten re ­
lacionar u n a escala o rdinal con u n a escala nom inal de cualquier
nú m ero de categorías o con o tra escala ordinal.
Las p ru e b as que se exam inan en el p re sen te cap ítu lo se desig­
n an a m en u d o com o no param étricas, o com o p ru e b as libres de
distribución, p o r cu an to no re q u ie ren el su puesto de u n a pobla­
ción norm al. E n realidad, ta n to u n térm ino com o el o tro son algo
equívocos. Ñ o querem os significar, en efecto, que com portan dis­
tribuciones las p ru e b as que n o tienen p arám etro s. Ni puede es­
ta r u n a p oblación “libre d istribución''. De hecho, am bos térm i­
nos se em plean p a ra designar u n a v asta categoría d e pruebas
que n o re q u ie ren el su puesto de n o rm alid ad n i algún o tro supues­
to que especifique la fo rm a exacta de la población. Sin duda, en
todas las p ru e b as n o p aram étrica s se req u ieren algunos supues­
tos acerca de la n aturaleza de la población, p ero p o r lo general,
con todo, dichos supuestos son m ás débiles y m enos restrictiv o s
q u e los que n ecesitan las p ru e b as param étricas. P o r lo dem ás, ya
nos hem os en c o n trad o con algunas p ru eb as n o param étricas. Así,
p o r ejem plo, la p ru e b a binom ial, la del signo y la de diferencia
de p roporciones n o req u ieren el su p u esto de norm alidad, ya que
todas ellas se refiere n a escalas nom inales dicotóm icas. A dife­
ren cia de estas p ru e b as no p aram étrica s p artic u la res, aquellas de
las que nos ocupam os en este capítulo com portan todas ellas
escalas ordinales, lo que p e rm ite servirse de u n nivel de m edición
algo m ás alto. E n el siguiente capítulo se exam inarán dos p ru e ­
bas no p aram étrica s adicionales, que sólo com portan, u n a y otra,
escalas nom inales.
¿Cuál es la v e n ta ja de las p ru e b as n o p aram étricas e n com pa­
ració n con u n a p ru e b a tal, p o r ejem plo, com o la de la diferencia
de las m ed ias? Al servim os de la p ru e b a t en relación con una
p ru eb a de diferencia de m edias, vim os que era indispensable ser­
vim o s n o sólo de u n a escala de intervalo, sino tam bién de una
256
población norm al. Sin duda, podría prescindirse del supuesto de
norm alid ad en el caso de m u estras grandes, pero alegábase, con
todo, que precisam ente cuando las m u estras son pequeñas el
sup u esto de norm alidad re su lta m ás dudoso. P or consiguiente,
esperarem os e n c o n trar que las alternativas no p aram étricas de
la p ru eb a de la diferencia de las m edias sean m ás útiles siem pre
que se dé u n a de las dos condiciones siguientes: 1) que no po­
dam os servirnos legítim am ente de una escala de intervalo, pero
estan d o justificado, con todo, el ordenam iento de las m arcas, o 2)
que la m u estra sea pequeña y la n o rm alidad no pueda p re su m ir­
se. Como q u iera que estas pruebas no p aram étricas com portan
supuestos m ás débiles que la p ru e b a de la diferencia de las me­
dias, pueden acaso n o sac ar provecho de toda la inform ación
disponible. Así, pues, si p u ed e em plearse legítim am ente u n a es­
cala de intervalo y si el supuesto de n orm alidad puede h acerse
en el caso de m u estras pequeñas o ab andonarse en el caso de las
grandes, la p ru e b a de la diferencia de las m edias será p o r lo
general p referib le a las pru eb as no p aram étricas.
¿E n qué sentido podem os decir que u n a p ru e b a sea preferible
a o tra? ¿Cuáles criterios se em plean p a ra a d o p ta r sem ejante deci­
sión? E n p rim e r lugar, com o ya se indicó anteriorm ente, si u n a
p ru e b a nos im pone ciertos supuestos dudosos que n o se dejen
verificar en sí m ism os, n o será tan satisfac to ria com o la que no
nos los im ponga. Si todas las dem ás condiciones fu eran iguales,
lo que p rácticam ente n u n ca ocurre, escogeríam os siem pre la
p ru e b a que re q u irie ra los supuestos m ás débiles. Y si los resu l­
tad o s de la p ru e b a aconsejaran descartar, podríam os tan to m ás
fácilm ente co n siderar la hipótesis nula com o único supuesto fal­
so. P o r desgracia, sin em bargo, el problem a no es tan sencillo.
Si lo fuera, en efecto, siem pre nos serviríam os de procedim ientos
n o p aram étricos. R esulta p o r lo regular que la prueba que re­
q u iere supuestos m ás firm es es tam bién m ás fuerte, en el sentido
que su em pleo co m porta un riesgo in ferio r de e rro r de tipo II.
Tenem os, pues, dos criterio s que actúan en sentidos opuestos y
h an de evaluarse en consecuencia. O sea que las pruebas no p a ­
ra m étricas req uieren supuestos m ás débiles, p ero son m enos
fu ertes. O btendrem os u n a idea m ás clara de lo que se entiende
p o r supuestos “fu e rte s” y "débiles” cuando lleguem os a las p ru e ­
b as concretas no p aram étricas que pueden utilizarse com o alte r­
nativas de la p ru eb a de la diferencia de las m edias. Antes, sin
em bargo, hem os de exam inar la cuestión de cóm o se ap recia la
fu erza relativ a de u n a prueba.

*XIV .l. Fuerza y eficiencia de la fuerza


La fuerza de u n a p ru e b a se define com o 1 — (probabilidad de
e rro r de tip o II), o sea com o 1 — (3. Así, pues, la fuerza de u n a
p ru e b a es in v ersam en te pro p o rcio n al al riesgo de d e ja r de des­
c a rta r u n a h ipótesis falsa. C uanto m ás capaz es u n a p ru e b a de
elim in ar falsas hipótesis, ta n to m ayor es su fuerza relativa. Como
ya se indicó, es m u ch o m ás difícil a p re c ia r el riesgo d e e rro r de
tip o I I que de tip o I. P a ra ello, en efecto, n o sólo hem os de co-

F ig . X IV .l. Funciones de pótemela para pruebas de dos colas, con


a = .05, para m u e stra s de tam año variable. ( Con la autorización
de W. J. Dixon y F. J. Massey, "In tro d u ctio n to S tatistical A na-
lysis", M cGraw-Hill Book Com pany. N ueva York, 1957,
fig. 14.6, p. 252.)

n o cer la fo rm a exacta de la población, sino que hem os de sab er


tam b ién el g ra d o en que el p a rá m e tro tom ado com o hipótesis
difiere del v erd ad ero valor. E n o tro s térm in o s: la p ro b ab ilid ad
de u n e rro r d e tip o II, y con ella la fu erza de la pru eb a, d e ­
p en d e de cuál hipótesis altern ativ a sea efectivam ente correcta.
P o r estas razones, de hecho, ra ra m e n te calculam os en la inves­
tigación aplicada las probabilidades de e rro re s del tip o II. Sin
em bargo, com o ya se d ejó e n tre v e r an terio rm en te, la fuerza de
u n a p ru e b a h a de em p learse al ap re c ia r su eficiencia relativa.
P ueden h acerse v arias p ru e b as altern ativ as que com porten el
m ism o riesgo d e e rro r de tipo I. Nos servim os, pues, de los ries­
gos relativos d e com eter erro re s d e tip o II p a ra seleccionar u n a
p ru e b a que sea la m ás ap ro p iad a en u n d eterm inado co n ju n to de
condiciones. Si b ien el p ro b lem a d e d e te rm in a r la fuerza de u n a
p ru e b a es b a sta n te com plejo y v a m ás allá del p ro p ó sito del
p re sen te texto, podem os in d icar con todo, de m odo general, lo
q u e sem ejan tes com paraciones com portan. P a ra ello necesitam os
in tro d u c ir la noción de la función de la fuerza.
La fo rm a general de u n a función de la fuerza p a ra u n a p ru eb a
d e dos colas p u ed e verse en la fig u ra X IV .l. S em ejan te función
nos da la fu erza de u n a p ru e b a en relación con la s d istin tas a lte r­
nativas co rrectas posibles de la H 0. O e n fo rm a m ás c o rre c ta :
supóngase que hem os tom ado com o hipótesis u n determ inado
v alor [Xq p a ra la m edia de la población. Supóngase, sin em bargo,
que la v erd ad era m edia de la población se sitú a en realidad a dos
erro res están d a r de la m edia de la hipótesis. Es obvio, en este
caso, que H 0 es fa lsa y debería descartarse. Como q u iera que la
fu erza de u n a p ru e b a es 1 — ¡3, dicha fuerza nos da en realidad
la pro b ab ilid ad de descartar H 0 cuando ésta es falsa. Y esta ú lti­
m a p robabilidad, y n o la probabilidad de e rro r, nos es d ad a p o r
el alto de la curva. Si la v erd ad era m edia se sitú a a dos e rro ­
re s e stá n d a r de [Xo, la probabilidad de d e sc a rta r H 0 puede d eter­
m in arse hallando la a ltu ra de la curva, en dicho punto, en el eje
de las X . Así, pues, los valores a lo largo del eje de las X indican
los valores correctos posibles de [x, en ta n to que los del e je de las
Y in d ican las p robabilidades de d e sc a rta r H 0.
O bsérvese q ue si el v alor correcto de la m edia es efectivam ente
(jo (y q ue p o r lo ta n to com eteríam os e r ro r descartando H 0), la
a ltu ra de la función de la fuerza viene dada p o r el nivel d e signi­
ficación de la p ru eb a. ¿P or qué? O bsérvese asim ism o q u e si el
v alo r co rrecto de [x n o queda dem asiado d istan te de (Xo, la fuerza
de la pru eb a, según la indica la a ltu ra d e la curva, es m en o r que
e n el caso en que el verd ad ero valor es to talm en te d istin to de (Xo-
E sto nos dice que n u estro riesgo de e r ro r de tip o II es relativa­
m en te grande cuando el valor tom ado com o hipótesis no queda
d em asiado lejos del valor correcto, p ero que, si nos hem os ap a r­
tad o del blanco en u n grado considerable, tendrem os u n a p ro b a­
b ilid ad m ucho m ayor de d esc artar n u estra s hipótesis falsas. E sto
co n cu erd a con el arg u m en to intuitivo que form ulam os a n te rio r­
m en te en conexión con la binom ial. Y corresponde asim ism o a
n u estro s intereses prácticos. En efecto, si n u e stra hipótesis nula
es casi co rrecta, n o nos preocupa m ucho que dejem os de descar­
tarla , pese a que, desde el p u n to de v ista técnico, estem os en
e rro r al p ro ced er en esta form a. Cuando H 0 es sustancialm ente
in co rrecta nos in te re sa v erdaderam ente d escartarla.
* P a ra g en erar la a ltu ra de la función de fuerza en cualquier
p u n to dado situ ad o en el eje horizontal, necesitarem os e s ta r lis­
tos p a ra su p o n er la fo rm a que tenga la distribución del m uestreo.
E n este caso p a rtic u la r suponem os que la distribución del m ues­
tre o de X es Ñ o r (¡x, a2/N ) . Si la m edia verd ad era de [x se en­
c u e n tra a la d erecha de la m edia su p u esta [x0. com o aparece e n la
fig u ra XIV.2, la distribución real del m u estreo (a lred ed o r de ¡x)
se h allará a la d erecha de la d istribución supuesta del m ism o
(a lred ed o r de j x o ) . U sam os desde luego la distribución supuesta
del m u estreo p a ra d eterm in a r la región crítica, ya que descono1-
cem os la jx verd adera. Supongam os que la región crítica re su lta
se r el grupo de X m enores que a p e ro m ayores que b. P ara de­
te rm in a r la fu erza de la p ru e b a debem os evaluar la probabilidad
real de caer d e n tro de la región crítica, p u esto q u e la m edia ver­
d ad era es (x y n o ¡xo- E sto se logra calculando la superficie som ­
b re a d a colocada bajo la distribución real de la m uestra, situada
en el d iag ram a a la izquierda de a y a la derecha de b. Vemos que
cuando ¡i y {x0 e stán alejadas, dicha superficie es casi la unidad,
p e ro cuando [x y fx0 e stán m uy próxim as se aproxim a a a (p o r
ejem plo .05), en su lím ite m ás bajo.

F ig . XIV.2. Derivación de la fuerza com o función de (¡x — (x0).


Con o b jeto de d a r u n a indicación m e jo r de cóm o se em plean en
realid ad las funciones de la fuerza, podem os c o m p arar la función
de la fu erza de u n a p ru e b a de dos colas (fig u ra X IV .l) con las de
algunas de u n a sola cola. Supongam os, u n a vez m ás, que H 0
p red ice que la v erd ad era m edia es [x0. O bsérvese la p ru e b a de una
sola cola en la que nos hem os servido com o región crítica de la
cola su p erio r o positiva. Si el v erd ad ero v alo r de ¡x es efectiva­
m en te m ayor que ¡x0, la m ayoría de las m edias de la m u estra
sacadas de la p oblación serán tam b ién m ayores que fxo, y ten d re­
m os m ayores p ro b ab ilid ad es de te rm in a r en dicha región crítica
de u n a sola cola que si nos hu b iéram o s servido de u n a p ru e b a de
dos colas al m ism o nivel de significación. E n otros té rm in o s : si
¡x queda efectivam ente a la d erecha de ¡xo, tenem os m ayores p ro ­
babilidades de d e sc a rta r H„ con u n a p ru e b a de u n a sola cola en
dicha dirección. E sto significa, p o r supuesto, que la fuerza de
esta p ru e b a p a rtic u la r de u n a sola cola será m ay o r p a ra valores
de [x en dirección positiva. P ero supóngase que el verdadero va­
lo r de [x qu ed a en realidad a la izquierda de ¡x0. E n tal caso, la
m ayoría de las X qu ed ará a la izq u ierd a de }Xo, y m uy pocas de
ellas caerán en la región crítica del extrem o opuesto' (o positivo)
del continuo. E n este caso, p o r consiguiente, n o estarem o s p rá c ­
ticam en te n u n ca en condiciones de d e sc a rta r H 0, y la fuerza de
la p ru eb a de u n a sola cola será efectivam ente m uy débil. Y es
obvio que el tip o opuesto de m odelo se p ro d u c irá en el caso
de p ru e b as de u n a so la cola con regiones críticas e n las colas in­
feriores 01 negativas.
Las funciones de la fuerza de p ru e b as de u n a y de dos colas
p u ed en co m p ararse com o en la figura XIV.3. E n resum en, vem os
que la p ru e b a de u n a sola cola será m ás fu e rte que la co rrespon­
diente de dos colas (sirviéndonos del m ism o nivel de significa­
ción) p a ra altern ativ as q u e se h allan en dirección d e la región
crítica, p ero será m ucho m enos fu e rte si el p a rá m e tro qu ed a en
realid ad en dirección o p u esta a la q u e se anticipó. P o r consi­
guiente, el riesgo de e r ro r de tipo I I es considerable si se efectúa
u na, p ru e b a de u n a cola y se y e rra al an tic ip a r la dirección. En
ta l caso, los datos tam poco pu ed en em plearse de cualquier m odo
p a ra apoyar la teoría. P or lo tan to , p ro b ab lem en te no se ten ­
d rá in teré s alguno en seg u ir ad elan te con la p ru e b a, a m enos que,
con fines de exploración, se q u iera av eriguar si u n a teo ría to ta l­
m en te o p u esta te n d ría o no m érito alguno.

Fig. XIV.3. C om paración de funciones de potencia para pruebas


d e una y dos colas, con a — .05. a ) Rechace si Z > 1.645. b ) R e­
chace si Z < —1.645. c) Rechace si Z > 1.96 o si Z < —1.96. (Con
la au torización de W. J. Dixon y F. J. M assey, " In tro d u ctio n to
S ta tistical Analysis'', McGraw-Hill B ook Com pany. N ueva Y ork,
1957, fig. 14.5, p. 249.)

Al co m p arar las p ru e b as de u n a y de dos colas, hem os visto


q ue u n a p ru e b a d eterm in a d a p u ed e se r m ás fu e rte e n relación
con ciertas altern ativ as y m enos fu e rte e n relación con o tras.
E n térm in o s generales, esto puede o c u rrir tam b ién al co m p arar
dos clases m uy d istin ta s de pruebas. Así, p o r ejem plo, no ta rd a ­
re m o s en v er que u n a p ru e b a no p a ra m é tric a p a rtic u la r puede
se r m ás fu e rte que o tra e n u n determ inado con ju n to de circuns-
ta n d a s , p ero m enos en otras. Es este hecho lo que hace que sea
difícil d esa rro llar generalizaciones relativam ente sim ples a p ro ­
p ó sito de la su p erio rid ad de u n a p ru e b a resp ecto de o tra. Y la
situación se com plica adem ás p o r el hecho de que u n a p ru eb a
po d rá ser fu e rte en relación con m u estras grandes, p e ro relativa­
m en te m enos e n el caso de m u estras pequeñas. P or supuesto, la
fu erza de cu alquier p ru e b a determ in ad a au m en ta rá con el tam año
de la m u estra, ya que p a ra cualquier nivel de significación d eter­
m inado el au m en to del tam año de la m u estra hace posible des­
c a rta r la hipótesis n u la con m enores desviaciones resp ecto de los
valores anticipados. H em os visto, p o r ejem plo, que el e rro r es­
tá n d a r de la m edia decrece a m edida que crece N y que, p o r con­
siguiente, a m edida que N aum enta, 1a. m edia de la m u estra ha
de q u ed ar m ás cerca del valor tom ado com o hipótesis p a ra que
podam os re te n e r H 0. Lo que decim os, pues, es que podem os des­
c a rta r m ás fácilm ente u n a hipótesis falsa cuando N es grande.
S in em bargo, au n q u e la fuerza de u n a p ru e b a p u ed a au m en ta r al
au m en tar N, la tasa del aum ento de fuerza puede n o se r la m is­
m a p a ra to d as las pruebas. P or lo tan to , u n a p ru e b a de fuerza
relativam ente débil con u n a N peq u eñ a puede acaso "alcanzar”
a otra, de m odo que la p rim era sea en realid ad m ás fu e rte en el
caso de m u estras grandes.
Con o b jeto de co m p arar la fuerza relativ a de dos pruebas, po­
dem os p re g u n ta rn o s cuántos casos se n ecesitarían con la prim era
p a ra o b ten er la m ism a fuerza que con un n ú m ero determ inado
de casos de la segunda. P or lo re g u la r com param os la fuerza de
u n a p ru e b a d eterm in ad a con la de la altern ativ a m ás fuerte. En
el caso de las tre s p rim eras pru eb as n o p aram étricas exam inadas
en este capítulo, la altern ativ a m ás fu e rte será la p ru e b a t p ara
la diferencia de las m edias. Se em plea com únm ente el térm ino
de eficiencia d e la fuerza p a ra designar la fuerza d© tina p ru eb a
determ in ad a en relación con su altern ativ a m ás fu e rte. Si desig­
nam os la eficiencia de la fuerza de u n a de dichas pru eb as no pa­
ra m étricas com o del 95 p o r ciento, querem os decir que la fuerza
de la p ru eb a n o p aram étrica sirviéndose de 100 casos es aproxi­
m adam ente la m ism a que la de la p ru e b a t sirviéndose de 95
casos, si el m odelo em pleado en la prueba t as correcto.
Como q u iera que es necesario su poner u n a d eterm in ad a form a
de la población p a ra p o d er evaluar la fuerza de u n a prueba, nos
im aginam os, en la ilustración an terio r, que tenem os en realidad
u n nivel de m edición de escala d e intervalo y que las dos pobla­
ciones son n orm ales en cuanto a la form a. Al d eterm in a r la efi­
ciencia de la fuerza de la p ru eb a no' param étrica, nos estam os
fund am en talm ente p reguntando a nosotros m ism os cu án to nos
co stará el d e ja r de acep tar el supuesto de no rm alid ad si sem e­
ja n te supuesto- fu e ra de hecho legítim o. Aquí vem os que el hecho
de d e ja r de a c e p ta r dicho supuesto y n u estro em pleo consecuen­
te de la p ru e b a n o p a ra m é tric a nos co staría cinco casos ad icio ­
nales p o r encim a de los 95 utilizados en la p ru e b a de la d iferen­
cia de las m edias. Con u n a p érd id a de eficiencia ta n pequeña, es
p ro b a b le que seguiríam os adelante con la p ru e b a n o p aram étrica
si tuviéram os la m en o r duda respecto de los supuestos req u erid o s
p o r aquélla. P o r o tra p a rte , si la eficiencia de la fuerza sólo fuera
del 60 p o r ciento y si los alejam ientos re sp ecto de la no rm alid ad
no fu eran demasiado* gran d es (o si N fu e ra gran d e) nos serv iría­
m os p ro b ab lem en te de la p ru e b a de la d iferencia de las m edias.
Como ya se indicó en el cap ítu lo precedente, cuando las
m u estras son pequeñas necesitam os p reo cuparnos m ás p o r el
su p u esto de n o rm alidad. E n el caso de N peq u eñ a n o será p o r
lo re g u la r posible tra d u c ir enunciados de eficiencia de la fuerza
en com paraciones de tam añ o s exactos d e m u estras, y a que estas
ú ltim as cantidades h a n de se r siem pre en teras. Así, p o r ejem plo,
con 95 p o r ciento de eficacia, u n a m u e s tra de tam añ o 10 q u e se
sirv iera de la p ru e b a n o p ara m é tric a sería equivalente de form a
ap ro x im ad a a u n a de 9.5 que se sirviera de la p ru e b a t. Pese a que
sem ejan te en unciado n o tenga sen tid o desde el p u n to de vista
operacional, ayuda, p o r lo m enos, a estab lecer com paraciones.
Antes de te rm in a r e sta sección, conviene re c o rd a r u n a vez m ás
q ue la eficiencia de la fuerza de u n a p ru e b a d eterm in ad a puede
d ep en d er del tam añ o de la m u e stra seleccionada. P uede se r m uy
eficaz en relación con m u estras pequeñas, p e ro m ucho m enos efi­
caz e n el caso de m u estras grandes.

XIV.2. La prueba de las secuencias (ru n s ) d e W ald-W olfow itz


E n la p ru e b a de las secuencias, así com o en las o tras dos p ru e ­
b as q u e se ex am inarán en este capítulo a continuación, supone­
m os que tenem os dos m u estras alea to rias independientes y que
el nivel de m edición es p o r lo m enos u n a escala ordinal. E n las
tre s p ru eb as en cuestión, n u e s tra h ip ó tesis n u la será que las dos
m u estras se h an e x tra íd o de la m ism a población co n tin u a (o de
poblaciones id én ticas). La dim ensión subyacente se su p o n d rá se r
continua, y n o d iscreta, aunque adm itam os que puedan re s u lta r
datos ligados e n tre sí, debido a la im perfección del in stru m e n to
d e m edición. La hipótesis de que las dos m u estras se h ayan to­
m ad o de la m ism a población es en re alid ad m uy sim ilar a n u es­
tro su p u esto en la p ru e b a de la d iferencia de las m edias. E n
efecto, com o ya se indicó an terio rm en te, cu an d o ju n tam o s los su ­
p u esto s de norm alidad, de, variancias iguales y de m edias ta m ­
b ién iguales, suponem os en realidad que las dos poblaciones son
idénticas. E n el caso de la p ru e b a d e las secuencias, ponem os la
h ip ótesis de q ue las dos poblaciones p re se n ta n exactam ente
la m ism a fo rm a y p u ed e n p o r consiguiente to m arse como* iguales.
Sin em bargo, no necesitam os especificar la n atu raleza d e dicha
form a. É sta p o d rá s e r norm al o no serlo. P or lo tan to , hacem os
u n con ju n to de supuestos m ás débil que el que se requiere en la
p ru eb a de la diferencia de las m edias, o sea, m ás débil en el sen­
tido de que la p ru e b a de la diferencia de las m edias ( con o igua­
les) req u iere todos los supuestos de la pru eb a de las secuencias,
con el supuesto, adem ás, de n orm alidad y el em pleo de u n a esca­
la de intervalo.
En la p ru eb a de la diferencia de las m edias n u estro interés se
ce n tra en diferencias de la tendencia central m ás que en las
diferencias de dispersión o- de form a. La p ru e b a de las secuen­
cias, en cam bio, verifica esencialm ente todas esas posibles dife­
rencias sim ultáneam ente. Como verem os en seguida, su em pleo
p rincipal está en la verificación de diferencias de dispersión o de
form a, ya que, p a ra la verificación de diferencias de la tendencia
central, h ay p ru eb as no p aram étricas m ás eficaces. Obsérvese,
de paso, que la hipótesis n ula se h a establecido e n térm inos de
m edias o de desviaciones están d ar, sino- m ás bien en térm inos
de diferencias cualesquiera. Eso se aplica tam b ién a las pruebas
no p aram étricas a exam inar en el p resen te capítulo. Con las es­
calas ordinales no tiene sentido, p o r supuesto, p en sa r en térm inos
de m edias y de desviaciones están d ar.
El principio básico im plicado en la p ru e b a de las secuencias es
m uy sencillo, lo m ism o que los cálculos. Tom am os p rim ero los
datos de am bas m u estras y ordenam os los datos de los m ás al­
tos a los m ás bajos, prescindiendo1 de que provienen de m u estras
d istintas. Si la hipótesis nula es correcta, confiam os en que las
dos m u estras e starán bien m ezcladas. En otros térm in o s: no con­
tam os con u n a gran serie de datos de la p rim era m u e stra seguida
p o r o tra larga serie de datos de la segunda. Así, p o r ejem plo, si
designam os las m u estras como A y B, esperam os que la ordena­
ción re su lta rá m ás o m enos com o sigue:

ABBABAAABABBABBAAABAAB
y no com o
AAAAAAAAABABBBBBBBBBBB

Con o b jeto de com probar h a sta qué p u n to las dos m u estras


están m ezcladas u n a vez ordenadas, contam os sim plem ente el n ú ­
m ero de series continuas que se producen. La secuencia se define
com o serie co n tinua de datos de la m ism a m uestra. E n el p rim ero
de los dos ejem plos anteriores tenem os u n a secuencia de u n a
sola A, seguida de u n a serie de dos B, luego una sola A, u n a sola
B, u n a serie de tres A, etcétera. El núm ero to tal de secuencias
es, p o r lo- tan to, de 14. E n el segundo* ejem plo, en cam bio, las A
están agrupadas en la m ita d in ferio r dél continuo, y sólo tenem os
cuatro1 secuencias o runs. P or lo regular, el cóm puto de las se­
cuencias se facilitará evitándose adem ás erro res, trazan d o una
línea d ebajo de los datos de la prim era m u estra y u n a raya a r r i­
b a de las de la segunda. E n esta form a sólo necesitam os c o n tar
el n ú m ero de ray itas separadas. Si el núm ero de las secuencias
es grande, com o en el p rim e r ejem plo, entonces las dos m u estras
e sta rá n ta n bien m ezcladas que no estarem os en condiciones de
d e sc a rta r la h ipótesis nula. P or o tra p arte, u n núm ero reducido
de secuencias significa probablem ente que la hipótesis es inco­
rre c ta y d ebería descartarse. La distribución de m uestreo de las
secuencias p u ed e utilizarse p ara establecer la región crítica de la
que nos servim os p a ra d esc artar la hipótesis nula.
P roblem a. Supóngase que unos jueces h an ordenado 19 organi­
zaciones sociales de acuerdo con el prestigio de las m ism as, a tri­
b uyendo u n a p u n tu ació n de 1 a la de m ayor prestigio y de 19 a
la in ferio r. Diez de dichos grupos restringen la adm isión a los no
judíos, en ta n to que los otros 9 adm iten tam b ién a éstos. S u p o ­
niendo que dichas organizaciones sociales se h an seleccionado al
azar so b re la b a se de u n a lista de todas las dem ás organizaciones
sociales de la localidad, ¿podem os llegar a la conclusión de que
en la población se da u n a diferencia significativa de p restigio en­
tre las organizaciones sociales restrictivas y las no restrictivas?

A dm isión restrictiva: Rangos 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (N 1 = 10)


A dm isión no restrictiva: Rangos, 3, 8, 10, 12, 13, 15, 16, 18, 19
( t f a = 9)

1. Supuestos.
N ivel de m e d ic ió n : el prestigio com o escala ordinal
M odelo: m u estras aleatorias independientes
H ip ó te s is : las m u estras se han extraído de poblaciones con
las m ism as distribuciones continuas.

2. D istribución de m uestreo. Si tanto N t corno No son m enores


o iguales a 20, la d istrib u ció n de m uestreo exacta del nú m ero de
secuencias r está dada en el cuadro E del A péndice 2. P ara N m a­
yores, la distrib u ción de m uestreo de r es aproxim adam ente n o r­
m al, con la

2N1N 2
m edia = iv= ----- — + 1 (X IV .l)
^ Nx+ N2
y la

desviación e s tá n d a r = ar
V M A M - N, - n
(N 1 + N 2) H N 1 + N 2 - l )
2)

( XI V. 2 )

Obsérvese que, au n q u e n o se suponga la no rm alid ad de la pobla­


ción, la d istrib u ció n de m uestreo de r será aproxim adam ente n o r­
m al, incluso con N pequeñas. Como habrem os d e v e r e n segui­
da, cierto n ú m ero de estadísticas de p ru e b a n o p a ra m é tric a s
poseen tam b ién esta propiedad. O bsérvese asim ism o que las
fó rm u las de la m edia y del e rro r e stá n d a r sólo c o m p o rta n los ta ­
m años de las m u e stra s y n o req u ieren , p o r lo ta n to , q u e p roceda­
m os a a p reciar los p a rá m e tro s de la población, com o e r a el caso
con la p ru e b a de la diferencia de las m edias. La sim plicidad
co m p arativ a d e las fórm ulas d e las distribuciones d e m u estreo
de las estad ísticas no p aram étrica s se debe en p a r te al h ech o que,
com o q u iera que las m arcas se h a n ordenado y h a n d e to m ar
siem pre, p o r consiguiente, los valores num éricos 1, 2, 3, . . . , N,
las m agnitudes tales com o la sum a y la desviación e s tá n d a r de los
ó rdenes dependen únicam ente del n ú m ero de casos em pleado.
3. N ivel d e significación y región crítica. Como q u ie ra q u e el
cu ad ro E, A péndice 2, sólo d a el n ú m ero de secuencias necesarias
p a ra el d esc arte al nivel d e .05, nos vem os reducidos, e n relación
con m u estras pequeñas, a dicho nivel de significación, p ese a que
pueden en c o n trarse cuadros m ás com pletos e n [9 ]. O bsérvese
que la p ru e b a de las secuencias n o to m a en consideración la di­
rección de la relación e n tre el prestig io y la re stric ció n de adm i­
sión. P o r o tra p a rte , cuando nos servim os de la d istrib u ció n de
m u estreo de r, sólo estam os interesados en u n a cola, ya que
sólo podem os d e sc a rta r la hipótesis n u la si hay u n p eq u eñ o n ú ­
m ero de secuencias (in d ep en d ien tem en te de la dirección de la
d iferen cia).1 E n sen tid o estricto, pues, em pleam os la p ru e b a de
las secuencias com o p ru e b a de u n a sola cola, p ese a que no> se
haya an ticip ad o la dirección de la relación. La m ism a situación
se nos p re s e n ta rá con la p ru e b a d e M ann-W hitney, que se exa­
m in a en la sección siguiente, así com o en o tra s p ru e b as im por­
tan tes de las q u e habrem os de o cu p am o s en capítulos subsiguien­
tes. Con o b jeto de ev itar am bigüedades, distinguirem os, p o r lo
tan to , e n tre p ru e b as de u n a sola cola y las situaciones en las que
la dirección se haya anticipado. H a sta aquí sem ejan te distinción
n o e ra necesaria, ya que to d as las p ru e b as de u n a sola cola com ­
p o rtab a n predicciones en relación con la dirección.
E n el caso de distribuciones de m u estras n o rm ales ya hem os
visto que, cuando Ja dirección fu e prevista, cortábam os a la m itad
u n nivel significativo al u tiliza r u n a sola cola de la distribución de
m uestreo. E n el caso de las p ru e b as en secuencia y en el de o tras
diversas aplicaciones, habrem os de confiar en o tro tipo de ju sti­
ficaciones al c o rta r p o r m ita d los niveles de significación cuando
la dirección h a sido predicha. E n el cu rso del p resen te ejem plo

i Sin embargo, hay otras aplicaciones de la prueba de las secuencias en


las que pueden emplearse las dos colas. Así, por ejemplo, puede haber
acaso demasiadas secuencias si las muestras se han mezclado más bien
artificialmente que al azar, y este hecho puede utilizarse en una prueba del
grado de aleatoriedad.
supongam os que n o hay diferencia alguna en la población de las
organizaciones sociales e n relación con el prestigio de las organi­
zaciones restrictivas y n o restrictivas. Llam em os A al aconteci­
m ien to consistente en h a b e r logrado resu ltad o s significativos a un
nivel de, p o r ejem plo, .05 sin h ab e r p red ich o la dirección. C lara­
m ente P( A) = .05. Llam em os ahora B al acontecim iento que con­
siste en que la dirección de la diferencia de las m u estras es la
predicha, suponiendo que no se den diferencias algunas en la po­
blación. E n tal caso, P( B ) = .5 si prescindim os de la p ro babilidad
de que la diferencia sea exactam ente igual a cero.
Como A y B serán no rm alm en te dos acontecim ientos sep a ra­
dos, tendrem os que la p ro babilidad de lo g rar significación al n i­
vel .05, sin p re d ecir la dirección y la pro b ab ilid ad de p re d ecir co ­
rrectam en te la dirección, vendrá dada p o r P( A&B) = P( A ) P( B) =
(.05) (.5) = .025. P odrá utilizarse este m ism o principio en cuan­
tas ocasiones la distribución de m u estreo de u n a estad ística de
p ru e b a sea, o b ien sim étrica, o bien insensible a la dirección
de u n a diferencia. Si hubiéram os estado, p o r ejem plo, interesados
en co m p arar tre s m u estras ( com o vam os a h acer en los dos capí­
tu los próxim os), y si hubiéram os podido p re d ecir el o rd e n exac­
to de estas diferencias (p o r ejem plo > X 3), la p ro b ab ili­
d ad de o b ten er diferencias en este o rd en exactam ente sería de
1 / 6, b a jo el su p u esto d e q u e = ¡i2 = yis, pudiendo en tal caso d ar
ju stificad am en te com o 1/6 el nivel de significación sin h a b e r p re­
dicho la dirección. P o r supuesto que e ste procedim iento se p re sta
al razonam iento ex p o st jacto, y sólo pu ed e aplicarse a condición
de que las predicciones h ayan precedido al exam en de los datos.
Los núm eros en el cu ad ro nos d an el n ú m ero de secuencias que
b rin d a rá n significación al nivel de .05, suponiendo que no se haya
pred ich o la dirección. C ualquier valor de r, p o r lo tan to , que sea
igual o m en o r que la cifra del cuadro nos in d icará q u e tenem os
ta n po cas secuencias q u e b ien podem os rech azar la hipótesis nula
a este nivel. Como el nú m ero de casos en las dos m u estras es
de diez y nueve, respectivam ente, verem os que podrem os recha­
zarla si obtenem os seis o m enos secuencias.
4. Cálculo d e la estadística de la prueba. Si disponem os las o r­
ganizaciones p o r o rd en de prestigio y trazam os líneas debajo
de los datos de la p rim e ra m u estra y a rrib a de las del segundo,
vem os que se dan 12 secuencias.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Pese a que el n ú m ero de casos es u n po co pequeño p a ra que


se verifique la aproxim ación norm al, podem os con to d o seguir
ad elan te con el cálculo, sirviéndonos de e s ta aproxim ación p ara
ilu s tra r su em pleo y co m p arar los resu ltad o s con los que se ob­
tienen sirviéndose del cu ad ro E del Apéndice 2. Como de costum ­
bre, calculam os el valor de Z, que nos dirá a cu á n ta s desviaciones
e stán d a r se sitú a el n ú m ero de secuencias obten id o respecto de
la m edia o n ú m ero de secuencias esp erad o con la hipótesis nula.
Así, pues,
2(10)(9)
m = ------------ + l = 10.47
^ 10 + 9

, 2 (1 0 )(9 )[2 (1 0 )(9 ) — 10 — 9]


0 ------------------------------------------= 2. 11
* (19)2(18)

Tenem os p o r consiguiente:

r-Ur 12 - 10.47
Z = ----- üü = ---------------= .725
crr 2.11

Como q u iera que el n ú m ero de secuencias obten id o es efectiva­


m ente m ay or que la m ed ia o el núm ero esperado, n o necesitam os
proseguir, ya que p a ra el rechace de la hipótesis se necesitan
núm eros p equeños de secuencias. Si el n ú m ero de secuencias
h u b iera sido m en o r que el esperado, habríam os buscado el valor
de Z en el cu ad ro norm al, u san d o el cu ad ro com o si estuviéram os
haciendo u n a p ru e b a de dos colas (es d ec ir: rechazando al nivel
.05 si Z < — 1.96).
5. Decisión. Ya que el nú m ero de secuencias h a re su ltad o ser
m ayor que seis, c ifra indicada en el cuadro E, decidim os no des­
c a rta r la h ipótesis n ula al nivel de .05. Como acabam os de ver,
el em pleo d e la aproxim ación n orm al nos conduce tam bién a la
m ism a conclusión. Sobre la base de n u estro s datos, concluim os,
en consecuencia, que n o existe diferencia e n tre los dos tipos de
organización en lo relativo al prestigio.
E m p a tes. E n los datos an terio res n o h a hab id o dos organizacio­
nes que tu v ieran m arcas em patadas. El supuesto de la continui­
dad subyacente excluye teóricam ente la posibilidad de em pates,
ya que dos m arcas no serán n u n ca ex actam ente iguales. Sin
em bargo, debido a im perfecciones de m edición, y sem ejantes im ­
perfecciones se d a rá n casi seguram ente en la m ayoría de la in­
vestigación social, e n la p rá ctica sem ejantes em pates se p resen tan .
O bsérvese q u e si dos organizaciones de la m ism a m u e stra hubie­
ra n estado1 em patadas en relación con las m arcas de prestigio, la
p ru e b a de las secuencias n o h a b ría sido afectada. Pero, supón­
gase que los em pates se p ro d u c ía n e n tre las m u estras. E n tal
caso, el n ú m ero de secuencias p u ed e re s u lta r considerablem ente
afectado, según la fo rm a en que los em pates se rom pan. Supón­
gase, p o r ejem plo, que dos organizaciones (de m u estras d istin tas)
h u b iera n estado ligadas p o r lo que se re fie re a la octava y novena
posiciones. Si estas posiciones se h u b iera n desplazado1 del orden
an terio rm en te em pleado, habríam os obtenido 10 secuencias en
lu g ar de 12. E n o tro s térm inos, ob ten d ríam o s 10 secuencias o 12,
según el o rd en em pleado. Y com o q uiera que dicho ord en sería
to talm e n te arb itra rio , podríam os en co n trarn o s con que a veces
d escartam o s y o tra s veces dejam os de d e sc a rta r la hipótesis nula.
E l p ro ced im ien to m ás seguro que podem os u tilizar en el caso* de
em pates consiste e n c o n ta r el núm ero de secuencias sirviéndonos
de todos los m edios posibles de ro m p erlas. Y si todos los o rd e­
nam ien to s conducen a la m ism a decisión (la de d e sc a rta r o de
no d e sc a rta r), entonces nos podem os a d h e rir a la m ism a con
seguridad. P ero si conducen a decisiones distin tas, se rá posible
resolver el p ro b lem a echando u n a m oneda al aire, p e ro ta l vez el
pro ced im ien to m ás seguro consista, e n ta l caso, en suspender
el juicio. B radley recom ienda [1] u n inteligente procedim iento
con sisten te en fa cilitar al lecto r la gam a de probabilidades obte­
n id as al ro m p er em pates p o r todos los m étodos posibles. Es evi­
d en te que si se da u n g ra n núm ero de órdenes con em pates, la
estad ística de la p ru e b a n o deberá se r usada.

XIV.3. La prueba d e M ann-W hitney o de W ilcoxon


O tra p ru e b a n o p a ra m é tric a q u e p u ed e em plearse en las situacio­
nes en que la p ru e b a de las secuencias re su lta apropiada es u n a
p ru e b a que p arece h a b e r sido inventada independientem ente p o r
cierto n ú m ero de p erso n as y se conoce com únm ente con el nom ­
b re de p ru eb a de M ann-W hitney o de W ilcoxon. E sta p ru e b a
req u iere exactam ente los m ism os supuestos que la de las secuen­
cias y, lo m ism o que ésta, com porta u n p rocedim iento m uy sim ­
ple. C om binam os n uevam ente los datos de las dos m u estras y las
ordenam os de 1 a 19. C entram os a continuación n u e stra atención
en la segunda m u e stra (o en la que sea m en o r). Tom ando cada
dato de la segunda m u estra, contam os el nú m ero de datos de la
p rim era m u estra que tengan u n orden m ayor. Una vez hecho esto
con cada uno de los datos de la segunda m u estra, sum am os los
resu ltad o s, que nos dan la estadística V. La distribución de m ues­
tre o de U puede o b ten erse exactam ente si las N son pequeñas, o
se puede o b ten er con aproxim ación p o r m edio de u n a curva n o r­
m al en el caso de m u estras m ayores. Si V es excepcionalm ente
peq u eñ a o excepcionalm ente grande, podem os d esc artar el su­
p u esto de que las dos m u estras se hayan ex traíd o de la m ism a
población.
Una fo rm a altern ativ a de exactam ente la m ism a p ru eb a puede
em plearse con la aproxim ación norm al. E n lu g ar de o b ten er U
directam en te, podem os c o n ta r la sum a de los órdenes de cada
u n a de las m u estras. Procedem os luego en fo rm a análoga a la de
la p ru e b a de la d iferencia de las m edias. Tom am os u n a diferen­
cia de las sum as de los órdenes p a ra cad a m u e stra y sustraem os
de dicha d iferencia u n a ca n tid ad que re p resen ta la diferencia es­
p erad a con la hipótesis nula. E sta diferencia d e diferencias, aná­
loga a ( — X 2) — ( [i! — |x2), se divide luego p o r el e rro r e stá n d a r
p a ra o b ten er Z. La analogía n o es perfecta, y a que trata m o s con
sum as de ó rdenes y n o con sus m edias, p e ro el paralelo con la
p ru eb a de la diferencia de las m edias es p erfectam en te claro.
Aquí tam bién, u n v alo r n um érico gran d e de Z conducirá al re ­
chazo. Vamos a ilu s tra r ah o ra el procedim iento de M ann-W hitney
sirviéndonos del m ism o ejem plo an terio r. C om pararem os a conti­
nuación la eficacia d e la fuerza de esta p ru e b a con la de la p ru e­
b a de las secuencias.

Problem a. El m ism o de la p ru e b a de las secuencias.


A d m isió n re stric tiv a : órdenes 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (JV ^IO )
A dm isión no restrictiva : órd en es 3, 8, 10, 12, 13, 15, 16, 18, 19
(iV2 = 9)

1. S u p uestos. Los m ism os q u e e n la p ru e b a de las secuencias.


2. D istribución de m uestreo. La distribución de m u estreo de
U se e n c o n tra rá en el cu ad ro F del A péndice 2, si n i N t n i N 2 son
m ayores q u e ocho, y en el cu ad ro G, si u n a de las N queda e n tre
9 y 20 y la o tra e n tre 1 y 20. N ótese que los dos cuadros tienen
d iferen te fo rm a to : El F tiene en la p a rte a lta diferentes com bina­
ciones de N x y N 2, con los valores d e U en el m argen in ferio r iz­
q u ierd o y con los valores de las probabilidades en el cuerpo del
cuadro. Así, si N a = 6 y N x = 4, siendo siem pre N 2 el m ayor de los
dos tam añ o s de las m u estras, y si U = 5, verem os que la probabili­
d ad de o b ten er U < 5 es de .086, con dirección predicha. Los otros
cuadros del G, p o r o tra p a rte , corresponden a diferentes niveles
d e significación, apareciendo los valores críticos de U en el cu e r­
p o del cuadro. Así, p a ra a = .0 0 1 , con dirección predicha, p a ra
A/j = 13 y N z = 10 (n o siendo N 2 necesariam ente m ayor que A^),
ob servarem os que u n v alor de U igual o m en o r que 17 supondrá
significación. P a ra N m ayor, la d istrib u ció n de m u estreo de V
s e rá ap ro x im adam ente n orm al, con la

m edia = jip = — (XI V .3)

y la ___________________
N j .N Ú N t + N a + 1 )
V-------------—------------ (XIV.4)
3. N ivel de significación y región critica. Con fines d e com pa­
ración, seguim os sirviéndonos del nivel de .05, sin p re d ecir la
d irección de la relación.
4. Cálculo de la estadística de la prueba. La estad ística U pue­
de calcularse p o r u n o de los dos m étodos siguientes. Con N pe­
queñ a será relativ am en te sencillo calcu lar U siguiendo el proce­
d im iento im plicado en la fó rm u la de definición. C entrándonos en
cad a u n o de los nueve grupos de la segunda m u estra, contem os
el n ú m ero de casos de la p rim e ra m u e s tra que tienen m en o r
prestig io y, p o r lo tan to , m ayores m arcas de orden. Como q u iera
que la p rim e ra organización de la segunda m u e stra se h a clasifi­
cado com o te rc era en prestigio, hay en la p rim e ra m u e stra ocho
grupos con m arcas de prestig io inferiores. Y en fo rm a análoga,
el segundo g ru p o de la segunda m u e stra se clasifica com o octavo,
de m o d o que hay cu atro grupos en la o tra m u e stra con m arc as de
prestig io inferiores. P rosiguiendo el proceso p a ra cada u n a de las
organizaciones re sta n te s de la m u e stra 2 y sum ando, o b te n e m o s:

17 = 8 + 4 + 3 + 2 + 2 + 1 + 1 + 0 + 0 = 21

O bsérvese que si hu b iéram o s seguido el m ism o procedim iento,


p ero c e n tran d o n u e stra atención e n los grupos de la p rim e ra
m u estra, hab ríam o s o b ten id o :

í/' = 9 + 9 + 8 + 8 + 8 + 8 + 7 + 6 + 4 + 2 = 69

C ualquiera de estas dos cantidades p o d ría em plearse p a ra verifi­


ca r la significación de la relación, pero, com o q u iera que las ta ­
b las se h a n estab lecido en té rm inos del v alor m enor de U, siem ­
p re nos servim os de la m en o r de las dos can tid ad es en cuestión.
No se rá n ecesario calcu lar U y V , ya que u n a vez obtenido uno
de los valores el o tro p u ed e calcularse sirviéndose de la fó rm u la :

U = N 1N 2 - U ' o U' = N ±N 2 - V (X IV .5)

E n este caso nos serviríam os com o estad ística de p ru e b a del va­


lo r 2 1 .
Si el n ú m ero de los casos es relativ am en te gran d e o si existen
em p ates, será p ro b ab lem en te m ás conveniente o b ten er V sum an­
do los órdenes de las m u estras separados, designando estas su­
m as de órdenes com o 2?! {rango) y R 2 y sirviéndose de las fó rm u ­
la s:
N 2{ N 2 + 1)
U = N xiV2 + — — ------ - R 2 {X I V.6)

o b ien
u- = n , n 2 + J ^ ± 1 L - Rí

según cuál de ellas resu lte m ás conveniente. S um ando los órde­


nes obtenem os a s í:
1 3
2 8
4 10
5 12
6 13
7 15
9 16
11 18
14 19
17

R x = 76 Ro, = 114

A títu lo de co n trol habríam os de te n e r

R ¡+ R a = 3 1 ± ± L

o bien

19(20)
76 + 114 = ---- -— i - = 190

en donde N re p re se n ta el nú m ero to tal de casos en am bas m ues­


tras. P o r lo tan to :

9(10)
1 7 = 1 0 (9 ) + 114 = 90 + 4 5 - 114 = 21.

* Las sum as de órdenes y R 2 pudieron h ab erse em pleado


directam ente al h ac er la pru eb a, no siendo necesario en tal caso
calcular U. Ya que las tablas exactas p a ra las N pequeñas suelen
darse en térm in o s de V, p o r lo re g u la r re su lta rá ventajoso pensar
en térm inos de estadística U. P ero el em pleo de las sum as de ór­
denes puede utilizarse eurístieam en te p a ra señalar la sem ejanza
de la p ru eb a M ann-W hitney con la de la diferencia de las m edias.
Una pequeña operación algebraica convencerá al lecto r de que
podem os to m ar las ecuaciones de (X IV .3) a (X IV .7) y ob ten er
el re su ltad o de que, p a ra la aproxim ación norm al, la estadística
R .-R , X W + D /2 ( X I V g )

i/.V.A/.Í.V + 1 )/',

será aproxim adam ente N o r (0 ,l). E xpresando Z en esta form a,


observam os que el n u m era d o r consta de la diferencia R x — R 2,
ju n to con u n térm ino que re su lta ser el valor esperado o a largo
plazo* de dicha diferencia en la hipótesis nula. Dicho fa cto r de
corrección es necesario, p o r supuesto, ya que trata m o s con una
diferencia de sum as, y no de m edias, lo que nos obliga a to m ar
en cu en ta el hecho de que, p o r lo regular, las dos N no serán
iguales. Si y N 2 son iguales, observam os que el segundo fac­
to r en cuestión se convierte en cero, quedándonos sim plem ente
co m o n u m era d o r R t - R z. Vem os en esta fo rm a la sem ejanza con
la p ru eb a de la diferencia de las m edias, en la que el num erador
se red u cía a X x — X 2 en el caso de la hipótesis n ula de que no
h ab ía diferencias. P or lo tan to , cabría concebir la p ru eb a de
M ann-W hitney com o p ru e b a de la diferencia de los órdenes su­
m ados.
5. Decisión. Sirviéndonos del cuadro G del Apéndice 2, vem os
que al nivel de .05, si la dirección no se h a anticipado, necesita­
m os u n a U de 20, o m ás pequeña, p a ra p o d er d e sc a rta r la hipó­
tesis nula. De ahí que apenas dejem os de d esc artar la de que no
h ay diferencia en tre los dos tipos de organizaciones. Obsérvese,
sin em bargo, q u e si la dirección se h u b iera predicho de aníem ar
no, habríam o s necesitado u n a U de 24, o m enos, al nivel de .05.
Vemos, de paso, que a p e sa r de llegarse a la m ism a conclusión con
las p ru e b as de las secuencias y de M ann-W hitney, estuvim os,
con todo, m ucho m ás cerca del d escarte con la segunda que con
la p rim e ra . P o r lo tan to , si i?0 fu e ra realm en te falsa, ten d ría­
m os e n este caso* u n riesgo m en o r de e rro r de tip o I I que con la
p ru e b a de las secuencias.
Si n u e s tra N h u b iera sido m ayor, podríam os habernos servido
de la aproxim ación norm al. Con objeto de ilu s tra r el procedi­
m iento, podem os calcular Z en relación con los datos anteriores.
O btenem os así:

V - N XN J 2 2 1 -4 5
Z = ----------------- — ------------= ------------ ------------ = -1-96
y'Ñ ^Ñ J.W ^+ N 2 + l ) / l 2 V 1 0 ( 9 ) (20)/12

Si h ubiéram os rem plazado V p o r V ( = 6 9 ) , hubiéram os ob­


tenido*
Z = + 1.96

* Si nos h ubiéram os servido de la ecuación (X IV .8), h a b ría ­


m os obten id o asim ism o:
76 — 114 — (10 — 9) (20)/2
Z --------------------------------------- —1.96
V W (9 ) (2 0 )/3

Así, pues, el em pleo de la aproxim ación n o rm al conduce a la


conclusión de que, sin la dirección predicha, a d u ra s penas po­
dríam o s d e s c a rta r al nivel d e .05. P o r su p u esto que las tablas
exactas son p referib les a la aproxim ación n o rm al siem pre que
estén a n u e s tro alcance.
E m p a tes. Si o c u rren em p ate s hem os d e su p o n er u n a vez m ás
que se d eben a im perfecciones d e m edición y que las d istrib u ­
ciones subyacentes son en re alid ad continuas. Si los em pates
tien en lu g ar en el in te rio r de las clases, éstas n o ten d rán , p o r
supuesto, efecto alguno sobre la U, y podem os p ro c ed er com o
an terio rm en te. Y si los em p ates tien en lu g ar e n tre clases, dam os
a ca d a u n o de los casos el p ro m ed io d e las m arc as q u e h a b ría
tenido de no existir aquéllos. Así, pues, si dos organizaciones
están em p atad as en los órdenes octavo y noveno, cada u n a de
ellas re cib e tina m arc a de (8 + 9)/2 , o sea 8.5. Si la décim a orga­
nización h u b ie ra estad o asim ism o em p ata d a con los dos grupos
an terio res, cad a u n o d e ellos h a b ría recibido el o rd e n (8 + 9 +
10)/3, o sea 9.0. Al calcu lar U, se p ro d u c irá p ro b a b le m en te a h o ra
m enos co nfusión si nos servim os del m éto d o de la sum a de los
órdenes. E n efecto, el fa c to r d e corrección c o m p o rta el e rro r
e s tá n d a r de U y, p o r consiguiente, ap arece en el d enom inador de
Z. La fó rm u la revisada se co n v ierte así e n :

V - NrN.,/2
— — (X IV .9)
V l N iN n / N ( N - l)][(A ís - A /r) / 1 2 - 2 r i ]

en donde N = iVx + N 2 y r* = (í«® - t t )¡ 12, siendo t el núm ero de


observaciones em p atad as en relación con u n o rd en determ inado1.
Al calcu lar 22^, observam os p rim e ro todos los casos en los que
se dan em pates. Tal vez dos grupos estén em patados en relación
con las m arcas octava y novena, y tre s en relación con las m arcas
inferiores. E n e s te caso tenem os im a t de dos y u n a de tres.
O sea:

2 T¡ = T i + T« = í*— 1 + M ~ fa
12 12

23-2 33 — 3 6 24
= ------------ 1------------- = ----- i----- = 2 5
12 12 12 12

y
E sta corrección de los em pates sólo p u ed e em plearse con la apro­
xim ación norm al, ya que las tablas exactas se h an calculado sin
te n e r e n cu en ta los em pates. P or lo regular, el efecto del facto r
de corrección será despreciable salvo si el núm ero de em pates
es m uy gran d e.2 Si el n ú m ero de em pates es extrem adam ente
g ran d e d eb erá u sarse probablem ente la p ru e b a de S m irnov (ver
m ás a b a jo ) com o altern ativ a a la de M ann-W hitney.
C om paración en tre las pruebas de M ann-W hitney y de las se­
cuencias. P ara am bas p ru e b as la hipótesis n u la es que las dos
m u estras se h an extraído de poblaciones iguales. P or lo regular,
n u e stro in terés se c e n tra en las diferencias de tendencia central,
com o en el caso de la p ru eb a de la diferencia de las m edias. En
ocasiones, sin em bargo, podrem os e s ta r m ás interesados e n las
diferencias de d ispersión o de form a. A títu lo de enunciado ge­
neral, podem os d ecir que la p ru e b a d e M ann-W hitney será m ás
fu e rte que la d e las secuencias, siem pre q u e las m ayores d iferen­
cias e n tre las dos poblaciones sean con respecto a la tendencia
central, en ta n to q u e la segunda se rá m ás fu e rte en aquellas si­
tuaciones en que las poblaciones sólo difieren ligeram ente en
cu an to a la ten d encia central, p ero sustancialm ente, en cam bio,
en d ispersión o e n form a.
Un sim ple ejem plo serv irá p a ra ilu s tra r este punto. Supóngase
que tenem os dos poblaciones de m edianas iguales, pero, en u n
caso, con u n a d istrib u ció n m uy hom ogénea y, en el otro, m uy
heterogénea. P odríam os, en tal caso, e sp e ra r resultados com o los
siguientes :

Muestra 1 Muestra 2
5 1
6 2
7 3
8 4
9 13
10 14
11 15
12 16

ÍRj = 68 R2 = 68

2 P a r e c e r í a c o m o s i l a c o r r e c c ió n d e lo s e m p a te s r e d u j e r a s ie m p r e e l d e ­
n o m i n a d o r s i n c a m b i a r e l n u m e r a d o r , p e r o d e b e m o s t e n e r p r e s e n t e q u e d i­
c h o s e m p a t e s h a r á n n o r m a l m e n t e q u e U y U’ s e a p r o x im e n , io q u e s e t r a ­
d u c i r á a s u v e z e n u n a d i s m i n u c ió n d e l n u m e r a d o r .
E n este ejem p lo extrem o, la p ru e b a de M ann-W hitney n o condu­
ciría a d e sc a rta r la hipótesis n u la (la cual es m an ifiestam en te fal­
sa), p o rq u e es exactam ente igual a R a. S irviéndonos d e la
p ru e b a d e las secuencias, e n cam bio, estaría m o s m anifiesta­
m en te en condiciones de d esc artar, p o rq u e sólo ten d ríam o s tre s
secuencias. Como q u iera que d e ja r de d e sc a rta r significa com eter
un e rro r de tip o II, vem os q u e en este caso la fu erza de la p ru e­
b a de las secuencias es m ay o r que la de la M ann-W hitney. E n la
m ayoría de los casos, tenem os m ás pro b ab ilid ad es de h a lla r dife­
rencias en la ten d en cia cen tral, con diferencias relativam ente
m enores en dispersión. El le c to r h a r á bien en convencerse p o r sí
m ism o q ue e n el caso de tales poblaciones tenem os pro b ab ilid a­
des de o b te n e r u n n ú m ero relativ am en te g ran d e d e secuencias
h acia el ce n tro de la distribución. Y en relación con sem ejantes
datos, la p ru e b a de las secuencias se rá m u ch o m enos fu e rte que
la de M ann-W hitney. E n relación con la m ayoría de las aplicacio­
nes sociológicas, la p ru e b a de M ann-W hitney p arece ser la m ás
ú til de las dos.
* Si se h a conseguido u n nivel de escala de intervalo y se su­
ponen leg ítim am ente poblaciones norm ales, p u d o h ab e rse efec­
tu ad o la p ru e b a t p a ra la d iferen cia e n tre las m edias. E n tales
condiciones, ¿cuánto p erd eríam o s sirviéndonos de la p ru e b a de
M ann-W hitney, cayendo p a ra ello h ac ia a trá s en cu an to al nivel
de m edición y sirviéndonos de u n m odelo m ás débil? La eviden­
cia está en que, en el caso de m u e s tra s m edianas y grandes, la
eficacia de la fu erza de la p ru e b a d e M ann-W hitney es aproxim a­
d am en te del 95 p o r ciento en com paración con la de la t. La efi­
cacia de la fu erza es asim ism o m u y g ran d e en el caso de m ues­
tra s pequeñas, pese a que los valores n u m érico s exactos n o sean
fáciles de o b tener. B radley [ 1 ] observa q u e e n general la eficacia
de m uchas p ru e b a s n o p aram étrica s, e n tre ellas la d e Mann-
W hitney, es relativ am en te m ay o r p a r a las m u estras pequeñas que
p a ra las g randes. Así, pues, la p ru e b a de M ann-W hitney consti­
tuye u n a altern ativ a m uy fu e rte de la p ru e b a t. E n v ista del he*-
cho de que re q u ie re su p u esto s m u ch o m ás débiles, d eb e ría em ­
p learse en aquellas situaciones en q u e existe alguna d u d a razo­
n ab le de la legitim idad ya sea d e la escala de in terv alo o de la
n o rm alidad. Se sabe m enos, e n cam bio, a p ro p ó sito d e la eficien­
cia de la fu erza d e la p ru e b a d e las secuencias. S m ith [ 8] h a
en c o n trad o eficiencias de ap ro x im ad am en te el 75 p o r ciento en
varios ejem plos em píricos, en los q u e los tam añ o s de las m ues­
tra s eran d e alre d ed o r de 20 y las poblaciones norm ales presen ­
ta b a n desviaciones e stá n d a r iguales. B radley [1 ] observa que la
eficacia de la p ru e b a de secuencias con m u estra grande, es, p o r
com paración con la p ru e b a t, d e ap ro x im ad am en te u n tercio, en
igualdad de condiciones.
X IV .4. La prueba de K olm ogorov-Sm im ov
La p ru e b a de K olm ogorov-Sm irnov, que designarem os sim ple­
m en te com o p ru e b a de Sm irnov, es o tra p ru e b a n o p ara m é tric a
de dos m u estras, que re q u ie re los m ism os su p u esto s q u e las
p ru e b as de las secuencias y de M ann-W hitney. La fu erza de
la p ru e b a S m irnov es e n general difícil d e evaluar, p e ro en aque­
llas situaciones en q u e la población difiere solam ente en relación
con la tendencia cen tral, dicha fuerza parece e sta r co m p ren ­
dida e n tre las de las p ru e b as de lás secuencias y la de Mann-
W hitney. (B rad ley [1 ], p p . 291-292.) E n u n sen tid o estricto , la
p ru e b a S m irnov tam poco supone em pates, pero, com o verem os,
el p ro ced im ien to es m u y conveniente e n las situaciones en que
se d a u n bu en n ú m e ro de em pates, com o re su ltad o de h ab e r
ag ru p ad o los dato s e n categorías ordenadas.
E n la investigación sociológica nos servim os con m u ch a fre ­
cuencia d e variables q u e son en re alid ad escalas ordinales, p ero
en relació n con las cuales los datos se h an agrupado, con todo, en
tre s o m ás categorías grandes. Si se d an c u a tro o m ás categorías
o rd en ad as de e s ta clase, la p ru e b a de S m irnov re su lta rá p a rtic u ­
larm e n te ú til, en ta n to q u e el n ú m ero de em p ates p ro h ib iría p ro ­
b ab lem en te el em pleo de la de M ann-W hitney. Un sociólogo pue­
de acaso h a b e r dividido los residentes de u n a localidad en seis
clases sociales, tra ta n d o a todas las p erso n as de u n a clase com o
ligadas a los dem ás m iem b ro s de la m ism a con respecto a la ca­
ra c te rístic a general. O pu ed en h a b e rse o rd en ad o las ocupaciones
según la condición d e las p erso n as asignándose a todas las de
la m ism a clase d e ocupación m arc as em p atad as. Tal vez se haya
en co n trad o u n a v ariab le d e co m p o rtam ien to que dé u n a escala
de G u ttm an con siete tip o s d e resp u estas. E n todos estos ejem ­
plos podem os q u e re r concebir la v ariab le com o continua en re a ­
lidad, p e ro el in stru m e n to de m edición h a sido excesivam ente
im p erfecto y h a p ro p o rcio n ad o datos q u e se hallan agrupados en
u n n ú m ero re lativ am en te pequeño d e categorías ordenadas. Lo
m ism o que en el caso de las escalas de intervalo, cu an to m ás
su tiles sean las distinciones y cu an to m ay o r sea el n ú m ero de las
categorías em pleadas, ta n to m enos in fo rm ació n se pierde.
E l p rin cip io que se h alla e n la base de la p ru e b a de S m irnov
es m uy sencillo. Si la hipótesis n u la de que se h an extraído
m u e stra s aleato rias independientes, de poblaciones idénticas, es
co rrecta, entonces esperarem os que las distribuciones de frecuen­
cia acu m u lad a d e las dos m u estras sean fund am en talm en te si­
m ilares. La estad ística de la p ru e b a em pleada en la p ru e b a de
Sm irnov es la d iferen cia m áxim a e n tre las dos distribuciones
acum uladas. Si d icha d iferencia es m ay o r de lo que se esp eraría
p o r azar con la h ip ó tesis nula, esto significa que la diferencia
e n tre las d istrib u cio n es se h a hecho ta n gran d e que decidim os
d esc artar la hipótesis. Podem os to m a r la diferencia m áxim a ya
sea en u n a sola dirección (si ésta se h a anticipado) o en am bas
direcciones.
Problema. Supóngase que hem os dividido una m u e stra al azar
de varones adultos de u n a localidad en seis clases sociales y los
hem os clasificado al propio tiem po según sus aspiraciones b ajas
o altas de cam bio. E stas dos últim as categorías pueden conside­
ra rse com o m u estras aleatorias independientes de las poblacio­
nes m ás am plias de varones adultos con aspiraciones b ajas o
resp ectivam ente altas, ya que u n a m u estra to ta l com pletam ente
al azar asegura la independencia e n tre las su b m u estras que po­
dam os escoger. Supóngase que hem os anticipado que los de as­
piraciones de cambio- elevadas ten d erán a ocu p ar u n a posición
de clase su p erio r a los de aspiraciones b ajas. ¿Podem os concluir
que los resu ltados son significativos al nivel de .0 1?

Aspiraciones Aspiraciones
Clase bajas altas
B a ja in fe rio r 58 31
B a ja s u p e rio r 51 46
M e d ia in f e r io r 47 53
M e d ia s u p e r io r 44 73
A lta in f e rio r 22 51
A lta s u p e rio r 14 20

T o ta l 23 6 27 4

1. Supuestos. Los m ism os que se requieren en la p ru eb a de


M ann-W hitney y la de las secuencias.
2. D istribución de m uestreo. La distribución d e m u estreo de
D, o sea la diferencia m áxim a en tre las distribuciones acum ula­
tivas, pued e d arse exactam ente en el caso de N pequeñas ( < 40),
si Nj = N 2 ([7 ], p. 129). E ste caso no lo trata rem o s, ya que con Ñ
relativam ente pequeñas puede em plearse, en lu g ar de la pru eb a
de Smirnov, la de M ann-W hitney, y porque en la m ayoría de los
ejem plos sociológicos no solem os p o r lo regular o b ten er m u estras
exactam ente del m ism o tam año. Si las dos m u estras son m a­
yores que 40 y si no se h a anticipado la dirección, necesitarem os
u n valor de D que sea p o r lo m enos tan grande com o

1.36 Y

p a ra p o d er d e sc a rta r al nivel de .05. E n relación con los niveles


de .01 y .001, el coeficiente de 1.36 puede rem plazarse p o r 1.63
y 1.95 respectivam ente. E n el caso del nivel de .10, el coeficiente
co rresp o n d ien te es de 1 .22.
Si la dirección se h a anticipado, podem os servirnos de la ap ro ­
xim ación de la x-cuadrada. La e stad ística de la p ru e b a x-cuadra-
d a (x2) se co n sid erará e n el capítulo siguiente, y la ta b la d e la
m ism a re su lta rá m á s fa m iliar en dicho momento.® E n treta n to ,
la fó rm u la de la aproxim ación es com o sigue:

■f = 4D2 N lN ‘2 - ( X IV .10)
1 Nx + Na
en donde los grados d e lib e rta d asociados a la ^-cuadrada son
siem pre dos en e s ta p a rtic u la r aplicación. Si bien al em p lear
la aproxim ación de la ^-cuadrada se suponen distribuciones con­
tin u as de la población, si los datos son en re alid ad discretos y
d an lugar, en consecuencia, a grandes n ú m ero s de em pates, las
p ro b ab ilid ad es o b ten id as quedarán, e n caso de desearse el des­
carte, en sen tid o conservador. E n o tro s té rm in o s: las v erdade­
ra s p ro b ab ilid ad es serán m enores q u e las calculadas.
3. N ivel de significado y región crítica. El p ro b lem a re q u ie re
el nivel de significado d e .01. Y a q u e se h a an ticip ad o la direc­
ción, nos servirem os d e la aproxim ación d e la ^-cuadrada.
4. Cálculo de la estadística de la prueba. O btenem os p rim ero
las d istribuciones de frecuencia acu m u lad a de cada u n a de las
m u estras (véase c u a d ro X IV .l), ex presando los valores de F
com o p roporciones d e las m agnitudes to tales de las m u estras.
Así, pues, el p rim e r v alo r in scrito e n la colum na de las F de la
m u e stra 1 será 58/236, o sea .246; el segundo se rá 109/236, o
.462, y así sucesivam ente. Las ú ltim as anotaciones de cada co ­
lu m n a serán, p o r supuesto, la unidad. F orm am os ah o ra una
colum na de las diferencias, F1 — F2, y localizam os la diferencia
m ay o r con el signo positivo, ya que anticipam os m ayores p o r­
cen tajes de las clases in ferio res con aspiraciones b ajas, o sean
m ayores valores de Ft . E ste valor de D re su lta se r de .187, com o
lo indica la flecha. A continuación calculam os el v alor de la
X - c u a d r a d a sirviéndonos de la ecuación (X IV .10).
5. Decisión. O bsérvese q u e cu an to m ay o r sea el v alor de D,
ta n to m ay o r será la ^-cuadrada. P o r lo tan to , sólo necesitam os
sa b e r cuán g ran d e d eb a s e r ésta p a r a d e sc a rta r la hipótesis nula.
R ecurrim os, pues, al cu ad ro de la x-cuadrada (c u a d ro i del Apén­
dice 2 ), b u scam os los grados de lib e rta d de a rrib a a b a jo en el
m arg en izquierdo, y el nivel de significación, arrib a, de izquierda
a derecha, y vem os que, con 2 grados de lib ertad , co rresponde
al nivel .01 el v alo r 9.210. E sto significa que si la hipótesis n u la
fu e ra cierta, o b ten d ríam o s u n a ^-cuadrada de e s ta m agnitud, o>
3 D e b id o a e llo t a l v e z s e p o d r á a p l a z a r e l e s t u d io d e l a p r u e b a d e Smir*-
n o v h a s t a d e s p u é s d e h a b e r le íd o e l c a p . xv.
C uadro X IV .l. Cálculos para la prueba de dos m uestras
de S m irn o v

Aspiraciones de cambio
Clase Diferencias
Altas F1 Bajas F2
Debajo de la baja
superior 58 .246 31 .113 .133
Debajo de la media
inferior 109 .462 77 .281 .181
Debajo de la media
superior 156 .661 130 .474 .187
Debajo de la alta
inferior 200 .847 203 .741 .106
Debajo de la alta
superior 222 .941 254 .927 .014
Total 236 1.000 274 1.000
n ,n 2 236(274)
/2 -4 m — 4(.187)2. - 17.74
Nx+ N 2 236 + 274

m ayor acaso, m enos del uno p o r ciento de las veces. Y ya que ob­
tuvim os u n a /-cu a d rad a de 17.74, vem os que podem os d esc artar
la hipótesis nula. E sta m ism a p ru e b a de la /-cu a d rad a puede em ­
p learse en relación con m u estras pequeñas cuando se h a antici­
p ad o la d irección; y si se tiene interés en d e sc a rta r la hipótesis
nula, la aproxim ación de la /-cu a d rad a será en realid ad conser­
vadora. E n o tro s té rm in o s : las probabilidades obtenidas con este
m étodo serán m ayores que las reales.
Si no se h u b iera anticipado la dirección, entonces necesitaría­
m os, p a ra o b ten er significación al nivel de .01, u n valor de D que
sea p o r lo m enos igual o su p erio r a

¡N, + N 2 ' 236 + 274


1.63 1.63(.0888) = .145
V NiN., 236(274)

E n este caso obtenem os D to m ando la diferencia m ayor, indepen­


d ien tem en te del signo. Y com o q u iera que este valor es el m ism o
q u e el de la D utilizada an terio rm en te (.187), vem os q u e podem os
tam bién d esc artar la hipótesis nula.

XIV.5. La prueba de W ilcoxon de pares asociados y órdenes pro­


vistos de signo
Las tres p ru eb as no param étricas exam inadas h a sta aquí, en el
presen te capítulo, requerían que las dos m u estras se selecciona-
ra n independientem ente u n a de otra. Se re c o rd a rá que, al asociar
pares, no podíam os servirnos de la p ru e b a de la diferencia de
las m edias. E n lu g ar de ello, tratá b am o s cada p a r com o caso sin­
g u lar y obteníam os u n a m arc a de diferencia p a ra cada uno de
ellos. Procedíam os luego com o si tuviéram os u n a sola m u estra, y
verificábam os la hipótesis n u la de que uB = 0. El lecto r re co rd a rá
adem ás que, al servirnos de la p ru e b a de los signos, pudim os tam ­
bién h a b e r em pleado p ares asociados, teniendo sólo en cuenta el
signo de la diferencia y verificando la hipótesis n ula con ayuda
de la distrib u ció n binom ial. E n la p ru e b a de los signos, había­
m os de d e ja r de lado to d a la inform ación que poseyéram os acer­
ca de la m agnitud de las diferencias im plicadas. P or o tra p arte,
la p ru e b a m ás fuerte, o sea la p ru e b a t, re q u ería no sólo u n a
escala de intervalos, sino, adem ás, el su p u esto de u n a población
n o rm al de las m arcas de las diferencias. La p ru e b a de W ilcoxon
de p ares asociados y órdenes provistos de signo, en cam bio, com ­
b in a algunas de las características de esas dos pru eb as y se si­
tú a, en cu an to a eficacia d e la fuerza, e n tre am bas.
Como verem os en seguida, la p ru e b a de W ilcoxon re q u ie re un
nivel de m edición ligeram ente su p erio r al de la escala ordinal.
N ecesitarem os, en efecto, u n a escala m étricam en te ordenada, en
la que sea posible o rd e n a r no sólo las m arcas m ism as, sino ade­
m ás las diferencias e n tre ellas. Como q u iera que las escalas
m étricam en te ordenadas se en cu en tran ra ra m e n te en la investiga­
ción sociológica, este requisito1 equivale p rácticam en te a que ne­
cesitem os u n a escala de intervalo. Sin em bargo, ya que la p ru e b a
d e W ilcoxon no p resupone u n a población norm al, la exam inare­
m os ju n to con las dem ás p ru eb as d e dos m u estras no param é­
trica s en el p re sen te capítulo. La eficiencia de la fuerza de esta
p ru e b a es su stan cialm ente m ayor que la de la p ru e b a de los sig­
nos, circu n stan cia que no debe so rp ren d er, ya que ésta obtiene
v en taja de ta n poca inform ación disponible. Si los supuestos de
la p ru e b a t son efectivam ente ciertos, entonces la eficacia de la
fu erza de la p ru e b a de W ilcoxon es aproxim adam ente del 95 %,
ta n to p a ra m u estras pequeñas com o grandes. De ahí que re su lte
p artic u la rm en te ú til e n situaciones en las que tenem os u n nivel
de m edición de escala de intervalo, p ero e n las que la m agni­
tu d d e la m u estra es con to d o dem asiado peq u eñ a p a ra ju stific a r
el su p u esto de n orm alidad.
E n esencia, la p ru e b a d e W ilcoxon co m p o rta la m ism a hipóte­
sis n u la em pleada en la p ru e b a de los signos y tam bién en la
p ru e b a t p a ra p ares asociados. La hipótesis nula sostiene que no
existen diferencias e n tre las m arcas d e las dos poblaciones. Al
servirnos de e s ta p ru eb a, obtenem os p rim ero las m arcas d e la
diferencia p a ra cada p ar. E stas diferencias se ordenan, p rescin ­
diendo de sus signos respectivos. Así, pues, u n a diferencia de — 6
se o rd e n ará p o r encim a de la de + 3. U na vez ordenados e n esta
fo rm a los valores absolutos de las diferencias, asignando siem pre
el rango 1 a la m enor diferencia num érica, volvem os a trá s y anota­
m os los signos. Finalm ente, obtenem os las sum as de los órde­
nes de las diferencias, de las positivas y de las negativas. Si la
hipótesis n u la es correcta, esperam os que la su m a d e los órdenes
de las diferencias positivas será aproxim adam ente igual a la de
los órdenes d e las diferencias negativas. Si éstas difieren m ucho
e n tre sí en m agnitud, entonces la hipótesis n u la p u ed e descar­
tarse. F orm am os la estadística T, que es la m enor d e las sum as
en cuestión. Nos servim os a continuación d e tab las exactas de la
d istrib u ció n de selección de T si la A? es pequeña, y de u n a apro­
xim ación n o rm al si es grande.

C uadro X IV .2. Cálculos de la prueba de W ilcoxon


de pares asociados

Ni del Orden de
Grupo A Grupo B Diferencia la diferen­ órdenes
par negativos
cia
1 63 68 5 (+ ) 6
2 41 49 8 ( + ) 10.5
3 54 53 -1 ( - ) 1.5 1.5
4 71 75 4 (+ ) 5
5 39 49 10 ( + ) 12
6 44 41 -3 (-) 4 4
7 67 75 8 ( + ) 10.5
8 56 58 2 (+ ) 3
9 46 52 6 (+ ) 8
10 37 49 12 ( + ) 13
11 61 55 -6 (-) 8 8
12 68 69 1 ( + ) 1.5
13 51 57 6 (+ ) 8
Total 13.5

Con fines de com paración, sirvám onos de los m ism os datos u ti­
lizados en el caso de la p ru e b a t correspondiente. El cu ad ro X IV .2
re p ite dichos datos y p roporciona al p ro p io tiem po los cálculos
necesarios p a ra la p ru e b a de W ilcoxon. O bsérvese que, al ignorar
los signos, algunas de las m arcas de las diferencias re su ltan em ­
p atad as en cu an to a la m agnitud. E n ta l caso, dam os u n a vez má*
a las m arcas em patadas el valor prom edio que h ab ría n tenido de
n o estarlo .4 Así, p o r ejem plo, tenem os dos diferencias d e tam a.

* Otro procedimiento algo más conservador consistiría en romper los em­


pates de tal manera que se obtuviera el mayor valor posible de T. Los pares
cuyas puntuaciones tuviesen una diferencia de 0 exactamente (es decir: nin­
gún cambio) deberían ser eliminados del análisis.
ño 1. Como q u iera que atribuim os a las diferencias m ás pequeñas
los rangos inferiores, cada u n a de aquéllas obtiene u n a m arc a de
o rd en o rango de 1.5. E n la quinta colum na hem os indicado el
signo asociado a cada orden, e n tre p arén tesis, a la izquierda del
m ism o. Vemos a sim ple vista que la sum a de los órdenes negati­
vos será in ferio r a la de los positivos. P o r lo tanto, obtenem os T
sum ando estos órdenes negativos. No es m en ester re te n e r los
signos negativos al b u sc a r el valor de T en el cuadro, ya que
los valores se h allan siem pre dados com o positivos. Así, pues,

T = 1.5 + 4 + 8 = 13.5

Form alicem os ah o ra lo que hem os hecho, siguiendo los pasos


en la fo n n a habitual.

1. S u p uestos.
N ivel de m e d ició n : escala m étricam en te ord en ad a (las m a r­
cas de las diferencias pueden o rd en arse).
M odelo: m u e stra s aleatorias.
H ip ó tesis: la su m a de los órdenes positivos = a la de los
órdenes negativos en la población.

2. D istribución de m uestreo. La distribución de m u estreo de T


p a ra N < 2 5 se d a en el cu ad ro H del A péndice 2. E n relación con
m u e stra s m ayores, la distribución d e T es aproxim adam ente
n o rm al, co n :
m ed ia = ¡xr = - í ^ + 1 ) (X I V .ll)

y desviación e s tá n d a r = or = ^ ^ (X IV .12)

3. N ivel de significación y región critica. Lo m ism o que en el


caso de la p ru eb a t, nos servirem os del nivel de .05, sin a n ticip ar
la dirección del resultado.
4. Cálculo de la estadística de la prueba. É ste se halla ya efec­
tu ad o en el cu ad ro XIV.2, que nos d a u n a T de 13.5.
5. Decisión. El c u a d ro H del A péndice 2 d a valores críticos de
T p a ra N < 25. Ya que T re p re se n ta la m en o r de las dos sum as
de órdenes, necesitam os valores num éricos pequeños de T p ara
d e sc a rta r la hipótesis nula. Así, pues, podrem os d e sc a rta r H 0
siem pre que T sea igual o in ferio r a los valores dados en el cuer­
p o del cuadro. Vemos que con u n a N de 13 necesitam os una T
d e 17, o m enor, p a ra p o d er d e sc a rta r al nivel de .05. Vemos tam ­
b ién que se n ecesitaría u n a T de 13 o m enos p a ra el d escarte al
nivel de .02. AI servim os de la p ru e b a í en el capítulo an terio r,
se h a b rá observado que, al nivel de .02, sólo logram os d esc artar
allí con m uy poco m arg en ; aquí, en cam bio, estam os ligeram ente
p o r encim a de dicho nivel, p e ro los re su ltad o s de am bas p ru e b as
son, con todo, m uy sim ilares.
Si b ien n u e stra N es m uy pequeña, podem os d e todos m odos
servirnos de la aproxim ación n o rm al con fines de ilustración. Ob­
tenem os :
T - N ( N + l)/4
Zu —* — —. ,
\ / N ( N + 1) (2JV + l)/2 4
13.5 — 13( 14 )/4 1 3 .5 -4 5 .5
--------------- .— - ----- = -------------------= - 2.24
•\/13( 14) (27)/24 V2Ó4?75

Como q u iera que u n a Z de — 2.24 corresponde a p = .025, re su lta


que volvemos a llegar a la m ism a conclusión. El valor de T es
m ucho m en o r que el que esp eraríam o s debido- al azar, y podem os
en consecuencia d e sc a rta r la hipótesis nula. D ebe observarse que
la a n te rio r aproxim ación n o rm al n o contiene u n a corrección ex­
p lícita de los em pates, no debiendo p o r tan to se r u sad a en los
casos en que el n ú m ero relativo de em pates es ex trem adam ente
grande.

X IV .6. R esu m en
E n el p re sen te capítulo hem os exam inado c u a tro p ru e b as n o p a­
ra m é tricas d istin tas. E n los capítulos sucesivos verem os otras.
Tal lecto r h a b rá observado, sin duda, que todas esas p ru e b a s,n o
p a ra m é tric a s co m p o rtan h a s ta aq u í ideas m uy sim ples y consi­
d erab lem en te m enos cálculos q u e la p ru e b a d e la d iferencia de
las m edias, p o r ejem plo. É sta es u n a razón m ás e n fav o r de nues­
tr a tesis en el sen tid o de que, en el fu tu ro , los sociólogos se
servirán m ucho m ás de estas p ru e b as n o p aram étricas. P o r des­
gracia, en u n tex to general n o se p u ed e h ac er m u ch o m ás que
exam inar un as pocas de esas p ru e b as brevem ente. Algunas de las
p ru e b as exam inadas en el p re se n te capítulo tienen adem ás algu­
n as o tras aplicaciones que no se h an exam inado. Así, p o r ejem plo,
la p ru e b a de las secuencias p u ed e em plearse com o p ru e b a del
c a rá c te r fo rtu ito . L a p ru e b a de Sm irnov, p o r su p a rte , puede
u tilizarse com o p ru e b a de u n a sola m u e stra p a ra c o m p arar las
frecuencias observadas con las q u e se h an an ticip ad o teórica­
m ente. E n algunos casos, pueden o b ten erse intervalos d e confian­
za em pleando procedim ientos no param étricos. P o r lo tanto, una
vez que se h aya fam iliarizado con las p ru e b as tra ta d a s en este
texto, el lecto r p ro p e n d erá ta l vez a co n su ltar o b ras m ás especia­
lizadas. A fortunadam ente, m uchos de estos procedim ientos no
p aram étrico s pu ed en com prenderse fácilm ente, au n p o r p a rte del
lecto r sin g ran p rep aració n m atem ática. Es u n a suerte, tam bién,
que cierto n ú m ero de esos procedim ientos hayan sido resum idos
en textos recientes de Siegel [7 ], B radley [1 ] y Pierce [5]. El
lecto r p o d rá co n su ltar asim ism o con provecho la extensa biblio­
g rafía sobre m étodos n o p aram étrico s com pilada p o r Savage [ 6].
T anto en este ca p ítu lo com o en el a n te rio r hem os observado
q u e es necesario' d istin g u ir e n tre m u estras que fu ero n seleccio­
n ad as in d ependientem ente, y aquellas que h a n sido paread as o
en las que se incluyen com paraciones de puntuaciones correspon­
dientes a los m ism os individuos. De e sta m anera, la indepen­
dencia, o la fa lta de ella, e n tre m u estras, es u n a de las considera-
raciones que deben h acerse cuando se escoge e n tre distintos
pro cedim ientos estadísticos. E n el caso de m u estras paread as
fo rm am o s u n a sim ple p u n tu ació n p a ra cad a p a r, y a continuación
utilizam os el d ato com o si se tra ta ra d e u n a sola m uestra. Cuan­
do las m u estras h a n sido tra ta d a s independientem ente, no siendo
ta l vez iguales p o r o tra p a rte los tam añ o s de las m u estras,
fo rm ulam os la h ip ótesis nula, suponiendo que h a hab id o m u és­
treo s in dependientes de las m ism as poblaciones, y que la d is tri­
bu ció n de n u e stra estad ística de la p ru e b a (Z, t, r, U o D ) se
b asó e n dicho su puesto. E stos principios se am plían fácilm ente
a m ás de dos p ru eb as. E n los capítulos xv y xvi observarem os
com paraciones e n tre tre s o m ás m u estras seleccionadas indepen­
dien tem ente, cuan do la segunda variable p u ed e se r u n a escala
nom inal, o rd in al o de intervalo. Aun cuando no nos cen trarem o s
en el exam en de ejem plos m ás com plejos, e n los que haya im ­
plícitas m ás de dos m u e stra s p areadas, p o d rá verse e n el e je r­
cicio 5 del cap ítu lo a n te rio r y en el ejercicio 5 d e este m ism o
capítulo, que la am pliación es directa. La id ea b ásica es la de
que u n o o b tiene u n a sola p u n tu ació n p a ra cad a p a r (la que pu©-
d e re s u lta r de u n a d iferencia de diferencias o alguna o tra función!
m ás com p leja), p ro ced ien d o a continuación com o si se hubiese
tra ta d o de u n a sim ple m u e stra de tam añ o N, en la que N re ­
p re se n ta el n ú m ero d e p ares (o d e trío s, etc é te ra ).
E n el p re sen te ca p ítu lo abordam os p o r p rim e ra vez u n pro b le­
m a d e tip o general, a s a b e r : el del c rite rio q u e h a d e aplicarse al
escoger e n tre p ro cedim ientos estadísticos altern ativ o s. Nos hem os
c e n tra d o especialm ente en el concepto de la eficacia de las fu e r­
zas relativ as d e las p ru e b as p o r el hecho de que algunas d e éstas
req u ieren supuestos m ás fu ertes que o tras. No debe sin em bargo
el le c to r q u ed arse b a jo la im p resió n de que el problem a es tan
sencillo com o aq u ella d istinción da a en ten d er. Ya se h a hecho
n o ta r q ue en la m ayoría de los casos p ráctico s n o se conoce lo
su ficien te acerca del v alo r real de los p a rá m e tro s com o p a ra
b a s a r en ta l conocim iento unas conclusiones definitivas. H ay ad e­
m ás o tra cuestión, m ás técnica, que no hem os discutido. E n ella
están im plicadas las sensibilidades relativas d e las p ru e b as en
ord en a la violación de los supuestos requeridos. P or ejem plo :
¿qué p erju icio se causa si se u tiliza u n a p ru e b a de diferencia de
m edias cu an d o la población tiene u n a fo rm a especificada com o
no n o rm al? ¿Q ué o cu rre si se viola el su p u esto de las escalas
de intervalo? Los estadísticos em plean la expresión robustez de
una prueba cu an d o aluden a su sensibilidad a n te diversas clases
de distorsiones. L a ro b u stez re su lta p a rtic u la rm e n te difícil de
ev aluar cuando son varias las distorsiones, o los supuestos no
cum plidos, cuya aplicación es sim ultánea. Aun cuando los proce­
dim ientos p aram étrico s, tales com o la p ru e b a de la diferencia
de m edias, p u ed en parecer razo n ab lem en te ro b u sto s b a jo m uchas
situaciones, hay diferencias d e opinión en cu a n to a lo aconseja­
ble que re su lte u tiliz a r tales p ru e b as cuando se dispone de a lte r­
nativas no p aram étricas.
N u estra p o sición es la d e que cu an d o n o se pueden aplicar
criterio s claros lo p ru d e n te es u tiliza r v arias p ru e b as diferentes,
tan to p aram étrica s com o n o p aram étrica s, publicando los dos'
grupos de re su ltad o s p a ra que el lecto r p u ed a sac ar sus propias
conclusiones. H ab itu alm en te se hace esto dando, en no tas al pie
de la página, los resultados de u n a segunda pru eb a, com entando
las razones p o r las cuales las conclusiones no re su lta ro n idénti­
cas. C uando h ay u n a p ru e b a (o estim ación) n o p aram étrica dis­
ponible, cuya fuerza sea casi ta n a lta com o la de u n procedim ien­
to param étrico com parable, tal com o la p ru e b a de M ann-W hitney
com o altern ativ a a la p ru eb a t, p arece ría p referib le confiar m ás
bien en el p rocedim iento no p aram étrico . E nco n trarem o s em pe­
ro m uchos pro cedim ientos p aram étrico s m ultivariados p a ra los
que no existe u n a altern ativ a no p aram étrica satisfactoria. An­
tes que u s a r u n a altern ativ a débil o teóricam ente n o satisfacto­
ria, re su lta preferible, si tal es el caso, re c u rrir decididam ente
a los p ro cedim ientos p aram étrico s, conscientes de que n o se
po d rán o b ten er con ellos resu ltad o s definitivos. No es posible,
en pocas p alab ras, d a r u n a sim ple re sp u esta dogm ática a la p re­
g u n ta: ¿Qué clase de p ru e b a o m edida es la m ás apropiada?

G losario
Prueba no param étrica
* Eficiencia de fuerza
* Función de fuerza
* Fuerza de una prueba

E jercicios
1. Se ha clasificado cierto número de iglesias protestantes de una
localidad como: 1) predominantemente de clase alta o clase media
alta» o 2) predominantemente de clase media baja o clase baja. Se
ordenan según el grado de formalismo de sus servicios, con los si­
guientes resultados:
Clase alta o clase media alta: órdenes 1, 2, 3, 6, 7, 8, 11, 13, 14, 15, 17,
21, 25
Clase media baja o clase b a ja : órdenes 4, 5, 9,10, 12,16, 18, 19, 20, 22,
23, 24, 26, 27.

Sirviéndose del nivel de .05, ¿puede establecerse una diferencia sig­


nificativa: a) con la prueba de las secuencias, y b) con la de Mann-
Whitney? ¿Qué prueba preferiría el lector? ¿Por qué? Respuesta,
a) r = 14, no rechazar; b) U = 52, no rechazar.
2. En el cuadro 18.3 se dan datos de los grados de popularidad de
los miembros de un grupo de un campo de trabajo de verano. Con­
sidérese a las personas con los grados de participación del 1 al 8 como
“activas" en las discusiones del grupo, poniendo a las demás en la
categoría de “inactivas”. ¿Existe al nivel de .05 diferencia significa­
tiva alguna entre las personas "activas” y las “inactivas" por lo que
se refiere a la popularidad? Empléense sucesivamente las pruebas de
las secuencias y de Mann-Whitney.
3. Supóngase que se ha logrado ordenar las ocupaciones urbanas
por grados descendentes, sirviéndose de las categorías generales de
profesional y directivo, empleado, obrero calificado, semicalificado y
no calificado. El investigador ha preguntado a todos los padres de
familia si son o no partidarios del aumento de los beneficios de la
seguridad social a expensas del contribuyente. Los resultados son
como sigue:

Nivel de ocupación Partidarios Contrarios

Profesional y directivo 46 97
Empleado 81 143
Obrero calificado 93 88
Obrero semicalificado 241 136
Obrero no calificado 131 38

Total 592 502

¿Existe alguna relación significativa entre la ocupación y la actitud


al nivel de .001? Respuesta, D — .282, P < .001.
4. Resolver el ejercicio 2 del capítulo x m utilizando la prueba de
Smimov. Comparar estos resultados con los de la prueba í.
5. Efectúense todas las indagaciones del ejercicio 5 del capítulo xm ,
sirviéndose de la prueba de Wilcoxon de los pares asociados y los ór­
denes provistos de signo. ¿Cómo se comparan entre sí los resultados
de las dos pruebas? Respuesta, a) T = 14.5, no rechazar; c) T = 11,
no rechazar.
* 6. Verifiqúese que la ecuación (XIV.8) es equivalente désete el pun­
to de vista algebraico a la otra fórmula de Z dada en la página 273.
B iblio g ra fía

1. Bradley, J, V.: Distribution-free Statistical Tests, Prentice-Hall,


Inc., Englewood Cliffs, N. J., 1968, caps. 1-3, 5, 11 y 13.
2. Dixon, W. J., y F. J. Massey: Introduction to Statistical Analysis
3? ed., McGraw-Hill Book Company, Nueva York, 1969, cap. 17.
3. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall
Inc., Englewood Cliffs, N. J., 1967, cap. 13.
4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 18.
5. Pierce, Albert: Fundamentáis of Nonparametric Statistics, Dicken-
son Publishing Company, Inc. Belmont, Cal., 1970, cap. 14.
6. Savage, I. R.: "Bibliography of Nonparametric Statistics and Re-
lated Topics”, Journal of the American Statistical Association,
vol. 48, pp. 844-906, 1953.
7. Siegel, S,: Nonparametric Statistics for the Behavioral Sciences,
McGraw-Hill Book Company, Inc., Nueva York, 1956, caps. 5 y 6.
8. Smith, K.: "Distribution-free Statistical Methods and the Concept
of Power Efficiency”, en L. Festinger y D. Katz (eds.) Research
Methods in the Behavioral Sciences, The Dryden Press, Inc., Nue­
va York, 1953, pp. 536-577.
9. Swed, F. S., y C. Eisenhart: "Tables for Testing Randomness of
Grouping in a Sequence of Altematives”, Annals of Mathematical
Statistics, vol. 14, pp. 66-87, 1943.
10. Walker, H. M. y J. Lev: Statistical Inference, Henry Holt and
Company, Inc. Nueva York, 1953, cap. 18.
E n e l p resen te capítulo- vam os a estu d iar las relaciones en tre dos
o m ás escalas nom inales. Ya vim os que el caso de dos escalas
nom inales dicotóm icas podía tra ta rs e como u n problem a que com ­
p o rta ra u n a diferencia de proporciones. R esulta a m enudo de­
seable servirse de u n procedim iento de p ru e b a m ás general, que
nos ponga en condiciones de averiguar las diferencias que haya
e n tre tres o m ás m uestras, o de co m parar dos (o m ás) m ues­
tra s con resp ecto a u n a variable de m ás de dos categorías. La
p ru eb a de la ^-cuadrada que vam os a exam inar en la próxim a
sección nos perm ite establecer relaciones e n tre escalas nom ina­
les con cu alquier n ú m ero de categorías. Se in tro d u cirán al p ro ­
pio- tiem po algunos conceptos nuevos. H asta aquí sólo nos hem os
ocupado de p ru eb as acerca de la existencia de u n a relación en­
tre dos variables. E n este capítulo se p re se n ta rá n algunas m e­
didas indicativas de la fuerza o grado de relación. Se exam inarán
al p ro p io tiem po procedim ientos em pleados p a ra el control de
u n a o m ás variables.

XV.1. La prueba de la cuadrada


La p ru e b a de la -/-cuadrada es u n a p ru e b a m uy general que pue­
de em plearse cuando- deseam os ap reciar si unas frecuencias obte­
nidas em píricam ente difieren significativam ente o no de las que
se esp erarían b ajo cierto co n ju n to de supuestos teóricos. La
p ru e b a general p re sen ta m uchas posibilidades de aplicación, la
m ás com ún de las cuales, en ciencias sociales, es la relativa a los
p roblem as de “contingencia” en los que dos variables de escala
nom inal se h an clasificado p o r com paración de una con o tra .1
Supóngase, p o r ejem plo, que se h an relacionado u n a con o tra la
confesión religiosa y la filiación política y que los datos se h an
resum ido en el siguiente cuadro de contingencia de 3 x 3 :

Partido Protestantes Católicos ludios Total

Republicanos 126 61 38 2.25


Demócratas 71 93 69 233
Independientes 19 14 27 60
Total 216 168 134 5.18
1 En relación con otro empleo de la ^-cuadrada, véase el ejercicio 3 a!
final del capítulo.
289
Obsérvese que si las frecuencias se convirtieran en porcentajes,
p odríam os d ecir que, en ta n to que el 58.3 p o r cien to de los p ro ­
testan tes son republicanos, sólo p re fiere n este p artid o el 36.3 por
ciento de los católicos y el 28.4 p o r ciento de los judíos. Se nos
p o d ría entonces o c u rrir p re g u n ta r si esas diferencias eran o no
significativas desde el p u n to de vista estadístico. Como q uiera que
se tienen tre s confesiones religiosas y tre s categorías de prefe­
ren cia política, no podernos servirnos d e u n a sim ple p ru e b a de
las diferencias de las proporciones. Sin em bargo, sirviéndonos
de la p ru e b a de la /^-cuadrada, podem os estab lecer esencialm ente
la m ism a clase de hipótesis n u la que an terio rm en te. Podem os
sup o n er, en efecto, que no existe d iferencia alguna e n tre las tres
confesiones religiosas. E sto equivale a decir que las proporciones
de republicanos, de dem ócratas y d e independientes deberían ser
las m ism as en cada tino de dichos grupos. P artiendo, pues, del
supuesto de que la hipótesis n u la es co rre c ta y d e que las m ues­
tra s son aleato rias e independientes, podem os calcu lar un con­
ju n to de frecuencias que p o d ría n esperarse, dados los totales
m arginales en cuestión. E n o tro s térm inos, podem os calcular el
n ú m ero de p ro te sta n te s de los que esp eraríam o s fu e ran republi­
canos y c o m p arar esta cifra con la que se h a obtenido en re a ­
lidad. Si la diferencia y las diferencias co rrespondientes a las
o tra s casillas son considerables, p ro b ab lem en te sospechem os de
la hipótesis nula.
H ay que o b tener, pues, alguna m ed id a de la d iferencia en tre
las frecuencias observadas y las esperadas. Existe, p o r supues­
to, u n a g ran ca n tid a d d e m edidas, p ero necesitam os u n a con
resp ecto a la cual la distribución de m u estras sea conocida y
esté tab ulada. P o r ello nos servim os de u n a m edia designada
com o de la ^-cuadrada (y'¿), que se define com o sigue:

X2 = S Í Í L Z ^ 1 (XV.1)
Je
en lo que f0 y f e se refieren respectivam ente a las frecuencias ob­
servadas y esp eradas p a ra cada casilla.2 O en o tras p a la b r a s : la
^-cuadrada se o btiene tom ando p rim ero el cu ad rad o d e la diferen­
cia e n tre las frecuencias observadas y esperadas p a ra cada casilla.
Dividimos d icha cifra e n tre el n ú m ero de casos esperados en cada
casilla, con o b jeto de norm alizarla, de m odo que las m ayores
contribuciones n o provengan siem p re de las casillas m ayores. Y
la sum a de to d as esas cantidades no negativas p a ra todas las ca­
sillas es el v alo r de la ^-cuadrada.

2 Con objeto de reducir la confusión hemos abandonado el índice i, su­


poniéndose, con todo, que estamos sumando los resultados de todas las
casillas.
O bsérvese que cu an to m ayores son las diferencias e n tre las
frecuencias observadas y las esperadas, tan to m ayor es el valor
de la /-cu ad rad a. É sta sólo será cero si todas las frecuencias
o bservadas y esperadas son idénticas. Podem os proceder a una
verificación de la hipótesis n u la b uscando la distribución de m ues­
treo de la /-cu adrada. D ifícilm ente anticiparem os que las fre ­
cuencias observadas y las esperadas sean exactam ente las m is­
m as. Sin em bargo, si el valor de la ^-cuadrada resu lta m ayor
de lo que al azar se anticiparía, estarem os en condiciones de des­
c a rta r la hipótesis n u la siguiendo el procedim iento habitual.
Problem a. Podem os servirnos del ejem plo pu esto anteriorm en­
te, p e ro sim plificándolo, de m an era que obtengam os u n a ta b la de
2 X 2. La extensión del m ism o al caso general re su lta rá después
m uy sencilla. Supongam os, pues, que se h an com binado los ca­
tólicos y los judíos y que se h a prescindido de los independien­
tes. Tenem os así el siguiente cuadr&

Católicos
Partido Protestantes y Total
judíos
Republicanos 126 99 225
Demócratas 71 162 233

Total 197 261 458

Im p o rta o b servar que las cifras de cada casilla son en realidad


frecuencias y no po rcen tajes. Si ías cifras dadas son porcentajes,
hay q ue convertirlas en frecuencias, ya que, desde el punto de
vista estadístico, la p ru e b a de la /-cu a d rad a com porta u n a com ­
p aració n de frecuencias y no de porcentajes.

1. S upuestos.
N ivel de m e d ic ió n : dos escalas nom inales
M odelo: m u estras aleatorias independientes
H ip ó tesis: n o existen diferencias e n tre las poblaciones con­
fesionales e n relación con la preferen cia política.

P o r supuesto, el nivel de m edición puede ser m ás elevado. En


efecto1, las p ru ebas de la /-cu ad rad a se utilizan con frecuencia
con escalas ordinales e inclusive, en ocasiones, con escalas de
intervalo. Sin em bargo, según vim os en los capítulos preceden­
tes, se dispone en tales casos de pruebas m ás fu ertes que se
em p learán p o r lo re g u lar con preferen cia a la /-cuadrada. Una
vez m ás, h ay que su poner independencia e n tre las m u estras p ara
serv irse de la p ru e b a de la /-cuadrada. La m agnitud de la m ués-
t r a h a de se r re lativ am en te grande, p o rq u e la %-cuadrada, según
la define la fórm ula, tiene u n a d istrib u ció n de m u estreo que sólo
se ap roxim a a la del cu ad ro si N es grande.3
L a h ip ótesis n u la p u ed e fo rm u larse en cierto n ú m e ro de m o­
dos equivalentes. D ecir que no hay diferencia e n tre grupos con­
fesionales en m a te ria de p referen cia p o lítica equivale esencial­
m en te a d ecir que no- hay d iferencia alguna e n tre la filiación
religiosa y la p re fere n cia electoral. H ay que te n e r p resen te, sin
em bargo, que sem eja n te afirm ación sólo- se ap licaría a las varia­
bles tales com o se las haya definido o p erativ am en te; en este caso,
p o r ejemplo-, la p referen cia política y la religión se definirían
com o variables dicotóm icas. P o d ría tam bién enunciarse la hipó­
tesis n u la enum erando las diversas proporciones que se suponen
iguales. Si bien este últim o m étodo sea ta l vez el m ás preciso,
p u ed e re su lta r con todo m uy em barazoso en el caso general.
2. N ivel de significacióni^Siipongam os que querem os dem os­
t r a r u n a diferencia y que deseam os se r ex trem adam ente cautos.
Nos servirem os, en consecuencia, del nivel de .001. Supóngase
asim ism o que n o se h a anticipado- la dirección de la diferencia.
3. D istribución de m uestreo. Las distribuciones de m u estreo
d e la %-cuadrada e stán dadas e n el cu ad ro I del A péndice 2. Ob­
sérvese que las distribuciones difieren de acu erd o con los grados
de lib e rta d im plicados. La determ inación de los grados de liber­
tad se exam inará m ás abajo. Como q u iera que, independientem en­
te de la dirección de la relación e n tre la confesión y la p refe­
ren cia política, n u estro in terés e stá en sab e r si la ^-cuadrada
o b ten id a es o n o m ayor de lo que se e sp e raría al azar, sólo nos
ocupam os de la cola m ayor de la distribución. La cola m enor,
que consta de valores m uy pequeños de la i-cuadrada, n o se
suele em p lear p o r lo- reg u lar en los problem as de contingencia.
4. Cálculo de la estadística de la prueba. Lo p rim e ro que h a­
cem os en el cálculo de la ^-cuadrada es o b ten er las frecuencias
esperad as. La hipótesis nula dice que no- hay preferencias de la
gente en cuanto a la votación. P o r lo tan to , independientem ente
d e cuál sea el v e rd ad ero n ú m ero de republicanos en cada u n a de
las poblaciones confesionales, esperaríam os que, a la larga, h ab ría
la m ism a p ro p o rció n de aquéllos en am bas m uestras. Como q uiera
que la p ro p o rció n de republicanos en la m u estra com binada es
de 225/458, o sea .4913, esp eraríam o s la m ism a cifra en cada
u n a de las dos m u e stra s confesionales. Así, pues, anticiparíam os
en cada uno de ellos los m ism os p o rcen tajes de republicanos y
de dem ócratas. Podem os o b ten er luego el núm ero esp erad o de
republicanos en tre los p ro te sta n te s m ultip lican d o .4913 p o r el
n úm ero to tal 4de p ro te sta n te s de la m u estra. E n esta form a,
el núm ero an ticipado de p ro te sta n te s republicanos sería (.4913)

* Para un examen más detallado de este problema véanse las pp. 299-301.
(197) = 96.8. Las dem ás frecuencias anticipadas pueden calcularse
en fo rm a análoga. P o r lo re g u lar se recom ienda re te n e r p o r lo
m enos u n a cifra decim al al calcular las frecuencias esperadas.
De m odo que en el caso a n te rio r no redondearíam os a 97.
Antes de p a sa r adelante, conviene ob serv ar que las frecuencias
esp erad as tam bién pueden obtenerse razonando en fo rm a inver­
sa, esto1 es, en térm inos de la pro p o rció n de republicanos que
esp eraríam o s que fu e ran p ro testan te s. Toda vez que la p roporción
de p ro testan te s en la m u e stra com binada es de 197/458, o sea
.4301, podem os o b ten er la frecuencia an ticip ad a de republicanos
p ro te sta n te s com o sigue: (.4301) (225) = 96.8. El lecto r h a de
ac o stu m b ra rse a o b ten er las frecuencias esp erad as en am bas fo r­
m as, a títu lo de co n tro l de los cálculos.
U na vez que nos hayam os aco stu m b rad o al procedim iento, en­
co n trarem o s p ro b ab lem en te m ás sencillo' servim os de u n a sim ple
fó rm u la com o la q u e se describe a continuación. Si designam os
las casillas y los to tales m arginales com o

a b a+ b
c d c+d

a+c b+d N

entonces la frecuencia esp e rad a puede o b ten erse m ultiplicando


los dos m arginales correspondientes a la casilla en cuestión y
dividiendo e n tre N . Así, p o r ejem plo, la cifra esp erad a p a ra la
casilla a sería

(a + b ) ( a + c ) / N = (225) (197)/458 = 96.8

El em pleo de este ú ltim o procedim iento reduce todo e rro r de


red o n d eo que p o d ría in tro d u cirse dividiendo1 p rim ero (p a ra ob­
ten er la p ro p o rció n ) y m ultiplicando luego.
Se o b serv ará que este procedim iento de m u ltip licar m arginales
p a ra dividirlos e n tre el núm ero to tal de casos, viene a ser b ásica­
m ente el m ism o que se exam inó en el capítulo ix en relación con
la independencia de dos variables. E sto pone de relieve el hecho
de q ue las frecuencias esperadas son com putadas sobre la b ase
del supuesto de que las variables no e stá n relacionadas, en ta n ­
to que las frecuencias observadas nos m u e stra n el grado en que
se viola este supuesto. R ecuérdese que si los eventos (o va­
riab le s) A y B son estad ísticam en te independientes, el conocer
el v alo r de u n o n o nos ay u d ará a p re d ecir el otro. Si las fre ­
cuencias observadas y las esperadas son exactam ente iguales, ello
significaría, en n u estro ejem plo, que el conocer las diferencias
religiosas d e u n a p erso n a no1 nos p e rm itiría p re d ecir sus incli­
naciones políticas.
P or convención, ponem os p o r lo reg u lar las frecuencias espe­
rad as e n tre p arén tesis, debajo de las frecuencias realm ente ob­
tenidas p a ra cada casilla, ta l com o se indica a co n tin u ac ió n :

Partido Protestantes Católicos


y judíos Total

Republicanos 126 99 225


( 96.8) (128.2)
Demócratas 71 162 233
(100.2) (132.8)
Total 197 261 458

Los cálculos p a ra la /-cu ad rad a pueden resum irse en u n cuadro


com o el X V .l. O bsérvese que la can tid ad f 0 — f e tiene el mis-

Cuadro XV .l. Cálculos de la /-cuadrada

Casilla f0 1e fo~fe (fo-fe* ( f o - f e Wf e


a 126 96.8 29.2 852.64 8.808
b 99 128.2 -29.2 852.64 6.651
c 71 100.2 -29.2 852.64 8.509
d 162 132.8 29.2 852.64 6.420
Total 458 458.0 30.388

m o valor p a ra cada casilla. E l lecto r debería convencerse p o r sí


m ism o de que esto será siem pre así en el caso de tablas de 2 X 2,
p ero que no se d eja con todo generalizar a otros casos. El hecho
de elevar este valor al cu ad rad o tien e p o r efecto la elim ina­
ción de las can tidades negativas. Im p o rta que se em pleen en el
d enom inador las frecuencias esperadas, y no las observadas. En
efecto, estas ú ltim as v aria rán de u n a m u estra a o tra, y pueden
incluso ser iguales a cero.
R esulta a m enudo m ás conveniente servirse de u n a fórm ula de
cálculo que no re q u ie ra la sustracción efectiva de cada frecuencia
esperada de su correspondiente observada. D esarrollando el nu­
m erad o r en la expresión de la /-cu a d rad a y uniendo los térm inos
o b ten em o s:
( f e - f e )2 ^ f <? - V o te + / .2
PROBLEMAS DE CONTINGENCIA 295

Pero, to d a vez que tan to 2 /„ com o 2/„ son iguales a N, te n e m o s:

2■ /o2
X ■N (XV.2)

Sirviéndonos de esta fórm ula, que co m p o rta una sola su stra c ­


ción, obtenem os el m ism o re su ltad o que an terio rm en te (véase
cuadro XV.2).

Cuadro XV.2. Cálculo de la %-cuadrada sirviéndose de la fórm ula

Casilla f 2
10 fo2/fe
a 15 876 164.008
b 9 801 76451
c 5 041 50.309
d 26244 197.620

T o ta l 488.388

y2 - 488.388 - 458
" = 30.388

E n el caso de u n a ta b la de solam ente 2 x 2 , re su lta posible ex­


p re s a r la /-cu a d rad a com o sim ple función de las frecuencias de
las casillas y de los to tales m arginales. Si se designan las casillas
com o an terio rm en te, ten em o s:

f = --------------N("'ad ~ bC)¿-------------- (XV.3)


* (a + b) (c + d) (a + c ) (b + d)

Si b ien este cálculo re q u ie re la m ultiplicación de núm eros gran­


des, el em pleo de los logaritm os lo- sim plificará con todo con­
siderablem ente. Vemos el paso, de la ecuación (XV.3), q u e la
•/-cuadrada será cero cuando' el producto- diagonal ad sea exacta­
m en te igual al p ro d u c to be. E ste hecho puede em plearse com o
m éto d o ráp id o p a ra sab e r si es o no necesario seguir adelante
con la p ru e b a de significación. Si los p ro d u cto s diagonales son
casi iguales, la /-cu a d rad a será dem asiado peq u eñ a p a ra p ro p o r­
cio n ar significación. E stos p roductos diagonales sirven asim ism o
p a ra d eterm in a r la dirección de la relación sin que tengam os que
m o lestarn o s en calcular los p orcentajes. El m ayor de los dos
p ro d u cto s indica, en efecto, cuál de las diagonales contiene la
m ay o ría de los casos.
* T anto las an terio res fórm ulas p a ra / ( c h i) al cuadrado, com o
el pro ced im ien to p a ra calcu lar frecuencias esperadas, son sufi-
cientes en la m ayoría de los casos, pero- puede re su lta r ú til co­
n ocer una versión algo distinta, aplicable al caso r X c en gene­
ral, conveniente p a ra quienes deseen proseguir el tem a de la 7 al
cu adrado en otros textos m ás avanzados. E sta form ulación alter­
nativa será u tilizada m ás adelante p a ra ob ten er el lím ite supe­
rio r de x al cu adrado en el caso general r X c. P or o tra parte,
esta fo rm a altern ativ a p a ra la fó rm u la n o requiere el cálculo ex­
plícito de las frecuencias esperadas.

Sea N íj = n ú m ero observado en (i, ;')-ésima casilla del cuadro, y


ei} = n úm ero esperado (b a jo H 0) en la casilla (i, j),
p a ra i = 1 , 2, . . . , r ; y / = 1 , 2, . . c.
O
Sea N u — E N ijt p a ra i = 1, 2, . . r (to tal de filas), y
i—i
r
N.¡ = 2 Nij, p a ra y = 1, 2, . . . , c (to tal de colum nas).
Í-=1

Así podrem os expresar y al cu ad rad o com o sigue

• (jv4 _ e )s
Xa =
1,=1
2 S " ’í

p ero puesto que

Ni. N., N;. N.t


&ij~ N ' N N N
la fórm ula com putadora (XV.2) pasa a ser

r r c A l-Z
f = N 2 2 ----- *--------1
[. *=! ^ N¡. N.j
y así vemos que no hay necesidad de co m putar explícitam ente
las frecuencias esperadas.
5. Decisión. Antes de servirnos del cuadro de la ^-cuadrada,
hem os de d eterm in a r los grados de lib ertad asociados a esta es­
tadística de prueba. En los problem as anteriores, los grados de
lib ertad dependían siem pre del núm ero de los casos selecciona­
dos. En los problem as de contingencia, en cambio, dichos grados
sólo dependen del núm ero de casillas del cuadro. Al calcular las
frecuencias esperadas, pudo observarse que no es necesario cal­
cu lar valores p a ra cada casilla, ya que la m ayoría de ellas podían
obtenerse p o r sustracción. Y de hecho, en la ta b la de 2 X 2 sólo
necesitam os calcular u n a de las frecuencias esperadas, y las o tras
quedan au to m áticam ente determ inadas. E sto es así porque, p a ra
calcu lar las frecuencias esperadas, nos servim os de los totales
m arginales de n u e stra m u estra. E n o tro s térm in o s: si ponem os
el valor de u n a casilla cualquiera, los dem ás valores están p er­
fectam ente determ inados, ya que las frecuencias esperadas han
de te n e r los m ism os totales m arginales que las observadas. Por
lo tan to , sólo tenem os u n grado de lib ertad .
H abiendo, pues, averiguado que en la ta b la de 2 X 2 sólo hay
un grado de libertad, buscam os en el cu ad ro de la /-cu ad rad a
a lo largo de la hilera correspondiente a u n grado de lib ertad
h asta e n c o n trar el nivel de significación deseado. Vemos en esta
fo rm a que al nivel de .001 le corresponde u n a /-cu ad rad a de
10.827. E sto significa que, si todos los supuestos son efectiva­
m ente correctos, obtendrem os u n valor de la /-cu ad rad a igual
o m ayor que ése u n a vez e n tre mil. E n o tro s té rm in o s: sólo m uy
ra ram en te d iferirán las frecuencias observadas y las esperadas
en u n a cantidad que dé u n a /-cu ad rad a > 10.827, si no h u b iera
relación alguna e n tre la confesión religiosa y la preferencia en
cu anto al voto (ta l como se h a definido operativam ente en este
p ro b lem a). Y com o q u iera que hem os obtenido p a ra la /-cua­
d ra d a u n valor igual a 30.388, concluim os que la hipótesis nula
pued e descartarse al nivel de .001. Vemos, de paso, que, si N es
grande, no es n ad a difícil llegar a o b ten er significación al nivel
de .001.
Pese a que sólo nos ocupáram os de valores grandes de la
/-cu ad rad a, la dirección de la relación no se anticipó en el ejem ­
plo an terio r. Independientem ente de si los p ro testan tes p re sen ­
tab an m ás probabilidades de ser republicanos o dem ócratas, el
re su ltad o h a b ría sido u n a /-cu ad rad a grande si los p o rcen tajes
eran tam b ién grandes. E n otros térm inos, la estadística de la
p ru e b a es aquí indiferente a la dirección de la relación, ya que
co m p o rta los cuadrados de las desviaciones y, p o r consiguiente,
no pued e ser negativa. Podem os sacar p a rtid o de las predicciones
relativas a la dirección partien d o sim plem ente p o r la m ita d el
nivel de significación obtenido. En efecto, si la /-cu ad rad a es lo
b astan te grande p a ra d a r significación al nivel de .10 sin a n ti­
cip ar dirección, el re su ltad o será tam bién significativo al nivel
de .05, a condición, p o r supuesto, que la dirección de la rela­
ción se haya fijado de antem ano.
Si el nivel de significación deseado no puede obtenerse exacta­
m en te de la tab la d e la /-cuadrada, se conseguirá u n a aproxim a­
ción satisfacto ria extrayendo la raíz c u a d rad a de la /-cu ad rad a
y recu rrien d o a la ta b la norm al. Así, p o r ejem plo, sabem os que
u n a /-cuad rad a de 3.841 con u n grado de lib ertad corresponde
al nivel de .05 si no se h a adivinado la dirección. La raíz cu adrada
de esta cifra es 1.96, que es el valor de Z necesario p a ra ob ten er
sig n ificació n co n la ta b la n o rm a l. É s ta , sin e m b arg o , sólo p u ed e
e m p le a rse e n el c a so de p ro b le m a s d e co n tin g en c ia d e 2 X 2.
Caso general. E n el caso general d e la tab la de contingencia con
r hileras y c colum nas, los supuestos y cálculos p a ra la ^-cua­
d ra d a sólo req u ieren u n a ligera m odificación. La hipótesis nula
de "ausencia de diferencias” o "ausencia de relación" im plica
ah o ra que cada población te n d rá las m ism as proporciones p ara
cada u n a de las categorías de la segunda variable. Las frecuen­
cias esperadas pueden obtenerse exactam ente en la m ism a fo r­
m a que an terio rm en te, p ero ten d rem o s ah o ra re casillas, y los
grados de lib e rta d serán distintos.
Supóngase que nos servim os del m ism o p roblem a an terio r,
p ero en su fo rm a original, o sea la de u n a tab la de 3 X 3. O bser­
vemos de p aso que e sta tab la nos p roporciona m ay o r inform a­
ción que la de 2 X 2, en la que los católicos y los ju d ío s se com ­
bin aro n en u n a sola categoría. Podem os, p o r lo tan to , esp erar
resu ltad o s que difieran algo de aquellos obtenidos an terio rm en ­
te. Calculando las frecuencias esperadas p o r uno cualquiera de
los m étodos an terio rm en te sugeridos, obtenem os:

Partido Protestantes Católicos Judíos Total


R e p u b lic a n o s 126 61 38 225
( 9 3 .8 ) ( 7 3 .0 ) ( 5 8 .2 )
D e m ó c ra ta s 71 93 69 233
( 9 7 .2 ) ( 7 5 .6 ) ( 6 0 .2 )
In d e p e n d ie n te s 19 14 27 60
( 2 5 .0 ) ( 1 9 .4 ) ( 1 5 .6 )

T o ta l 21 6 168 134 518

Puede co n stru irse u n a tab la de cálculo lo m ism o que a n te rio r­


m en te (véase cu ad ro XV.3).
P ara d eterm in a r los grados apropiados de lib ertad , observam os
que, u n a vez las dos p rim eras frecuencias esperadas in scritas en
la p rim era colum na, la te rc e ra se h alla d eterm in ad a p o r su strac­
ción. Y lo m ism o es cierto de la segunda. Todas las frecuencias
esperadas de la te rc e ra colum na e sta rá n determ inadas a p a rtir
de los totales de la hilera. E n térm inos generales: p a ra cada
u n a de las p rim era s c — 1 colum nas será posible llen ar todas las
casillas m enos una, o r — 1. La colum na final estará, pues, siem ­
p re p erfectam en te determ inada. P or 1o- tanto, el núm ero de los
grados de lib ertad de la tab la de contingencia de r X c puede
expresarse p o r m edio de la fó rm u la

d f — (r — í ) (c — l )
Cuadro XV.3. Cálculo de la /-cuadrada para una tabla de
contingencia de 3 x 3

Casilla fo fe •f 02 w u

a 126 93.8 15 87 6 169.254


b 61 73.0 3 721 50.973
c 38 58.2 1444 24.811
d 71 97.2 5 041 51.862
e 93 75.6 8 649 114.405
f 69 60.2 4 761 79.086
g 19 25.0 361 14.440
h 14 19.4 196 10.103
i 27 15.6 729 46.731

T o ta l 518 5 18.0 561.665

x 2 = 5 6 1 .6 6 5 - 518 = 43.665

O bsérvese que esta fó rm u la da u n grado de lib ertad en el caso


especial en que r = c = 2.
T oda vez que son 4 los grados de lib e rta d asociados a n u estra
tab la de 3 X 3, vem os que p a ra el rechazo al nivel de .001 se re ­
q u iere u n a /-cu ad rad a de 18.465. R echazam os, p o r consiguiente,
la hipótesis nula. O bsérvese que si p a ra rechazar se req u iere un
valor m ayor de la /-cuadrada, es p orque hay m uchas m ás casillas
que contribuyen a dicho valor. Como q u iera que la /-cu ad rad a
re p re se n ta u n a sum a y n o un prom edio, esp eraríam os que, en
igualdad de condiciones, cu an to m ayor sea el núm ero de casillas,
ta n to m ay o r será la /-cuadrada. El hecho de que el valor de la
/-cu a d rad a re q u erid o p a ra o b ten er significación aum ente con los
grados de lib ertad n o d eb ería so rp ren d em o s.4
Corrección de continuidad. Ya se indicó que la p ru e b a de la
/-cu a d rad a req u iere u n a N relativam ente grande debido al hecho
de que la distribución de m u estreo de la estad ística de la p ru e b a
sólo se aproxim a a la distribución de m u estreo dada en la tabla
de la /-cu ad rad a si N es grande. P lantéase, pues, n atu ra lm e n te la
cuestión de cuán gran d e debe ser N p a ra que podam os servirnos
de d icha prueba. La resp u esta depende del nú m ero de casillas
y de los totales m arginales. G eneralm ente, cu an to m en o r sea el
n ú m ero de casillas y cu an to m ás aproxim adam ente iguales sean
todos los totales m arginales, tan to m en o r p o d rá ser N . Los
crite rio s n o rm alm ente utilizados p a ra decidir si el nú m ero de
casos es o no suficiente, im plican las frecuencias esperadas
de cada casilla. Siem pre que cualquiera de estas frecuencias sea

* Obsérvese que esto era al revés en el caso de la distribución t. ¿Por qué?


aproxim adam ente de cinco1 o m enor, se recom ienda p ro ced er a
alguna clase de m odificación, com o se indica a continuación.
Se supone que la distribución de la ^-cuadrada es continua. En
realidad, sin em bargo, si el n ú m ero de casos es relativam ente
pequeño, re su lta im posible que el v alo r calculado de la '/-cuadrada
tom e m uchos valores distintos. E sto es así p o rq u e las frecu en ­
cias observadas h an de ser siem pre núm eros enteros. Al co rre­
gir con fines d e continuidad, n o s im aginam os que las frecuen­
cias observadas pueden to m a r efectivam ente todos los valores
posibles y nos servim os de los que quedan a u n a distancia de
m edia u n id ad a u n o y o tro lado del en tero obtenido, lo que dará
los resu ltad o s m ás conservadores. E n el caso de la tab la de
2 x 2, la corrección de continuidad p u ed e h acerse m uy fácilm en­
te. E sta corrección consiste ya sea en a ñ a d ir o su stra e r .5 de las
frecuencias observadas, con objeto de re d u c ir el tam añ o de la
/-cu ad rad a. La versión corregida de la ecuación ( X V 3 ) es la si­
guiente :
/ N\ 2
N ^ \ a d -b c \ j

(a + b) (c + d) (a + c) (b + d )

P ara a p reciar el efecto de la corrección de continuidad, pode­


mos ver los siguientes c u a d ro s :

(A) 7 13 20 (B) 7.5 12.5 20


(10) (10) (10) (10)
8 2 10 7.5 2.5
(5) (5) (5) (5) 10

15 15 30 15 15 30
x2 = 5.40 x2 = 3.75

E n el cuadro B hem os corregido p o r razones de continuidad re ­


duciendo las diferencias e n tre las frecuencias observadas y espe­
rad as en m edia unidad. H em os su p u esto que h ab ía e n tre 6.5 y
7.5 casos en la casilla su p erio r de la izquierda, y hem os tom a-
d ó \e l n ú m ero de 7.5, p o rq u e es el valor m ás cercano, al in­
terio r de dicho intervalo, de la frecuencia esp e rad a de 10.0. E n
este ejem plo, la corrección de con tin u id ad reduce el nivel de sig­
nificación de ap roxim adam ente .02 a algo m ás de .05. Es obvio,
p o r lo dem ás, que las correcciones de co ntinuidad pro d u cirán
m enos efecto cuando- las frecuencias esperadas sean m ayores.
Toda vez que sem ejante corrección co m p o rta en realid ad un
esfuerzo adicional m uy pequeño y que, p o r o tra p arte , al proce­
d e r así actuam os en sen tid o conservador, se recom ienda efec­
tu a rla siem pre que en cualquier casilla la frecuencia esperada
descienda p o r debajo d e 10. Con m u estras m uy pequeñas, in­
cluso esta corrección pro d u ce resultados engañosos. P ara las
tab las d e 2 X 2 se dispone de u n a p ru e b a altern ativ a que se exa­
m in a en la sección siguiente.
E n el caso- de la ta b la general de contingencia, las correcciones
de con tin u id ad n o son fáciles de hacer. Si el nú m ero de casillas
es relativ am en te g ran d e y si solam ente u n a o dos de las casi­
llas tien en frecuencias esp erad as de 5 o m enos, entonces reco­
m iéndase, p o r lo general, seguir adelante con las pruebas de la
/-cu ad rad a, sin p reo cu p arse mucho- p o r tales correcciones. En
cam bio, si el nú m ero d e casillas es pequeño, la ú n ica alternativa
p rá ctica con sistirá tal vez en com binar las categorías de m odo
que dichas casillas re su lten elim inadas. P or supuesto, las cate­
gorías sólo pueden com binarse si ello- posee teóricam ente algún
sentido. Así, p o r ejem plo, si h u b iera u n a categoría "de o tras con­
fesiones” que c o n sta ra de u n nú m ero ta n grande de grupos
confesionales que la categoría n o tu v iera teóricam ente sentido
alguno, ta l vez sería p referib le excluir a dichas personas p o r
com pleto del análisis aunque, como- regla general, no- es buen
sistem a el de excluir d ato s de u n análisis.

*XV.2. La prueba exacta de Fisher


E n el caso de tab las de 2 X 2 en las que N es m uy pequeña, es
posible servirse de u n a p ru e b a d esarrollada p o r R. A. Fisher, que
nos da p ro babilidades exactas, y no- aproxim adas. Si designam os
las casillas y los m arginales de la tab la de 2 X 2 de la siguiente
m a n e ra :
a b a+ b
c d c+d

a+ c b+ d N

podem os conseguir la p ro b ab ilid ad de o b ten er exactam ente esas


frecuencias en la h ipótesis n ula de que no hay diferencias en las
p ro p o rciones de las poblaciones. E sta p ro b ab ilid ad nos e stá dada
p o r la fó rm u la:

(a + & )!(c + d ) !(.« + c ) \ ( b -f d ) !


P = ~~ ~Ñ \a\b~\c\d\

E sta fó rm u la de p ro b ab ilid ad puede o b ten erse utilizando la dis­


trib u ció n h ip ergeom étrica p a ra el cálculo de probabilidades so­
b re la b ase de m u estreo sin reposición. E n esta prueba, com o en
algunas o tra s p ru eb as no param étricas, podrem os en ten d er el
pro b lem a com o si éste contuviera rep etid as m u estras de una
“población” de tam año N. T ratam os así n u e stra m u e stra obte­
nida como si se tra ta ra de u n a población real, e im aginam os en
este ejem plo que las categorías de nu estro s casos les dan cabida
en una de las cu atro casillas. Como hay a + c individuos en la
p rim era colum na, a + b en la p rim e ra fila, y así sucesivam ente,
¿cuál será la p ro b ab ilid ad de que de los a + b individuos de la
p rim era fila co rresp o n d an exactam ente a a la p rim e ra colum na
y b a la segunda? Nos im aginam os h a b e r m u estread o a + b in­
dividuos al azar p ero sin reposición, colocándolos en la prim era
fila, con los re sta n te s cayendo p o r necesidad en la segunda fila.
En efecto, re su lta que im aginam os que llenam os las casillas por
un proceso esencialm ente al azar, y preguntam os cuál hubiera
sido la ex actitu d de los resu ltad o s si hubiese sido seguido tal
proceso.
Aplicando la fó rm u la p a ra la distrib u ció n hipergeom étrica dada
en la sección X.4, verem os que la p ro b ab ilid ad de o b ten er exac­
tam en te a y b casos en las dos casillas de la fila su p erio r vendría
d ada p o r

P(a,b) =

E scribiendo cada u n o de los térm inos en función de factoriales,


y sim plificando, o b ten em o s:

(a + c)! (b + d)\ (a + c ) ! (b + d) \
a\(a + c - a ) \ b\(b + d - b ) \ alcl bldl
P( a , b ) =
NI N\
(a + b ) \ ( N — a — b ) \ (a + 1b ) \ (c + d ) !

(a + c ) \ { b + d ) \ ( a + b ) \ ( c + d ) \
Nlalblcldl

P uede com p robarse fácilm ente que se h a b ría conseguido el


m ism o re su ltad o si hubiéram os concebido el problem a com o
o rien tad o a seleccionar u n a m u e stra de a + c individuos, asig­
nándolos a continuación a la p rim e ra colum na.
Obsérvese q ue hay nueve factoriales en esta fó rm u la de P. Por
lo tanto, la ta re a de calcularla sería form idable. P o r o tra p arte,
com o q u iera que n o rm alm en te se e s tá in teresad o en o b ten er la
cola e n te ra de la d istribución de m uestreo y no la probabilidad
de av erig u ar exactam ente los resultados obtenidos, h a b ría que
añ ad ir, a esta p ro b ab ilid ad p rim era, las probabilidades de obte­
n er incluso m ás resu ltad o s poco corrientes en la m ism a dirección.
Un sencillo ejem plo num érico ilu s tra rá lo que esto significa.
Supóngase que hem os obtenido la siguiente ta b la de 2 X 2:

3 9 12
12 5 17
15 14 29

Si suponem os que los m arginales perm anecen fijos, vem os


in m ediatam en te q u e hay tre s resultados (e n la m ism a dirección)
que son incluso m ás difíciles de obtenerse. Son los sig u ien tes:

2 10 12 1 11 12 0 12 12
13 4 17 14 3 17 15 2 17

15 14 29 15 14 29 15 14 29

O bsérvese q u e podem os llegar a las tablas sucesivas reduciendo


cad a vez en uno las casillas a y d y au m entando en u n o las casi­
llas b y c, h a sta llegar a la ta b la final, en la que la casilla a está
vacía.
Supongam os que la casilla a es siem pre la que contiene el m e­
n o r n ú m ero de casos, ya que siem pre tendrem os la posibilidad
de d isp o n er las tab las en ta l forma.® Sirvám onos del sím bolo P0
p a ra designar la p ro b a b ilid ad de o b ten er exactam ente cero casos
en la casilla a (d ados los m arginales en cu e stió n ), en la hipótesis
n u la ; pongam os que P± re p re se n ta la p ro b ab ilid ad de o b ten er
ex actam en te u n caso en la casilla a, Pa la de o b te n e r exactam ente
dos casos, etcétera. Así, pues, en este p ro b lem a p a rtic u la r h e­
m os de o b ten er la su m a d e las probabilidades

Po + Pi + ^2 + P&
p a ra calcu lar la p ro b ab ilid ad de o b ten er tre s o m enos casos en
la casilla a. Y ya que nos estam os sirviendo de una p ru e b a de
s En raros casos cambiará la dirección de la relación si se sigue la regla
de que la casilla a sea siempre la más pequeña. Por ejemplo, si las dos
distribuciones marginales son muy desiguales, la regla tal vez no se apli­
que. Así, si a, b, c y d son 1, 2., 3 y 7, respectivamente, el producto ad ( = 7 )
es mayor que el producto be ( = 6). Si uno reduce entonces a hasta 0, las
casillas resultantes serán 0, 3, 4 y 6, y se producirá una inversión de direc­
ción, puesto que be > ad. Deben ser vigiladas tales inversiones y, en caso
de que se produzcan, deberá denominarse como a la casilla más pequeña en
la menor de las dos diagonales.
u n a sola cola, habrem os de doblar el nivel de significación obte­
nido, si no estuviéram os en condiciones de p o d er p red ecir Ja di­
rección.0
S erá m ucho m ás conveniente que calcular cada u n a de las
de la fó rm u la an terio r, que co m p o rta p ro d u cto s de factoriales,
ob ten er P 0 d irectam en te y o b ten er luego las probabilidades res­
tan tes como funciones de P0. Con objeto de distin g u ir en tre las
varias com binaciones posibles de los valores num éricos de a, b,
c y d en el caso de m arginales fijos, sirvám onos de u n subíndice
k p a ra d esig n ar la m agnitud de la casilla m ás pequeña a. Así,
p o r ejem plo, si hay k individuos en la casilla a, designarem os
las cantidades de las dh'ersas casillas como- a.k ( = k), bk, ck y dk.
Toda vez q ue se supone que los m arginales perm anecen fijos, si
dism inuim os % y d Jc en uno, hem os de au m en ta r b k y ck tam bién
en uno. Podem os ah o ra sim plificar la fó rm u la de P 0, ya que
ao = 0 y, p o r consiguiente, a0! = 1 (p o r definición), (cz0 + &«) ¡ =
b0 \, y ( a0 + c.0)! = c0!. O sea que cierto número- de factoriales se
elim inan, dejándonos c o n :

n _ (cfí + d 0) \ ( b 0 + d0)\

El n u m era d o r consta ahora solam ente de los factoriales de dos


de los m arginales, en lu g ar de los cuatro, y el denom inador sólo
co m p o rta JV!' y d0 !. El valor de d 0 puede o b ten erse de la últim a
de las tablas anteriores. P or lo tanto, en este ejem plo, (c0 + d 0) =
17, {b0 + d 0) — \A, N = 2,9, y d0 ~ 2, P0 puede calcularse ah o ra
sirviéndonos de u n a tab la de logaritm os de factoriales, o bien
escribiendo los factoriales y simplificando-.
Con o bjeto de calcular los valores de Pít P2 y P?, necesitam os
ah ora u n a fó rm u la general de Pk+1 en función de Pk. Ya que los
m arginales se suponen fijos, tenem os:

n ( a + b) !(c + d) !(a + c) \(b + d ) !


Pk+1 ~ N l ( a k + l ) l ( b k - l ) l ( d kT W

debido al hecho de que, al a ñ a d ir uno a la casilla a, lo añadim os


tam bién a la casilla d y lo sustraem os tanto de b com o de c. Si
dividim os ah o ra Pk+1 en tre Ph, p rácticam en te todos los térm inos
desaparecen. E n efecto, los n u m era d o res de am b as p robabilida­
des son idénticos, ya que todos ellos com portan los m ism os m ar­
ginales. El fa cto rial de N se elim ina. Y nos queda:

6 En un sentido estricto, la prueba de Fisher deberá ser usada probable­


mente sólo en el caso en que previamente se hubiera predicho la dirección,
ya que las dos colas casi nunca serán perfectamente simétricas.
PROBLEMAS DE CONTINGENCIA 305
P¡c+i ^ - b k \ck \dk \
Pb ( afc+ l ) ! ( f o s - l ) ! ( c fc- l ) ! ( 4 + D !
P ero ak l / ( ak + í ) ! es igual a l / ( a k + 1), y lo m ism o p o r lo que
se refiere a d k \ / { d k + 1)!. O sea, pues, bk \ f ( b k - 1)! = b,„ y c b\¡
(ck — 1)! = Cj.. P o r co n sig u ien te:

bi-c,,
Pk ( «f c+nC^f c+l )
o sea
P bA P
7“+1 (fl,. + l ) ( 4 + l ) *

y los facto riales fastidiosos h a n desaparecido. P or lo tan to , po­


dem os servirnos de esta fó rm u la p a ra o b ten er P, a p a rtir de P0.
Una vez o b ten id a P, podem os calcular P2, y así sucesivam ente.
V olviendo a n u estro ejem plo num érico, obtenem os P 0 com o
sig u e :
14!17!
P0 = ------------= .17535 X 10-*
2912 E

Y p o r consiguiente:

bnC0 12(15)
P = ---------- — --------- P0 = _ — 1 (.17535 x 10-5) _ 10.521 x 10-»
(ao+l)(4>+D K3)
Al calcu lar P2 hem os de cuidar de servirnos de a1: b¡, cx y d 1: y
no de las cifras em pleadas p a ra o b ten er Pt . Tenemos, a s í :

P , = ---------b -1 ----------= m i l i (10.521 x 1 0 -5) = 202.529 x 10-»


‘ (fll + l ) ( d 1 + l ) 2(4)

Y análogam ente :

boC2 10(13)
P = ---------^ -------- p = _J:— 1 (202.529 x 1 0 -s ) = 1 755.252X 10-»
(añ + l ) ( i 2 + l ) 3(5)

O bsérvese que cada u n o de los factores del n u m era d o r va dis­


m inuyendo en 1, al calcular Ph+1 a p a rtir de P fc, en ta n to que los
del d enom inador van aumentando* cada vez en una unidad. Su­
m an d o las p ro b abilidades te n e m o s /p u e s :

P 0 + Pj + P2 + Po = (.175 + 10.521 + 202.529 + 1 755.252) x 10-=


= 1 968.48 x 10-E = .0197
P o r lo tan to , la p robabilidad de o b ten er tres o m enos individuos
en la casilla a es, con la hipótesis nula, de .02, y tom arem os nues­
tr a decisión de re ch az ar o no la hipótesis n u la en consecuencia.
_D ebido a que la p ru e b a de F ish er es exacta, m erece p re fere n ­
cia resp ecto de la p ru e b a de la /-c u a d ra d a corregida con fines de
co n tinuidad. Y com o q uiera que p o r lo regular la p ru e b a de la
/-c u a d ra d a d a rá probabilidades algo m ás b ajas que la p ru eb a
de F isher, si lo que se desea en re alid ad es rech azar la hipótesis
nula, o b rarem o s, al servirnos de ésta, en sentido conservador. En
o tro s térm inos, si nos servim os de la p ru e b a de la '/-cuadrada,
pu ed e se r que lleguem os a probabilidades que en realid ad sean
dem asiado pequeñas, lo que nos llevaría acaso a la conclusión de
que la h ipótesis n ula deba d esc artarse cuando en re alid ad n o sea
así. Si la frecu en cia m ínim a esp e rad a es sensiblem ente superior
a 5 y si se em plea la corrección de continuidad, las dos pruebas
d arán ap ro x im adam ente los m ism os resultados. Aun logrando
e v ita r el em pleo de factoriales en el caso de la p ru e b a de Fisher,
se echa de v er que, si la frecuencia m en o r de la casilla es m ayor
que 5, los cálculos necesarios p o d rá n re su lta r m uy fastidiosos.
De ahí que se en c u en tre que dicha p ru e b a re su lta m ás p ráctica
en el caso de N m uy pequeñas, o siem p re que el tam año de la
m u estra sea m oderado y uno- o m ás de los m arginales sean m uy
pequeños. E n los casos en que am bos, ( a + b ) y (c + d ) son < 30,
existen tab las en (3) que sim plifican considerablem ente el em ­
pleo de esa p ru e b a exacta.

XV.3. M edidas de la fuerza de la relación


H a sta aquí sólo nos hem os ocupado de la cuestión d e sab er si
existía o no u n a relación en tre variables. H em os establecido hi­
pó tesis nulas en el sentido de que n o se d ab a relación alguna, y
hem os tra ta d o de descartarlas. Pero, cuando estam os en condi­
ciones de d escartar, ¿qué es lo que hem os logrado? D esignam os
u n a relación com o estad ísticam en te significativa cuando hem os
establecido, b ajo el riesgo de e r ro r de tipp I, que sí existe una
relación e n tre las dos variables. Sin em bargo, ¿quiere esto decir
que la relación es significativa en el sen tid o d e s e r u n a relación
fu e rte o im p o rtan te? N o necesariam ente. E n efecto, la cuestión
de la fuerza de la relación es to talm e n te d istin ta de la de su
existencia. E n esta sección vam os a ocuparnos de diversas m e­
didas de grados de asociación que ayudan a co n testa r la segun­
da de las p reg u n tas.
A p rim e ra v ista p o d ría p arece r razonable tr a ta r de establecer
la fuerza de la relación observando sim plem ente el nivel de signi­
ficación conseguido con u n a pru eb a. Así, p o r ejem plo, podría
d isc u rrirse en el sen tid o de que si u n a p ru e b a es significativa al
nivel de .001 y o tra al nivel de .05, la p rim era sería la m ás fuerte
de las dos. Pero, ¿es esto necesariam ente así? El exam en de los
dos niveles de significación nos dirá en cuál caso podem os e star
m ás seguros de que la relación existe. Así, en el prim ero de los
dos casos citados estaríam os casi seguros de que existe efectiva­
m ente u n a relación, pero no lo estaríam os tan to en el segundo.
H em os de recordar, no obstante, que el nivel de significación
alcanzado depende del tam año de las m u estras usadas. E n efec­
to, com o se indicó an teriorm ente, si las m uestras son m uy
grandes, re su lta p o r lo regular m uy fácil establecer significación,
au n en el caso de u n a relación m uy superficial. Esto significa,
de hecho, que, cuando las m uestras son grandes, decim os en re a­
lidad m uy poca cosa al afirm a r que hem os establecido u n a re la ­
ción “significativa”. E n el caso de m u estras grandes, es m ucho
m ás im p o rtan te p re g u n ta r, “dado que existe u n a relación, ¿cuál
es su fu erza?”
Con o b jeto de ilu s tra r lo que se acaba de decir, veam os un
poco m ás de cerca cierta propiedad de la /-cuadrada. Al hacerlo,
el lecto r deberá te n e r p resen te que los m ism os principios se
aplican exactam ente a o tra s clases de p ru e b as de significación.
Preguntém onos qué sucede con la /-cu a d rad a cuando el núm ero
de casos aum enta. Con fines de ilu stració n podem os to m a r la
siguiente tab la de 2 X 2.

30 20 50
20 30 50
50 50 100

La /-cu a d rad a de esta tab la re su lta ser exactam ente 4.0. Suponga­
m os ah o ra que se duplican los tam años de las m uestras, m an te­
niendo las m ism as proporciones en .cada casilla. O btendríam os
así :
60 40 100
40 60 100
100 100 200

y la /-cu ad rad a sería 8.0, o sea una cifra exactam ente doble de la
an terio r. Exam inando la fórm ula de la /-cu ad rad a, re su lta m uy
fácil d em o strar que, si las proporciones d e las casillas p erm ane­
cen in alterad as, la /-cu a d rad a varía directam ente con el núm ero
de casos. Si duplicam os el nú m ero de éstos, duplicam os aquélla,
y si triplicam os los p rim eros, triplicam os la segunda. Supóngase
que el n ú m ero de casos inicial se m u ltip lica p o r el facto r k. E n­
tonces, com o q uiera que las proporciones de las casillas p erm a­
necen inalterad as, to d a nueva frecuencia observada será exacta­
m ente k veces la an terio r, y lo m ism o p o r lo que se refiere a las
frecuencias esp eradas. La nueva y-cuadrada puede, pues, expre­
sarse com o:

,(X ) -------
^ W
71--------" = ^S -------
o - k f e )2
—-------- = A,: 2^- ( f o ~
k ? ( f o - f e )2 f e )2

k fe k fe fe

Así, pues, el v alo r de la nueva ^-cuadrada es exactam ente k ve­


ces el de la p rim itiva.
Las im plicaciones de este hecho pueden d estacarse p o r m edio
de o tra ilu stració n. S upóngase que obtenem os los siguientes re ­
su ltados al re la cio n ar las diferencias de sexo con la tolerancia
resp ecto de co n d u ctas a n ó m a la s:
Toterancia Varones Mujeres
Alta 26 24
B aja 24 26

E n este caso la ^-cuadrada es 0.16, y estarem o s en lo cierto in­


form an d o que la relación n o es significativa. Supóngase, sin em ­
bargo, que el estu dio fu e m uy am bicioso y que se re u n ie ro n datos
corresp o n d ien tes a 10 000 casos, con los siguientes re su ltad o s:

Tolerancia Varones Mujeres


Alta 2 600 2 400
B aja 2 400 2 600

La ^-cuadrada es a h o ra 16.0, o sea u n v alor altam en te significativo


desde el p u n to de v ista estadístico. S in em bargo, si hubiéram os
expresado los re su ltad o s en térm in o s de po rcen tajes, la cosa se
h a b ría p re sen tad o com o m ucho m enos in tere sa n te. Si dijéram os
q u e el 52 p o r cien to d e los varones e ra altam en te tolerante; en
ta n to que sólo co rresp o n d ía a dicha categoría el 48 p o r ciento
de las m ujeres, nos c ritica rían con razón p o r d estac ar las dife­
ren cias ap a ren tem e n te insignificantes ta n to desde el p u n to de
v ista teórico com o del significado práctico. E ste ejem plo ilu stra
u n p u n to m u y im p o rtan te. E n efecto, u n a d iferen cia_p u ed e ser
in tere sa n te estad ísticam en te sin serlo en ningún o tro sentido.
E n el caso en que se seleccionaron 10 000 casos, podem os e sta r
b ien seguros q ue h ay cierta relación superficial, que p ro d u ciría
u n a relación significativa desde el punto- de v ista estadístico.
Vemos, pues, que si u n a m u e stra es pequeña, se req u iere una
relación m ucho m ás m an ifiesta p a ra o b ten er significación. P or
lo tan to , con las m u estras pequeñas las -pruebas de significación
son m ucho m ás im p o rtan tes. E n tales casos es posible que diga­
m os m ucho cu an do podem os estab lecer significación. E l nivel
de significación d epende de dos factores, a sa b e r: de la fuerza
o grado de la relación y deí tam añ o de las m u estras. P uede ob­
ten erse significación con u n a relación m uy fu e rte y m u estras m uy
peq u eñ as o, in versam ente, con u n a relación m uy débil y m ues­
tra s m uy grandes. E n la m ayor p a rte de la investigación social,
n u e stro in terés p rim o rd ial está n o ta n to en h a lla r variables re la­
cionadas u n as con o tras, sino en localizar relaciones im p o rtan ­
tes. A unque conviene recalca r que no to d as las relaciones fu e rtes
son im p o rtan tes (v.gr. la relación e n tre las edades respectivas
del m arid o y la m u je r), p a ra que u n a relación sea de alguna
im p o rtan cia p rá ctica h a de ser p o r lo m enos m o deradam ente
fu erte. U na vez que h a sido establecida la existencia de u n a re ­
lación, el investigador deb ería p re g u n ta rse siem pre, “¿cuán fu er­
te es?”
¿Cóm o se m ide, pues, la fuerza de u n a relación? E stam os bus­
cando u n a m ed id a descriptiva que nos ayude a re su m ir la rela­
ción de tal modo- que podam os c o m p a ra r varias relaciones y lle­
g ar a u n a conclusión respecto de cuál sea la m ás fu erte. Desde
el p u n to de v ista ideal, nos g u staría te n e r alguna clase de in te r­
p retació n o p erativa de la m edida que nos a tra e intuitivam ente.
P o r convención, los estadígrafos h a n ad o p tad o la c o stu m b re de
con ceb ir m edidas que tengan la u n id ad p o r lím ite superior, y cero
o bien m enos un o (— 1.0) com o lím ite inferior. M uchas relaciones
sólo p u ed en alcanzar s u lím ite de 1.0 (o — 1.0) cuando la relación
es perfecta, y a d o p tan el valor de cero cu an d o e n tre las variables
n o existe relación alguna, o sea cuando son independientes. Va­
m os a ex am in ar a continuación algunas m edidas que pu ed en u ti­
lizarse con las tab las de contingencia, procediendo a a p réciar
sus propiedades.
Antes de e n tra r en el exam en de varias m edidas d e asociación
que pueden em plearse co n las tablas de contingencia, h a b ría que
m encionar, p o r lo m enos, el pro ced im ien to relativ am en te sencillo
y obvio- de in d icar diferencias e n térm in o s de p o rcen tajes. Es
posible, sin la m en o r duda, o b ten er u n a indicación m uy bu en a
del grado d e relación e n tre dos variables dicotóm icas co m p aran ­
do p o rcen tajes. Así, p o r ejem plo, si el 60 p o r ciento* de los va­
ro n es seleccionados se clasifican com o altam en te to leran tes, en
ta n to que sólo se po n e en tal categoría el 30 p o r ciento de las
m u jeres, tenem os u n a diferencia del 30 p o r ciento e n tre los dos
grupos. ¿P o r qué, pues, n o servirnos de u n a m edida sem ejan te
com o m edida de la fuerza de la relación? Si com param os indivi­
duos de las clases m edia e inferior, p o r ejemplo;, desde el p u n to
de v ista de la tolerancia, y sólo obtenem os u n a d iferencia del
20 p o r ciento, podem os a firm a r u n a relación m ás fu e rte e n tre
el sexo y la to leran cia que e n tre é sta y la clase.
E n el caso especial de la ta b la de 2 X 2, los p o rc en tajes p u e­
den efectivam ente co m p ararse en ta l form a, y la extensa fam ilia-
rización con los p o rcen tajes, en c o n tra ste con o tro s tip o s de
m edidas, h ab laría ciertam ente en favor de estas com paraciones.7
Pero, ¿qué p a sa rá con la tab la general de r X c? Aquí el uso de
los p o rcen tajes puede dificultarle al lecto r ap reciar a p rim era
vista cuán fu e rte sea la relación. Supóngase, p o r ejem plo, que
se utilizaban tres clases con los siguientes re su ltad o s: clase su­
perior, 70 p o r ciento altam ente to le ra n te ; clase m edia, 50 por
ciento altam en te tolerante, y clase inferior, 30 p o r ciento alta­
m ente to leran te. Tenem os ah o ra u n a distancia del 40 p o r ciento
e n tre las clases superior e inferior, o sea u n a diferencia num éri­
cam ente m ayor que la que existe e n tre los varones y las m ujeres.
P o r o tra p arte , p o r lo regular esperarem os una diferencia m ayor
cuando sólo se consideran los extrem os. Supóngase que se h u ­
bieran ten id o cinco clases, ¿qué clase de diferencias de porcen­
tajes esp eraríam os ahora, y cómo com pararíam os los resultados
con los de la ta b la de 2 X 2? Y p a ra in tro d u cir u n a idea m ás,
supóngase que nos sirviéram os de c u a tra categorías de toleran­
cia. Es obvio que se hace difícil establecer com paraciones de
u n a tab la a o tra. N ecesitam os, pues, u n a m edida única de re su ­
m en, que ten g a los m ism os lím ites su p erio r e inferior, indepen­
dientem ente del nú m ero de c a silla s..
M edidas tradicionales basadas en la ^-cuadrada. Ya se observó
que la ^-cuadrada es d irectam ente proporcional a N . Podem os
servirnos d e esfe hecho p a ra co n stru ir varias m ed id as de asocia­
ción. En el caso de las dos tablas de contingencia

30 20 50 60 40 100
20 30 50 y 40 60 100

50 50 100 100 100 200

deseam os u n a m edida que tenga el m ism o valor p a ra cada una


de las tablas, y a que, cuando expresam os los resultados en té r­
m inos de p o rcen tajes, éstos son los m ism os en am bos casos. E n
o tro s té rm in o s : diríam os p robablem ente que los grados o fuer­
zas de la relación son idénticos en los dos grupos de datos, y que
la única diferencia está en la m agnitud de las m u estras. Aunque
el valor de la ^ - c u a d r a d a Sea el doble en la segunda tab la de lo
que es en la p rim era, observam os, con todo, que, si se la divide
en cada caso e n tre el nú m ero to tal de los casos, los resultados
son idénticos. E sto sugiere que la expresión y?/N o algún m ú lti­
plo de la m ism a nos daría u n a de las propiedades que buscam os
en n u e stra m edida, o sea la de d a r el m ism o re su ltad o cuando
las proporciones de casillas com parables son idénticas.

t Veremos otra ventaja de los porcentajes cuando estudiemos declives


en el capítulo xvn. Como ya se indicó en el caso de las pruebas para di-,
ferencias de diferencias en proporciones, una diferencia de proporciones pue­
de ser considerada como un caso especial de declive.
Obsérvese que el valor de y?/N, o <f>2 según se la escribe com ún­
m ente, es 0 cuando e n tre las variables n o existe relación en ab­
soluto. R esulta que, en el caso d e tablas de 2 X 2 (o 2 X k ), <¡ia
tien e tam b ién la u n id ad p o r lím ite su p erio r cuando la relación
e n tre las dos variables es perfecta. Supóngase, en efecto, que
h u b iéram o s obten ido la siguiente ta b la :

0 50 50

50 50 100

P uede v erificarse fácilm ente que, en este caso, la ^-cuadrada es


100 y, p o r consiguiente, <f>2 es 100/100, o sea 1.0. O cu rrirá siem pre
que, cuando dos casillas opuestas diagonalm ente sean am bas
cero, el valor de la ^-cuadrada en u n a ta b la de 2 x 2 se ría N , y
p o r lo tan to <¡b2 será la unidad. Es obvio que, en el ejem plo con­
siderado, la relación es perfecta. Si el sexo se relacio n ara en él
con la tolerancia, p o d ríam o s decir que todos los varones son a lta ­
m en te to leran tes y to d as las m u jeres a ltam en te in to leran tes. E n
u n a term inología con la que n o hab rem o s de ta rd a r en fam iliari­
zarnos, podem os decir que el todo de la variación en m a te ria de
to leran cia se explica p o r el sexo o está asociado con él.8
E n la tab la general de r x c, pu ed e alcanzar u n v alo r con­
sid erab lem en te m ayor que la unidad. P o r lo tanto, se h a n des­
arro llad o diversas o tras m edidas que son asim ism o sim ples fu n ­
ciones de %2/N , p ero que tienen tam b ién com o lím ite su p erio r la
unid ad . La p rim e ra de éstas, designada com o la T de Tschuprov,
se define com o :

T2 _ ________ t __________________
N ^/{r-l){c-\) y ( r - l ) ( c - 1)

Aunque el lím ite su p erio r de T sea la unidad, este lím ite sólo
pued e alcanzarse cuando los núm eros de hileras y dolum nas son
iguales. E n otro s té rm in o s : T h a de ser siem pre m en o r q u e la
u n id ad en u n a tab la de 2 x 3 o de 3 X 5. Si hay considerable­
m en te m ás h ileras que colum nas (o viceversa), el lím ite su p erio r
de T pu ed e q u ed ar m uy p o r debajo de la unidad. P ara co rreg ir
este hecho, podem os siem pre dividir el v alo r obtenido de T e n tre
la m áxim a T posible p a ra núm eros dados de hileras y colum nas.
Sin em bargo, com o q u iera que disponem os de m edidas m ás sa­
tisfactorias, n o necesitam os exam inar este procedim iento de co­
rrección.

s Esto supone, por descontado, que la tolerancia se toma corno variable


dicotómica.
* Podem os m o stra r que el lím ite su p erio r de es M in ( r — 1,
c — 1 ), utilizando la fó rm u la :

I
r c
2 /S
<=i 2i •
N i.N .j

Obsérvese que:

N i? N i}
< ------ p a ra i=l,2,...,r
Ni.N.j ~ Ni_

Ni? ^ Na . , ,
y T T T r— par a ; = 1 »2, ...,C

P o r tan to

r c Ni? r ° N if r
2 , 2 --------- —
í = i í= .i Ní.N.j ~~
<
i=1 1=1 Ni.
2 2 — = 2 1 = r

r 0 9 r n c
y 2 2 --------- - — < 2 2 — — = 2 1 = c
< _ i i N i.N .j - / - i «-i Af.y í'” 1
r c

Así: 2
í= i
2 --------- - Min (r,c)
N - ---- <

y de allí:

X2 < J V [ M i n ( r , c ) - 1 ] = AT[ Mi n ( r - 1, c - 1 ) ]

P o r ta n to :

<j>2 < Min ( r — 1, c — 1)

Hay o tra m edida, in troducida p o r C ram ér y que designarem os


com o V, que se define com o sigue:

V2- ^ ^
N M in (r — 1, c — 1) M i n ( r — l , c — 1)

e n donde M in (r — 1, c — 1) designa r — 1 o c — 1, según cuál de


ellas sea m en o r (v alo r m ínim o de r — 1 y c — 1). Si bien V no se
u tiliza co rrien tem en te en la bibliografía social, con todo parece
s e r p referib le a T, en cuanto puede alcanzar la un id ad aun cuando
los núm eros de hileras y colum nas n o sean iguales. Como puede
verificarse fácilm ente, V y T son equivalentes siem pre que r = c.
De o tra form a, siem pre será V algo m ayor que T. P or supuesto,
am bas m edidas son equivalentes de <¿> en el caso de 2 X 2. Y ve­
m os tam b ién que V y <j> serán idénticas en el caso de 2 X k.
O tra m ed id a de asociación b asad a en la /-cu ad rad a es el coefi­
cien te de contingencia de Pearson, C, que e stá dado p o r:

Al igual que las o tras m edidas, C se hace cero cuando las v aria­
bles son independientes. Sin em bargo, el lím ite su p erio r de C
depende del n ú m ero de hileras y colum nas. E n el caso de 2 X 2,
el lím ite su p erio r de C2 se convierte e n . N / ( N + N) , ya que
puede alcanzar u n valor m áxim o de N. P or lo tanto, el lím ite
s u p e rio r de C es .707. Si b ien el lím ite su p erio r aum en ta a m edi­
da que au m en ta el n ú m ero de hileras y colum nas, dicho' lím ite
siem pre es m en o r que la unidad. De ahí que C sea algo m ás difí­
cil de in te rp re ta r que las o tras m edidas, a m enos que se in tro ­
duzca u n a corrección dividiendo e n tre el valor m áxim o de C p a ra
n ú m ero s p articu lares de hileras y colum nas. E n el caso de la
tab la 2 x 2 , p o r ejem plo, la C o btenida h a b ría de dividirse e n tre
.707.
Las m edidas an terio res de la fuerza de la relación se b asan
to d as ellas en la '/-cuadrada. Como q u iera que p o r lo regular
el v alo r de la ^-cuadrada se h a b rá calculado previam ente con ob­
je to de verificar el significado, todas las m edidas en cuestión re ­
qu ieren en realid ad m uy poco cálculo adicional. P ero p o r o tra
p arte , n o existe razón p a rtic u la r alguna en cuya v irtu d u n a m e­
dida de asociación haya de b asa rse en la estad ística de la p ru e b a
correspondiente. E n efecto, puede d em o strarse que todas las
m edidas basadas en la ^-cuadrada son algo- a rb itra ria s en su esen­
cia y sus in terp retacio n es d ejan m ucho que desear. Así, p o r ejem ­
plo, to d as ellas confieren m ayor peso a las colum nas o hileras
de m arg in ales m ás pequeños que a las de m arginales m ayores [ 2 ].
Sin em bargo, com o q u iera que ta n to la p ru e b a T com o la C se
en cu en tran con frecuencia en la bibliografía, e¡l lecto r deb ería fa­
m iliarizarse con sus propiedades.
La Q de Yute. O tra m ed id a de uso- co rrien te es la Q de Yule,
que es tam b ién u n caso especial de la m edida y (gam m a) que se
d isc u tirá en el capítulo x v in en relación con las escalas o rd in a­
les. E sta m edida sólo puede em plearse con la tab la de 2 X 2 y se
define com o sigue:
ad — be
ad + be
en donde a, b, c y d se refieren a las frecuencias de las casillas.
Obsérvese que, u n a vez elevado al cu ad rad o y m ultiplicado p o r
N, el n u m era d o r es el m ism o que en la expresión de la /-cu a d ra­
da. Lo m ism o que en el caso de las dem ás m edidas, Q desaparece
cuando las variables son independientes, o sea, cuando los p ro ­
ductos diagonales ad y be son iguales. A diferencia de <£2, sin
em bargo, Q alcanza sus lím ites de ± 1.0 cuando una cualquiera de
las casillas es igual a cero. Con o b jeto de com p ren d er el c a rá c te r
de las circu n stancias en cuya v irtu d Q pueda se r igual a la u n i­
d ad en tan to que <f>2 queda p o r d eb a jo de dicho valor, tom em os
los siguientes ejem p lo s:

30- 0 30 40 0 40
20 50 70 10 50 60

50 50 100 50 50 100

M ientras Q a d o p ta el valor de la u n id ad en estas dos tablas, los


valores corresp o ndientes de <¿>2, en cam bio, son de .429 y .667 res­
pectivam ente. E n am bos casos sería im posible que desaparecie­
ra n dos casillas diagonalm ente opuestas, debido al c a rá c te r de
los m arginales. De ahí que <f>2 sólo p u ed a a d o p ta r el v alo r de uno
cuando se verifican determ inadas condiciones en relación con los
m arginales. E n la tab la de 2 x 2, los m arginales de la p rim era
variable h an de ser idénticos a los d e la segunda.9 C uanto m ayor
sea, pues, la d iscrepancia e n tre los m arginales de las hileras y
las colum nas, tanto- m en o r es el lím ite su p erio r de c¡>2.
P lantéase ah o ra la cuestión de sab e r si querem os o n o conside­
r a r u na relación com o "p erfe cta” cuando sólo desaparece u n a de
las casillas, Al p arecer, la resp u esta a esta cuestión d eb ería depen­
der, e n tre o tras cosas, de la m an era com o estén fo rm ad as las ca­
tegorías de las dos variables. P or lo re g u la r es posible concebir u n
p roblem a en térm inos de u n a variable independiente y u n a varia­
ble dependiente. Parecería, pues, razonable sostener que, p a ra que
u n a relación sea perfecta, los m arginales d e la variable dependien­
te h ab ría n de "convenir” n a tu ra lm e n te a los de la variable inde­
pendiente. Supóngase, p o r ejem plo, que h u b iera 60 p ro te sta n te s
y sólo 40 católicos y judíos. E n este caso, p a ra que la relación
fuera p erfecta, esperaríam os que todos los 60 p ro testan te s vota­
ra n republicano y todos los 40 re sta n te s v o taran e n favor de los
dem ócratas. Los m arginales serían así los m ism os p a ra am bas
variables, y tan to <f>2 com o Q serían iguales a la unidad. P or o tra
parte, si la m ita d de la m u e stra v o ta ra republicano f la o tra mi-
® Esto no significa que los marginales hayan de comportar una partición
de 50-50. Significa, en efecto, que si uno de los marginales se parte en 70 y
30, el otro ha de estar también partido de 70 y 30. Las correccciones de
marginales desiguales son asimismo posibles, pero, como se desprende del
examen que sigue, habrá que ser cauto en el empleo de tales correcciones.
ta d dem ócrata, entonces, aunque todos los votos republicanos
pro v in ieran de los p ro testan te s, no podríam os decir que la re la­
ción era perfecta, ya que 10 de los p ro testan te s h ab ría n votado
dem ócrata. E n tal caso, los m arginales de la variable dependien­
te no coincidirían con los de la independiente, y <j>2 sería inferior
a la unidad. P or lo tanto, en tal caso <¿>2 p arecería ser la m edida
m ás apropiada, ya que Q to m aría el valor de la un id ad a pesar
de la relación im p erfecta e n tre las dos variables.
O curre en ocasiones que los m arginales de la variable depen­
diente son fijos, en v irtu d del m étodo em pleado al establecer las
categorías. Así, p o r ejem plo, si la variable dependiente fu e ra en
realid ad co n tin u a p ero se h u b iera hecho dicotóm ica en la m edia­
na, entonces los dos grupos de m arginales n o p o d rían ser id én ti­
cos, a no se r que los m arginales de las variables independientes
estu v ieran tam bién p artid o s en 50 y 50. P or ejem plo: si la p re ­
ferencia confesional se h u b iera referid o a las m arcas del conser­
vad u rism o político dividiendo en dos a la m ediana, entonces <£2
no p o d ría alcanzar la u n id ad (e n el su puesto de la m ism a p a rti­
ción confesional an te rio r). E n tal caso, Q p o d ría re s u lta r u n a
m edida m ás apropiada, ya que tiene en cu en ta el hecho de que
los m arginales de la variable dependiente se h an fijado p o r com ­
pleto en v irtu d del m éto d o de investigación.
La tau de G oodman y K ruskal. Cierto nú m ero de o tra s m e­
didas de asociación susceptibles de em plearse con las tablas de
contingencia h an sido p re sen tad as p o r G oodm an y K ruskal [5 ],
[ 6] y [7 ]. La m ayoría de ellas com portan lo que se h a designado
com o in terp retacio nes probabilistas. Como q uiera que tienen
u n sen tid o intuitivo que p erm ite in te rp re ta r valores interm edios
en tre cero y uno, estas m edidas p o d rá n p a re c e r superiores a las
q ue se b asan en la "/-cuadrada.
Con o b jeto de ilu s tra r u n a de estas m edidas, la xt (ta u ), tom a­
m os u n ejem plo num érico. D esignarem os las escalas nom inales
relacionadas u n a con o tra com o A y B , y tom arem os a B com o
variable dependiente.

Bi Bs Total

•^1 30 0 60 0 30 0 1200
60 0 100 100 800
^2

T o ta l 900 70 0 400 2000

Supongam os ah ora que se nos da u n a m u estra (o población) de


2 000 personas y se nos p ide clasificarlas en u n a de las tres ca­
tegorías B lt B 2 o B 3, de tal m odo que term inem os exacta­
m en te con 900 casos en B 1, 700 en Bz y 400 en B :i. Supóngase
p rim ero que no sabem os n ad a acerca de los individuos que nos
van a ay u d ar en e sta tarea. Si los individuos nos son dados en
u n orden to talm en te al azar, podem os calcular m uy fácilm ente el
nú m ero de e rro re s q u e podem os esp e ra r com eter al asignar los
individuos a u n a de las tres categorías en cuestión.
Como q u iera que hem os de asig n ar 900 individuos a B x, en ta n ­
to que 1 100 de cada 2 000 n o corresponden en re alid ad a dicha
clase, podem os e sp e rar com eter a la larga 900(1 100/2 000), o sean
495 erro res. E n fo rm a análoga, hem os de asignar 700 individuos
a B 2, en ta n to que de cada 2 000 los 1 300 n o corresp o n d en a ella.
De ahí, pues, que al colocar a los individuos en B., podam os es­
p e ra r com eter 700(1 300/2 000), o sea 455 erro res. E n o tro s té r­
m inos, d e los 700 que ponem os en dicha categoría sólo podem os
esp e rar que se clasifiquen correctam en te 700 — 455, o sean 245
individuos. P o r supuesto, n o esperam os com eter exactam ente
455 errores, p ero ésta es, con todo, la cifra que obtendríam os si
pro m ediáram os n u estro s erro res a la larga. F inalm ente, esp era­
ríam os com eter 400(1 600/2 000) o 320 erro res al asig n ar los in­
dividuos a B s. O bsérvese que, pese a que hagam os a esta catego­
ría u n a asignación m enor, n u e stro riesgo de e rro r es su p erio r al
de las dos categorías precedentes, ya que sólo- el 20 p o r ciento de
los individuos corresponde a ella. P o r lo tanto, en conjunto, al co­
locar los 2 000 individuos, esperaríam os c o m e te r:

495 + 455 + 320 = 1 270

erro res. N u estro pro m ed io no sería m uy bueno.


P ero supóngase ah o ra que se nos p ro p o rcio n ab a alguna infor­
m ación adicional acerca de cada individuo-, diciéndonos si está
e n Ax o en A.,. Y nos p reguntam os si el hecho de conocer las cla­
ses A nos ay u d ará a re d u cir el n ú m ero de e rro res com etidos al
asignar los individuos a las categorías B. Si las variables A y B
son estad ísticam en te independientes, sabem os que el conocim ien­
to de A no nos ay u d ará a p re d ecir B . E n este caso, pues, espe­
rarem os co m eter exactam ente los m ism os e rro res en q u e incu
rrim o s cuando n o poseíam os inform ación alguna acerca de A, Por
o tra p arte, si la relación e n tre A y B fu e ra perfecta, estaríam os
en condiciones de a n ticip ar B con p erfec ta precisión conociendo
A. La m edida q u e vam os a d e sa rro llar nos indica la reducción
pro p o rcio n al d e e rro res siendo- A conocida.
Veamos cómo- calculam os el nú m ero de- e rro re s anticipados co­
nociendo- A. Si se nos d a el hecho de que el individuo co rresp o n ­
de a la Ai , podem os servirnos de las cifras de la p rim e ra colum na.
H em os de p o n er ah o ra exactam ente 300 de los 1 200 individuos
en B v los 600 re sta n te s proviniendo de A2. Ya que de los 1 200
individuos de A r 900 n o corresponden en realid ad a B 1, podem os
esp e ra r com eter 300(900/1 200) o- 225 erro res. Y e n form a aná
loga, con los 600 individuos de A x que ponem os en B.¿ podem os
e sp e ra r co m eter 300 erro res, siendo el núm ero de e rro res co rres­
p o n d ien te a B a = 225. Tom am os ah o ra los 800 individuos de A2
y asignam os 600 de ellos a B x y 100 de los 200 re sta n te s a cada
u n a de las categorías B2 y B z. Al p ro ced er así, podem os esp erar
com eter 150, 87.5 y 87.5 e rro re s respectivam ente. A dicionando las
dos can tid ad es d e Ax y A2, vem os que podem os e sp e rar com eter
u n to tal de 1 075 erro res, si A es conocida.
Definim os la m edida t& com o reducción p ro p o rcio n al de e rro ­
res. Así, pues :

n úm ero de e rro re s con A desconocida —


n ú m ero de e rro re s con A conocida
— —— — ------------------------------------------------------- ------- — -
n ú m ero de e rro res con A desconocida

1 270 - 1 075 195


Tí = ------------------ = ----------= .154
6 1 270 1 270

E n o tro s térm in o s : nos hem os evitado 195 e rro res del núm ero
to tal esp erado de 1 270, y los hem os reducido en u n 15.4 p o r cien­
to. Si t 6 h u b iera re su ltad o se r .50, podríam os d a r así la in te rp re ­
tación m u y sim ple de que el conocim iento de A red u ciría el núm e­
ro de e rro re s a la m itad, en ta n to que u n v alor d e .75 equivaldría
a re d u cir el n ú m ero de los e rro re s a u n cuarto, y así sucesivam en­
te. E n el caso d e <f>2 en cam bio, sem ejante in terp re tació n sencilla
no es posible (véase [2 ]). Si hubiéram os querido in te rp re ta r las
clases B a p a r tir de las A, h ab ríam o s designado la m edida co rres­
p o n d ien te com o xa. P or lo general, xa y xb n o ten d rá n los m ism os
valores num éricos. ¿P or qué?
E n el caso del cu adro 2 x 2 puede d em o strarse que xa = t s = <p2.
E sto nos in d ica que se dan dos tipos de dificultades en la anota­
ción. O bsérvese que algunas de n u estras m edidas (C, Q, T y V)
vienen indicadas m ed ian te letra s latinas, e n ta n to que o tra s (<£ y
r) lo son m ed ian te letra s griegas. Si fu éram o s consecuentes de­
beríam o s re se rv a r las letra s griegas p a ra los p arám etro s de po­
blación calculados m ed ian te m u estras estadísticas. P o r desgracia,
u n a vez q ue los signos vienen siendo usados en fo rm a generali­
zada, re su lta difícil n o rm alizar su em pleo, y lo m e jo r que el lecto r
p u ed e h ac er es to m a r n o ta de la inconsistencia. P o r o tra p arte ,
ciertas m edidas aparecen elevadas al cuadrado, e n ta n to o tras no
lo están. Vem os especialm ente en el caso 2 x 2 q u e el sím bolo x,
n o elevado al cu adrado, es equivalente a <f>z, el que en este caso
es igual a P y V2. Así, en el caso del cu ad ro m ás general puede
p a re c e r razonable c o m p arar x con los o tro s coeficientes al cua­
drado, au n q u e observando que no serán idénticos. E n general
puede esp erarse que los valores num éricos de t sean m enores
que los coeficientes no elevados al cuadrado <f>, T y V. Si hubie­
ra que p en sa r en función de ciertas m agnitudes absolutas, consi­
derándolas pequeñas, m edianas o grandes (p o r ejem p lo : u n valor
in ferio r a .3 es "peq u eñ o ” ), fácilm ente p o d ría in cu rrirse en e rro r
a m enos que se reconocieran claram en te las diferencias e n tre las
m edidas.
Lam bda. E xiste o tra m edida, lam bda (1) que es m uy sem ejan­
te a t y que igualm ente es asim étrica con resp ecto a A y B. To­
m ando a B com o la variable dependiente con la que se hacen
predicciones, obsérvese que el nú m ero esperado de erro res se
red u cirá si se nos perm ite colocar a todos los individuos en la m a­
y or de las categorías jB{ (véase ejercicio 5, capítulo ix ). E n el
ejem plo a n te rio r esto h a b ría su p u esto colocar los 2 000 casos en
B í en lu g ar de lim itarn o s a 900. Si lo hiciéram os así com etería­
m os 1 100 erro res, ya que hay u n to tal de 1100 casos en B 2 y B ñ.
Obsérvese que éstos son m enos e rro res que los que hicim os en
el caso del den o m inador de xh. Supongam os que sabem os la ca­
tegoría de A a la que pertenece el individuo. Si se nos perm ite
asig n ar la to talid a d de los 1 200 individuos de A x a B 2, la fila que
contiene el m ayor núm ero de individuos Alt com eterem os sola­
m ente 300 + 300 = 600 errores. De m an era análoga, si colocam os
a todos los 800 individuos A2 en la categoría B lt com eterem os sólo
200 errores. Conociendo, pues, la categoría A, y si se nos perm ite
h acer estas distribuciones m enos restrictivas, podrem os esp erar
com eter 800 erro res. F orm arem os u n a m edida l hl de "reducción
proporcional en el erro r", com o sig u e :

1 100 - 800

Vemos que lam b d a es m ás fácil de calcular que ta u ; que su­


pone u n a red u cción n o re stric tiv a de erro res, y que en este ejem ­
plo tiene un v alor num érico considerablem ente m ayor que el de
tau. Tiene sin em bargo la indeseable pro p ied ad de p o d er d a r un
valor num érico igual a cero en casos en que todas las dem ás
m edidas consideradas no serán cero, y cuando n o desearíam os
referirnos a las variables com o no correlacionadas o estadística­
m ente independientes. Tal cosa puede o c u rrir sim plem ente p o r­
que una de las B m arginales sea m ucho m ayor que el resto, de
tnl m an era que cualquiera que sea la categoría A, la decisión será
siem pre de colocar todos los individuos (p a ra todo Ai ), en la
m ism a categoría B. Si p o r ejem p lo las categorías B 1 y B 2 h u ­
biesen sido com binadas en el a n te rio r ejem plo hipotético, la de­
cisión h u b iera sido siem pre la de colocar a todos los individuos
en la categoría B t y B 2 y n o en la de B s, de ta l m an era que la
re su lta n te As h u b iera sido- cero. P or la m ism a razón, aun cuando
un sim ple to ta l m arginal (p o r ejem plo, Bx) no- dom ina al resto,
es p ro b ab le que algunas de las categorías m enos num erosas no
en tre n en absoluto en el círculo de lam bda. E n el ejem plo an te­
rio r la decisión nu nca re su lta en la asignación de individuos a B ?t.
Si .se h u b iera co n tado con u n a fila m ás, B it tam bién con u n n ú ­
m ero relativ am en te pequeño de casos, la lam bda m edida po d ría
h a b e r sido ind iferente a la distribución de casos e n tre B s y B 4.
P o r estas razones se p refiere a ta u sobre lam b d a en aquellos ca­
sos en que los totales m arginales no son de aproxim adam ente la
m ism a m agnitud.

XV.4. C ontrol de otras variables


H a sta aq u í el exam en de las pruebas de significación y de m edi­
das de asociación sólo h a n com portado1 dos variables a la vez. En
la m ayoría de los problem as prácticos, en cam bio, es necesario
co n tro la r u n a o m ás variables adicionales, que pueden y a sea
e n tu rb ia r u n a relación o c re a r u n a relación espuria. Si bien es
a m enudo cierto que las generalizaciones en m a teria de ciencias
sociales suelen estab lecerse en térm inos de sólo dos variables, se
supone con to d o casi siem pre, im plícitam ente, que las variables
relevantes se co n sideran com o controladas. Con o b jeto de su b ra­
y ar este hecho se em plea a m enudo la fra se "en igualdad de con­
diciones”. D esde el p u n to de vista ideal, u n a hipótesis h a b ría de
en u n ciarse en fo rm a que se entienda claram en te cuáles variables
h an de con tro larse. A m edida que u n a disciplina va pro g resan ­
do h acia su m adurez, las generalizaciones se hacen m ás califica­
das, indicando las condiciones exactas en las que puede esp erarse
que se realicen. E n las etapas iniciales de su desarrollo, sin
em bargo, re su lta a m enudo im posible sab e r cuáles son las v aria­
bles relevantes que se n ecesita controlar. É sta es la razón de que
en ciencias sociales las proposiciones no se enuncien a m enudo en
fo rm a que sugieran cuáles variables deban co ntrolarse. No obs­
tan te, el lecto r debería ac o stu m b ra rse a b u s c a r siem pre las v aria­
bles even tu alm en te posibles de controlar, au n q u e no se le haya
invitado expresam ente a hacerlo.
Según verem os m ás adelante, hay varios m étodos posibles de
control estadístico. E l que se exam ina en el p re sen te capítulo es
tal vez el m ás directo y el que m ás se p arece al experim ento de
lab o rato rio , en el que las variables de control se m an tien en efec­
tiv am en te co n stantes p o r m edios físicos. E n los experim entos
de lab o ra to rio se m antiene u n a variable de control a u n valor
co n stan te, en tan to que las o tras variables se relacionan e n tre sí.
Así, p o r ejem plo, m ien tras se exam ina la relación en tre la p re ­
sión y el volum en, la te m p e ra tu ra se m an tien e acaso a 70° F. Y si
se en c u en tra una relación e n tre estas variables, puede re su lta r
posible en u n ciar su ca rác te r con m u ch a m ayor precisión que si
la te m p e ra tu ra no se h u b iera controlado. Sin em bargo, el cientí­
fico n o e sta rá autorizado a en u n ciar u n a generalización com o de
realización constante, a m enos que la m ism a relación se verifi­
que exactam ente p a ra todas las tem p eratu ras. R ealizará, sin
duda, to d a u n a serie de experim entos, cada uno de ellos a una
te m p e ra tu ra diferente. Es m uy p ro b ab le que encuentre que la
relación en cuestión sólo tiene lugar d en tro de c ierto m argen
de tem p eratu ras. E n estas condiciones h a b rá d e especificar
su generalización de m odo que diga: "La relación e n tre la p re ­
sión y el volum en es tal y cual, a condición que la tem p eratu ra
se m an ten g a e n tre —100 y 600UF .” Con su erte p o d rá h a lla r u n fac­
to r de corrección que le p e rm ita en u n ciar de nuevo su proposi­
ción en fo rm a que se aplique a u n m argen m ayor de tem p eratu ­
ras. Y ex actam ente el m ism o tip o de razonam iento se aplicará
al co n tro l de variables adicionales. P odrían efectu arse controles
sim ultáneos de diversas variables, m anteniendo cad a u n a de ellas
a un v alo r fijo-, y efectuando luego experim entos u lterio res con
distin tas com binaciones de valores de las variables de control.
Si varios controles a c tu a ra n sim ultáneam ente, se re q u e rirá un
nú m ero m u cho m ayor de experim entos análogos.
E xiste cierta sem ejanza e n tre el procedimiento* p a ra lo g rar el
control estad ístico, que vam os a exam inar a continuación, y un
experim ento de lab o ra to rio en el curso del cual las variables son
m anipuladas físicam ente y m an ten id as co n stan tes e n diferentes
niveles. E xiste sin embargo- u n a diferencia fundam ental, que re­
su lta vital, relacionada con la fo rm a en que el observador inter­
preta los resu ltados. C uando controlam os estadísticam ente, lleva­
m os a cabo m anipulaciones con lápiz y papel, en el curso de las
cuales aju stam o s puntuaciones, o hacem os p a sa r a los individuos
de u n o a o tro cuadro, pero en realid ad n o estam os m anejando
sus pu n tu acio nes reales. Cuando, p o r ejem plo, estam os "control-
lando" estad ísticam en te u n IQ, esto n o significa que m anejem os
las co n stantes de inteligencia del individuo- afectado. Podem os
a ju s ta r las pu ntuaciones de los IQ, re sta n d o de unas y sum ando
a o tras, de m an era que podam os p re te n d er que son iguales en­
tre sí, p e ro n o podrem os m an ip u lar la inteligencia real de u n a
p erso n a en fo rm a que p u ed a co m p ararse con los controles que
gobiernan la te m p e ra tu ra o la p resió n en uri experim ento d e la­
bo ratorio.
E ste tipo- de control y a ju ste hipotético- es m uy conveniente,
y no deberem os desconcertarnos si el m undo real coincide con
lo que estam os haciendo-. Si u n cam bio real en la inteligencia
p u d iera a fe c ta r n u e stra relación en u n sentido determ inado, pero
al m an ten erla co n stan te en u n experim ento' ñ o s fu e ra posible
ded u cir la relación verd ad era e n tre o tras dos variables “con la
inteligencia m an ten id a en nivel constante", re su lta ría n ju stifica­
das n u estra s m anipulaciones con papel y lápiz. Debe reconocerse
claram en te q ue tales "controles" a base de lápiz y papel pueden
se r realizados sobre cualquier variable de la q u e tengam os m e­
didas (y categorías), incluso aquellas que son causalm ente depen­
dientes de las variables que estam os estu d ian d o y aquellas que
de m an era esp u ria estén relacionadas, p o r razones extrañas, con
alguna variable.
Los controles estadísticos son básicam ente m ucho m ás fáciles
de realizar que los verdaderos controles, p o r lo que el m arg en de
flexibilidad p a ra su aplicación razonable es m ucho m ayor. Se
req u iere fu n d am entalm ente u n a teoría que ju stifiq u e la aplica­
ción de tales controles, teo ría en la que están im plícitos supues­
tos acerca de la e stru c tu ra causal del sistem a de variables.
A unque el tem a escapa al interés de u n texto general sobre
estad ística, re su lta necesario fo rm u lar aquí unas p alab ras de cau­
tela, ya que m uchos m alos entendidos, en relación con las o p era­
ciones de control estadístico, se h an trad u c id o en u n a aplicación
ciega de variables d e control sin apoyo en u n a teo ría que lo
ju stifiq u e.
Volviendo al ejem plo de la relación e n tre las preferencias reli­
giosas y los p artid o s políticos, se pueden co n tro lar estadística­
m en te variables tales com o el sexo y la clase social. P ara m an­
te n e r co n stan te el sexo pueden, p o r ejem plo, se r considerados
solam ente los votantes varones. Si se observa que la relación se
da en el caso de los varones y p o r separado e n el de las hem bras,
p o d rá decirse que es aplicable al sexo, ya que habrem os exam i­
n ad o am bas categorías de la variable "sexo”. Es posible sin em ­
bargo- que se observe la relación en el caso de los varones p ero
n o en el d e las h e m b ra s ; en tales circunstancias h a b rá que cali­
fica r la generalización, volviendo n u e s tra atención a las causas
p o r las cuales la relación existe p a ra u n sexo y no p a ra el otro.
P uede verse que el co n tro lar las variables relevantes no sólo nos
p erm ite u n a p ru e b a m ás rigurosa de u n a hipótesis, sino que
nos su m in istra u n a m ay o r penetración e n el caso en que se en ­
cu en tre que la relación difiere de u n a categoría de la variable
de co n tro l a la otra.
Algunas veces será conveniente co n tro la r diversas variables a
la vez. D ebido a la escasez de ios casos, se hace necesario con
frecu en cia co n tro la r las variables relevantes u n a p o r una, p er­
diéndose, sin embargo-, en e sta fo rm a cierta cantidad de in fo rm a­
ción. Supóngase, p o r ejem plo, que se h u b iera prescindido del
sexo y se h u b iera introducido u n control en relación con la clase
social de los electores. E xam inaríam os, pues, cada clase social,
p a ra v er si la relación subsistía siem pre. E n co n tra ste con este
p rocedim iento, pudim os h ab e r controlado sim ultáneam ente des­
de los p u n to s de v ista d e la clase y del sexo, tom ando todas las
com binaciones posibles de las variables de control (v.gr. va.
ró n d e la clase inferior, m u je r d e la clase inferior, varón de la
clase m edia, e tc é te ra ) y estu d ian d o la relación en ca d a com ­
binación de las categorías de control. Se concibe que la relación
p u ed a v erificarse acaso p a ra to d as las com binaciones, con excep­
ción de la co rresp o n d ien te a las m u jere s de la clase inferior. Si
esto fu e ra así, n os veríam os conducidos a investigar las peculia­
rid ad es de este su b g ru p o p a rtic u la r.
Con o b jeto d e ilu s tra r el proceso, tom em os o tro ejem p lo con­
creto. Supóngase que tenem os los siguientes datos co rresp o n ­
dientes a esc o la res: am b ien te de la clase, c u o ta d e inteligencia,
grad o escolar y la aplicación de cad a niño. C onvendrá re su m ir
los datos en térm inos de u n a ta b la m a e stra com o la del cua­
d ro XV.4.

C uadro XV.4. Cuadro m aestro para correlacionar cuatro variables

Clase media Clase baja Totales


Inteligencia Grados
Aplica­ Aplica­ Aplica­ Aplica­
ción ción ción ción
elevada baja elevada baja
Alto 60 40 40 18 158
Alta
Bajo 20 24 16 38 98
Alto 40 24 6 2 72
Baja
Bajo 24 12 32 54 122
Totales 144 100 94 112 450

O bsérvese q ue u n cu ad ro com o éste contiene las casillas sufi­


cientes p a ra q u e los c u a tro tipos d e inform ación (clase, IQ, g ra­
dos y aplicación) p u ed a n ser, si así conviene, re co n stru id o s p a ra
cad a individuo-, es decir, que sabem os cu á n ta s son las. p erso n as
en las que se d a la m ism a com binación de rasgos (p o r ejemplo-:
clase b aja, IQ elevado-, aplicación b a ja y grados a lto s). Si desea­
m o s u n a in fo rm ació n m enos d etallad a podrem os co m binar los
dato s fo rm an d o agrupaciones m ás am plias. Podem os p o r ejem ­
p lo re u n ir a los estu d ian tes de la clase m edia con los de la clase
b aja, m anteniendo- ta n sólo- la distinción relativ a al IQ, la apli­
cación y los grados. P ero si se nos facilitase ta n sólo u n a inform a­
ció n m enos d etallad a no- nos se ría posible re c o b ra r el to ta l de la
inform ación m ás que volviendo a h a c e r el análisis. P or ta l razón
u n cuadro- m a e stro tal com o el XV.4 debe se r utilizado com o cua­
d ro d e tra b a jo , sacando de él los d ato s p a ra p re p a ra r u n a serie
áe o tro s cu ad ro s separados.
S erá e n general m ás conveniente h ac er el cuadro m aestro de
tal m an era que la variable dependiente aparezca en la colum na
ex trem a de la izquierda, en tan to que la variable independiente
m ás in tere sa n te aparezca en la fila b a ja del encabezam iento, lo
que se tra d u c irá en subcuadros con las frecuencias que están
siendo com paradas directam ente. E n el cuadro XV.4, p o r ejem ­
plo, tenem os cu atro subcuadros en cada uno de los cuales se
relacio n an las aplicaciones y los grados. Todos los individuos del
su b cu ad ro de la p a rte su p erio r izquierda son de la clase m edia
y tienen elevado IQ, y así sucesivam ente. La exacta distribución
de filas y colum nas n o tiene u n a im p o rtan cia decisiva, ya que es
bien claro que se las puede o rd en ar d e acuerdo con la relación
d e intereses (ta l com o se hace en el cu ad ro XV.5).

C uadro XV .5. Serie de tablas de contingencia que relacionan dos


variables con dos controles sim ultáneos

Aplicación elevada Aplicación baja


Grados
IQ alto IQ bajo IQ alto IQ bajo

Clase media
Alto 60 40 40 24
Bajo 20 24 24 12

Clase baja
Alto 40 6 18 2
Bajo 16 32 38 54

Supóngase que sospecham os u n a propensión de los m aestro s


en favor de la clase m edia, que se tra d u c iría en la tendencia a
d a r b uenas no tas a los niños de la clase m edia, independiente­
m ente de su capacidad y aplicación, y buenas notas a los niños
de la clase in ferio r solam ente cuando m u e stra n capacidad y apli­
cación a la vez. A nticiparíam os, en tal caso, que las notas h a­
b ría n de se r p o r lo re g u lar m ejores p a ra los niños de la clase
m edia, con tro lan d o la inteligencia y el esfuerzo a la vez, excepto,
posiblem ente, en el caso de niños de gran capacidad y aplicación.
A nticiparíam os asim ism o q u e las relaciones e n tre las notas p o r
u n a p a rte y la capacidad y la aplicación p o r la o tra h ab ría n de
se r m ás fu ertes en la clase in ferio r que en la m edia. E n otros
térm inos, si los niños de la clase m edia reciben siem pre buenas
notas, n o d ebería h a b e r relación (o sólo u n a relación superficial),
en esta clase, e n tre las n o tas p o r u n a p a rte y la capacidad o la
aplicación p o r la otra. Fijém onos en la relación e n tre las n o tas
y la capacidad y averigüem os si es o no m ás fu e rte en la clase
inferior. E n este caso necesitarem os co n tro la r el esfuerzo. En
am bas clases h a b rá estu d ian tes aplicados y n o ta n aplicados. P or
lo tan to , podem os c o n stru ir c u a tro tablas d e contingencia com o
las del cu ad ro XV.5.
C om param os ah o ra las dos clases con respecto' a la existencia
y la fu erza d é la relación, considerando' sep arad am en te a los alum ­
nos de aplicación elevada y b a ja respectivam ente. La dirección
d e la relación p u ed e tam b ién o b serv arse en cad a caso, ya sea
calculando los p o rc en tajes o co m p aran d o los p ro d u cto s diagona­
les. C alculando la ^ c u a d ra d a y la <f¡ p a ra cada tab la, obtenem os
los resu ltad o s del cu ad ro XV.6. Vemos e n esta fo rm a que las
relaciones n o son significativas p o r lo' q u e se re fiere a los niños
de la clase m edia, p e ro q u e en c u a n to a los d e la clase inferior,
en cam bio, existe u n a relación positiva m o d erad am en te fu e rte en
am b as categorías de aplicación e n tre la capacidad y las notas.
O bservam os asim ism o que la relación es algo' m ás fu e rte en el
caso de los estu d ian tes m ás aplicados.

Cuadro X V .6

Nivel de
Clase Aplicación 3(,-cuadrada significación

Media Alta 2.565 no significativa .133


B aja .188 no significativa .043
Baja Alta 28.064 p < .001 .546
Baja 15.582 p < .001 .373

El lecto r h a b rá sin du d a observado el efecto' p ro n u n ciad o del


co n tro l sobre el n ú m ero de casos que figuran en cada casilla. E n
lu g ar de te n e r sólo cu atro casillas, en efecto, tenem os cu a tro ve­
ces dicho n ú m ero al servim os de dos variables de co n tro l dicotó-
m icas. Si se h u b ie ra añadido u n te rc e r control sim ultáneo, p o r
ejemplo', el sexo, habríam os tenido 32 casillas en lu g ar de 16. Y si
cualquiera de las variables h u b ie ra com portado m ás de dos cate­
gorías, el n ú m e ro d e las casillas h a b ría aum entado. Así, pues, si
bien los co n tro les sim ultáneos pu ed en en teo ría añ ad irse indefi­
nidam ente, el n ú m ero de casos h a de se r m uy gran d e p a ra con­
tro la rse con e ste método'. U na a lte rn a tiv a co n sistiría en re d u cir
sim plem ente el c a rá c te r de la población y generalizar sólo res­
p ecto de los v arones de la clase m edia de educación universitaria,
O' de algún o tro subgrupo correspondiente. P o d ría seleccionarse
luego u n a m u e stra m ucho m ay o r de este subgrupo. P o r lo gene­
ral, si se h a de em p lear el co n tro l sim ultáneo, re su lta necesario
seleccionar aquellos dos o tre s controles que se p re se n ta n com o
m ás p ro m eted o res. Es posible, p o r supuesto, servirse de la prue-
b a exacta de F ish er cuando el nú m ero de casos d e cada casilla
se hace m uy p eq u e ñ o ; p e ro h ay que re c o rd a r que será en ta l caso
necesario' te n e r u n alto' grado de relación p a ra o b ten er significa­
ción. D ebido a esta atenuación de los casos, el m ero hecho de
que u n a relació n se haga n o significativa al in tro d u c ir controles
no constituye u n a p ru e b a suficiente de q u e la variable de con­
tro l pro d u ce efecto. H ab ría que calcu lar y co m p arar siem pre
m edidas del grado' de relación.
E n los casos en que difieran las relaciones e n tre u n a categoría
de u n a v ariable de co n tro l y la siguiente, tendrem os u n ejem ­
plo de lo que se d enom ina no aditividad o interacción estadística.
Ya se exam inó e s ta posib ilid ad al t r a ta r de la p ru e b a p a ra u n a
d iferen cia de diferencias en las proporciones, y volverem os al
tem a d e m an era m ás d etallad a e n los capítulos xvi y xx. S iem pre
que se sospeche la posibilidad de u n a interacción, deberá h ac er­
se u n a p ru e b a estad ística q u e la localice, an tes d e seguir adelante.
Com o in ev itab lem ente h a b rá algunas diferencias leves en las re ­
laciones e n tre u n a m u e stra y la siguiente, la p re g u n ta b ásica p o r
fo rm u la r en tales p ru e b as será la de si las m u estras d e in tera c­
ción son lo! suficientem ente grandes com o p a r a q u e aquélla haya
o cu rrid o p o r casualidad, incluso en ausencia d e interacción en ­
tre la población. E n este ejem plo, y dado el caso de que to d as
las variables h a n sido dicotom izadas, p o d rá h acerse u n a p ru e b a
sencilla de u n a d iferencia de diferencias en proporciones, tal
com o sugiere el capítulo x m . Como e stá n siendo consideradas
sim u ltán eam en te dos variables de control, p u ed e incluso d arse el
caso de que se p ro d u zca lo que se denom ina u n a interacción de
segundo' orden, o u n a d iferencia de diferencias de diferencias.
P o r e je m p lo : la diferencia e n tre las relaciones d e aplicación ele­
v ada y aplicación b a ja puede ser m ay o r e n tre los niños de la
clase b a ja que e n tre los de clase m edia.
Si se o b serv a q u e la in teracció n tien e significación estadística,
y es adem ás lo b a sta n te grande com o p a ra te n e r significación
sustan tiv a, re s u lta rá necesario cualificar las generalizaciones h a ­
ciendo' u n a referen cia específica a la categoría d e control. H ab ría
q u e decir, p o r ejem plo : "S e encontró u n a relación e n tre grados
y h ab ilid ad en el caso de los niños de clase b aja, p ero n o en los
de clase m edia.” A p a rtir de dicho p u n to deb erán estu d iarse se­
p arad am en te las re sta n te s relaciones e n tre los dos niveles de cla­
se. Si la in teracció n es p o r el co n trario estad ísticam en te insigni­
ficante, o ta n p eq u e ñ a q u e p u ed a ser ignorada, au n siendo
estad ísticam en te significativa, p o d rá ded u cirse razonablem ente
que las relaciones son b ásicam en te sim ilares e n tre las categorías
de control. E starem os en tal caso en la posibilidad d e sim plificar
co n siderablem ente el análisis, reuniendo los resu ltad o s sep ara­
dos. Veam os a co n tinuación qué tipos específicos de sim plifica­
ción re su lta n posibles en el caso de datos categorizados.
Podem os en p rim e r lugar re u n ir las p ru eb as de chi al cuadrado
en una sola p ru e b a global, a condición de que aquéllas estén
basadas en m u estras al azar seleccionadas independientem ente.
E l procedim iento es extrem adam ente sencillo, b astan d o sum ar
los distintos valores de chi al cu ad rad o y tam bién los grados de
lib ertad , evaluando el re su ltad o de la m an era habitual. Supon­
gam os p o r ejem plo que en el caso de c u a tro cuadros 2 x 2, las
chi cu ad rad as resu ltan tes fueron 2.1, 3.3, 2.7 y 2.9. La sum a de
estos valores es 11.0, y la de los grados de lib ertad , 4. E n el cua­
d ro vem os que u n a chi cu ad rad a d e 11.0, con 4 grados de lib ertad
re su lta significativa al nivel de .05. Así, au n cuando ninguno de
los valores sep arados de chi al cu ad rad o fu e ra significativo, po­
dem os h ac er u so del hecho de que el re u n ir los resu ltad o s tiene
significación teórica. E stam os en efecto diciendo que si u n a rela­
ción se re p ite aproxim adam ente cada vez, p ero la p ro babilidad
de los resu ltad o s separados es en ca d a caso m ayor de .05, p o d re­
m os p re g u n ta m o s cuál sería el re su ltad o de tal com binación de
resu ltad o s si no hubiese relación en cualquiera de los cuatro
cuadros.
O bsérvese que los resultados de sem ejan te operación de reu­
n ión p o d rían m uy bien d iferir de la relación to ta l e n tre dos va­
riables sin control alguno. Al ju n ta r los resultados, obtenem os
esencialm ente u n a relación prom edia dentro de las categorías de
la variable o las variables de control. Si hubiéram os prescindido
sim plem ente de la variable o las variables de control, los efectos
de sem ejantes controles h ab ría n perm anecido' oscuros p o r com ­
pleto. En ta n to que, al unificar, efectuam os u n a sola p ru e b a de
/-cu ad rad a de la relación c o n ju n ta e n tre dos variables, contro­
lando en relación con las variables adicionales.
Y en form a análoga, podríam os d esear o b ten er u n a sola m edi­
da de asociación calculando u n pro m ed io p o nderado de las m e­
didas basado* en las c u a tro tab las separadas. Un m éto d o que se
h a sugerido p a ra ta l o b jeto consiste en el em pleo de ponderacio­
nes que sean p roporcionales al nú m ero de los casos de cada tabla.
Así, p o r ejem plo, podríam os m u ltip licar cada t 6 p o r el núm ero
de casos de la tabla, su m ar los resultados y dividir, finalm ente,
e n tre el n ú m ero to tal de casos de las cu a tro tablas. T erm inaría­
m os así con u n a sola p ru e b a d e significación y u n a sola m edida
de asociación que re p resen ta rían un prom edio de los resu lta­
dos de las c u a tro tablas.
O tro sim ple procedim iento p a ra o b ten er u n a m edia ponderada
es el que describirem os brevem ente. (P a ra m ayores detalles
véase R osenberg [12].) El procedim iento consiste, básicam ente,
en estan d arizar todas las categorías de control, m ediante la ob­
tención de u n prom edio po n d erad o de proporciones (o porcen­
ta je s). Supongam os h ab e r obtenido separadam ente los resultados
siguientes, p a ra hom bres y m u je re s :
Varones Hembras

Protes­ Cató­ Protes- Cata­


tantes licos Judíos Total tantes ticas Judías Total

Republicanos 180 80 20 280 100 50 10 160


Demócratas 90 80 50 220 60 30 70 160
Independientes 30 40 30 100 40 20 20 80
Total 300 200 100 600 200 100 100 400

Com enzarem os p o r tra n sfo rm a r las cifras an terio res en p ro ­


porciones, to talizando a 1 .00, ya que la variable independiente
ap arece en la p a rte a lta de cada cuadro. Los re su ltad o s serán los
sig u ie n te s:

Varones Hembras
Protes­ Cató­ Protes­ Cató­
tantes licos Judíos tantes licas Judías

Republicanos .60 .40 .20 .50 .50 .10


Demócratas .30 .40 .50 .30 .30 .70
Independientes .10 .20 .30 .20 .20 .20
Total 1.00 1.00 1.00 1.00 1.00 1.00

A ceptando que deseam os oscurecer las diferencias e n tre estos


dos cuadros, u tilizando p a ra ello u n prom ediado, podrem os fo r­
m a r u n prom edio ponderado, m ultip lican d o cada pro p o rció n de
las contenidas en el c u a d ro de varones p o r .6, ya que son 600 los
varones en u n to ta l de 1 000 individuos en la m u estra. De m an era
análoga podem os p o n d e ra r cada cifra e n el cu ad ro de las h e m ­
b ras, m u ltip licán dola p o r .4. Los resu ltad o s serán los sig u ie n te s:

Protestantes Católicos Judíos


Republicanos .56 .44 .16
(.36+ .20) (.24+ .20) (.1 2 + .04)
Demócratas .30 .36 .58
(.18+.12) (.24+ .12) (.30+ .28)
Independientes .14 .20 26
(.06+.08) (.1 2 + .08) (.18+.08)
Total 1.00 1.00 1.00

en el que cada p ro p o rció n de las que aparecen en el cu ad ro


derivado es igual a la su m a de las dos prop orciones po n d erad as
(com o se indica en los p arén tesis), que a su vez figuraban e n los
cuadros anteriores. Como la sum a de las ponderaciones es de
1 .0, tam bién lo será la de las proporciones en cada colum na del
cuadro derivado. Los resultados pueden se r p resentados tam ­
bién b a jo la fo rm a de porcentajes.
E ste pro cedim iento p a ra co n tro lar m ed ian te la obtención de
prom edios ponderados es, com o se verá, m uy generalizado. H e­
m os estandarizado el núm ero d e p ro testan tes, católicos y judíos,
de tal m an era que sus tam años relativos en las m u estras de va­
rones y de h em b ras p ierd an significación. Si hubiese habido
controles sim ultáneos p a ra variables adicionales, habríam os po­
dido am p liar este procedim iento de m an era directa. Así, si h u ­
biéram os deseado co n tro la r según clases sociales, usando tres
niveles, h ab ríam os obtenido seis cuadros, uno p a ra cada catego­
ría sexo-clase. Después de h a b e r vigilado si se produce in terac­
ción, y habiendo resu elto que ninguna d iferencia im p o rtan te
p o d rá re s u lta r oscurecida p o r la aplicación del procedimiento-,
podríam os asig n ar de nuevo gravám enes W¿ a cada uno de los
cuadros de control, haciendo 2 W¡ = 1 .0, obteniendo así u n solo
cu ad ro com binado, com o en el ejem plo anterior.
Al su stitu ir así varias m edidas y pruebas separadas p o r u n a
sola m edida y u n a sola pru eb a, nos enfrentam os a los proble­
m as que se en cu en tran siem pre que se em plean estadísticas de
resum en. C oncentram os n u estro s datos, de m odo que resulten
m enos estadísticos, pero, p o r o tra p arte, correm os el riesgo de
d isto rsio n ar n u estro s resultados. P or ejem plo: si u n a de las cua­
tro tablas en cuestión d iera u n a /-cu ad rad a gran d e y u n gra­
do de relación m uy alto, en com paración con las dem ás, en to n ­
ces el com binar los resultados, con lo que dicho hecho re su lta
oscurecido, pu ed e revelarse com o sum am ente engañoso. O sea
que, com o siem pre, las m anipulaciones estadísticas no pueden
co n stitu ir n u n ca u n su stitu to del sentido com ún.
Algunas de las ideas exam inadas en esta sección, en p artic u la r
las relativas a la reunión de los resultados de tablas separadas,
son in d u d ablem ente nuevas y p o d rá n p arece r algo confusas de
m om ento. S erá ú til, p o r lo tanto, volver a re p a sa r e s ta sección,
u n a vez que el le c to r se haya en fren tad o al m aterial de los capítu­
los xvi al xx. E n dicho m om ento, en efecto, se h a b rá n exam inado
ya y co m parado diversos tipos de procedim ientos de control.

E jercicios

1. Calcúlese la x-cuadrada para los datos del ejercicio 5 del capítulo ix.
Tornando las aspiraciones profesionales como variable dependiente
B, ¿cuál es el valor de t„? ¿Cómo se compara el valor de x,, con el de
la medida que se calculó en la parte d) del ejercicio 5?
2. En el ejercicio 3 del capítulo xiv nos servimos de la prueba de
Smimov. Tomando los mismos datos, ¿a qué conclusión llegamos al
servimos de la prueba de la x-cuadrada? En relación con esos datos
particulares, ¿cuál prueba se preferirá? ¿Por qué? Calcúlense <t>, T, V,
c, t 6 y h-
*3. La prueba de la /.-cuadrada puede emplearse en general para
comparar frecuencias observadas y teóricas. En particular, puede uti­
lizarse para verificar la hipótesis nula de que los datos de la m uestra
se han seleccionado al azar de una población normal. Las frecuencias
observadas se comparan con las que se habrían anticipado en caso
de ser la distribución efectivamente normal, con la misma media y
desviación estándar que se han calculado de los datos de la muestra.
Una vez obtenidos los valores de X y de s, podemos servil-nos de los
verdaderos límites y de la tabla normal para dar las frecuencias es­
peradas dentro de cada intervalo. Los grados de libertad serán k — 3,
en donde k representa el número de intervalos. Se perderá un grado
de libertad, ya que el total de las frecuencias esperadas ha de ser N;
los otros dos grados de libertad que se han perdido se deben a la
necesidad de utilizar X y s a título de apreciaciones de los paráme­
tros reales jt y a. Teniendo estos hechos presentes, verifiqúese si los
siguientes datos se apartan o no significativamente de la norm alidad:
Respuesta %s — 2.53, sin rechazar.

Intervalo Frecuencia
0.0- 9.9 7
10.0-19.9 24
20.0-29.9 43
30.0-39.9 56
40.049.9 38
50.0-59.9 27
60.0-69.9 13
208

4. En un estudio reciente, H. L. Wilensky [14] encontró, al controlar


la condición socioeconómica, una relación general entre la actividad
sindica] por una parte y la orientación política y la preferencia elec­
toral por la otra. Los datos de 15 miembros negros tendían a apoyar
este hallazgo general en relación con la preferencia electoral. Siete
de los ocho negros que eran miembros inactivos del sindicato no si­
guieron la "línea” de éste al votar en 1948, en tanto que, de los siete
miembros sindicalmente activos, cinco votaron de acuerdo con la su­
gerencia del sindicato. Averigüese si se da o no una relación signifi­
cativa, sirviéndose: a) de la prueba exacta de Fisher, con dirección
anticipada, y b) de la x-cuadrada corregida con fines de continuidad
con dirección anticipada. Respuesta: a) p ~ .035'; b) = 3.22, p < .05.
5. Utilice los datos que siguen (disponiendo los cuadros en o tra for­
ma, si es necesario) para obtener información acerca de la precisión
de los enunciados a), b) y c). Allí donde sea adecuado, calcúlense
medidas del grado de relación y control de las variables relevantes.
a) Las mujeres tienen menos prejuicios que los hombres, indepen­
dientemente de la religión que profesen o de la clase social a
que pertenezcan.
b ) Los grados de relación entre la confesión y el prejuicio contra los
negros dependerán de la clase social de la persona “afectada de
prejuicio”.
c) La razón de que los judíos aparezcan como menos afectados de
prejuicio, en la tabla, que los no judíos se debe al alto porcentaje
de mujeres y de personas de la clase superior en la m uestra re­
lativa a los judíos.

Grado del prejuicio contra tos negros


Elevado Bajo
Religión S e x o ------------------------------------------------------- Totales
Clase Clase Clase Clase
superior inferior superior inferior
No judíos Varones 14 30 15 16 75
Mujeres 8 13 9 7 37
Judíos Varones 13 7 22 15 57
Mujeres 18 9 33 21 - 81
Total 250

6. Utilizando los datos del anterior ejercicio 5, construyanse cua­


dros que relacionen la religión con los prejuicios, con controles simul­
táneos para sexo y clase social. Suponiendo despreciable la posible
interacción, normalícense estos resultados de forma que la relación
entre religión y prejuicio, con controles, pueda ser presentada en un
solo cuadro 2 x 2.
*7. Supongamos que se espera llevar a cabo una prueba chi al cuadra­
do con un cuadro 2 x 2, en que se relaciona la preferencia religiosa
(protestante-católico), con la preferencia política (republicano-demó­
crata). Se planea tom ar muestras al azar, del mismo tamaño, de pro­
testantes y católicos, y se predice la dirección, esperando que la propor­
ción de protestantes que son republicanos resultara de .60 aproximada­
mente, en tanto que la proporción de católicos que son republicanos
será a su vez de .40, m ás o menos.
¿Cuántos casos resultarán necesarios si se requiere establecer sig­
nificación al nivel de .05?

B iblio g rafía

1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2" ed.,


Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 9.
2. Blalock, H. M .: "Probabilistic Inteipretations for the Mean Square
Contingency”, Journal of the American Statistical Association,
vol. 53, pp. 102-105, 1958.
3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, cap. 8.
4. Downie, N. M., y R. W. Heath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965,
cap. 14.
5. Goodman, L. A., y W. H. Kruskal: "Measures of Association for
Cross Classifications”, Journal of the American Statistical Associa­
tion, vol. 49, pp. 732-764, 1954.
6. Goodman, L. A., y W. H. Kruskal: "Measures of Association for
Cross Classifications, II: Further Discussion and References”,
Journal of the American Statistical Association, vol. 54, pp. 123-
163, 1959.
7. Goodman, L. A., y W. H. Kruskal: “Measures of Association for
Cross Classifications, III: Aproxímate Sampling Theory”, Journal
of American Statistical Association, vol. 58, pp. 310-364, 1963.
8. Hagood, M. J., y D. O. Price: Statistics for Sociologist, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 21.
9. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 17.
10. McCarthy, P. J.: Introduction to Statistical Raasoning, McGraw-
Hill Book Company, Nueva York, 1957, cap. 11.
11. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reason-
ing in Sociology, 2¡ ed. Houghton Mifflin Company, Boston, 1970,
cap. 9.
12. Rosenberg, Morris: “Test Factor Standardization as a Method of
Interpretation”, Social Forces, vol. 41, pp. 53-61, 1962.
13. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien­
ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 96-111.
14. Wilensky, H. L.: "The Labor Vote: A Local Union’s Impact on the
Political Conduct of its Members”, Social Forces, vol. 35, pp. 111-
120, 1956.
E n el capítulo x m com param os dos m u estras investigando la
significación de la diferencia e n tre las m edias y las proporcio­
nes. Dichas p ru e b as eran adecuadas al trata m ien to de situaciones
e n las que u n a de las dos variables m u tu am en te relacionadas
era u n a escala nom inal dicotóm ica. E n el ú ltim o capítulo vim os
de qué m odo p o d ían co m p ararse m ás d e dos m u estras p o r m e­
dio de la p ru e b a de la ^-cuadrada. E n ©1 p resen te, p o r su p arte ,
vam os a ex am in ar u n tip o m uy im p o rta n te de pru eb a, el análisis
de la variancia, que p u ed e u tilizarse p a ra verificar diferencias
en tre las m edias de m ás de dos m u estras. Así, pues, el análisis
de la varian cia re p re se n ta u n a extensión de la p ru e b a de la dife­
ren cia de las m edias y pu ed e em plearse siem pre q u e estem os
verificando una relación e n tre u n a escala nom inal (o de orden
su p erio r) y u n a escala de intervalo. V erem os asim ism o que, en
determ inadas circunstancias, las p ru e b as de análisis de variancia
pueden ex tenderse a situaciones en las cuales h ay u n a sola escala
de in tervalo y dos o m ás escalas nom inales. Se exam inarán, ade­
m ás, u n a p ru e b a análoga no p a ra m é tric a y varias m edidas de
grado de asociación.

XVL1. Análisis sim ple d e la variancia


Si bien el análisis de la variancia puede considerarse com o una
extensión o generalización de la p ru e b a de la diferencia de las
m edias, co m p o rta con todo algunos principios fund am en talm en te
nuevos que req u ieren u n a explicación relativam ente larga. De
ahí que u n a breve exposición general re su lte ta l vez indicada, a
fin de que el le c to r n o se p ierd a en los detalles. Los supuestos
del análisis de v ariancia son b ásicam ente los m ism os que los de
la p ru eb a de la diferencia de las m edias, pero- la p ru e b a en sí
m ism a es m uy d istin ta. H abrem os de suponer norm alidad, m ues­
tra s aleatorias independientes, poblaciones y desviaciones están­
d a r iguales, y la hipótesis nula será que las m edias de las pobla­
ciones son iguales. La p ru e b a m ism a supone el tra b a ja r d irec ta­
m ente con variancias y no con m edias y e rro res están d a r.
Supóngase que los datos del cuadro X V I.1 re p resen ta n las
tasas de crim in alidad de tres tipos de ciudades distintos, a sa­
b e r: centros in d u striales, com erciales, o políticos. Podem os calcu­
la r m edias sep arad as p a ra cada u n a de esas tres categorías o
m u estras, y podem os o b ten er tam b ién u n a m edia grande, p re s­
cindiendo de las clases y prom ed ian d o los datos. E n el p resen te
ejem plo, las tre s m u e stra s son del m ism o tam año, p ero esto no
necesita ser siem pre así.
Com o q u iera que se p resu m e que to d as las poblaciones tienen
la m ism a desviación están d ar, podem os fo rm a r dos apreciacio­
n es in d ep en d ien tem ente d e la variancia a2 com ún. U na de estas
apreciaciones será d irectam en te análoga a la estim ación unificada
q u e utilizam os en la p ru e b a de la diferencia de las m edias. E sta
estim ació n será u n prom edio p o nderado d e las variancias dentro
de las m u estras separadas y será siem pre insesgada, incluso si las
m edias de las m u estras difieren considerablem ente e n tre sí. E sto
es así p o rq u e la v arian cia de cada m u e s tra se calculará sep ara­
d am en te y sólo co m p o rta rá las desviaciones respecto1 de la m edia
d e la m u e s tra p artic u la r.

C uadro X V I.1. Datos para el análisis de variancia

Tasas de criminalidad
Total
Centro Centro Centro
industrial comercial político

4.3 5.1 12.5


2.8 6.2 3.1
12.3 1.8 1.6
16.3 9.5 6.2
5,9 4.1 3.8
7.7 3.6 7.1
9.1 11.2 11.4
10.2 3.3 1.9
Sumas 68,6 44.8 47.6 161.0
Medias 8.58 5.60 5.95 6.71
N? de casos 8 8 8 24

La segunda estim ación d e la variancia com ún co m p o rta la va­


rian cia de las m edias p artic u la res d e las m u e stra s tra ta d a s com o
dato s individuales. E n este caso, las desviaciones d e las m edias
d e las m u estras respecto de la m edia grande se u tilizarán p a ra la
estim ación de a2. P a ra los datos del cu ad ro X V I.l o btendríam os
la variación de las m edias de las tres m u estras, o sea 8.58, 5.60
y 5.95, resp ecto de la m edia to ta l de 6.71. E sta estim ación d e o2
sólo- será eq u ilib rada si las m edias de las poblaciones son de he­
cho iguales. Si las m edias de las poblaciones son iguales, en
efecto, pued e esp e rarse que las de las m u estras v aria rán u n a res­
p ecto de o tra de acu erd o con el teo rem a del lím ite central,
e sto es, acercándose a u n a d istrib u ció n n o rm al a m edida que au­
m en ta el tam añ o de la m u estra, y podem os servim os de esta ley
y de las diferencias re ales e n tre las m edias de las m u estras p ara
a p re c ia r la v erd ad era variancia. P or o tra p a rte , si las m edias de
las poblaciones son en re alid ad diferentes, esperam os que las
m edias de las m u estras d iferirán u n a resp ecto de o tra m ás de
lo que sería el caso si las m edias de las poblaciones fu e ran las
m ism as. P o r consiguiente, si la hipótesis n ula es falsa, la segunda
estim ación de o2 se rá p o r lo general dem asiado grande, y será
u n a estim ación sesgada.
La p ru e b a em pleada en el análisis de la variancia com porta
u n a com paración de las dos estim aciones distin tas de la varian­
cia de la población. Sin em bargo, en lugar de to m a r la diferencia
e n tre las dos estim aciones, tom am os la razón de la segunda a la
p rim era. Si la hipótesis n u la es correcta, las dos estim aciones
serán insesgadas, y la razón h a b ría de ser aproxim adam ente la
unidad. E n cam bio, si las m edias de la población difieren, la se­
gunda estim ación será p o r lo re g u la r m ayor que la p rim era, y
la razón será m ay o r que la unidad. Como q uiera que las varia­
ciones de las m u estras son siem pre u n factor, hem os de pregun­
tarn o s cuán g ran d e sea la razón que estam os dispuestos a to lerar
an tes de p o n er a la hipótesis n u la en duda. A fortunadam ente,
la razón F de las dos estim aciones tiene u n a d istribución de
m u estreo conocida, a condición que las dos estim aciones de la
variancia sean efectivam ente independientes u n a de o tra, y d e ahí
q ue pu ed a h acerse u n a p ru e b a relativam ente sencilla. E sto es
lo que hacem os esencialm ente en la p ru e b a del análisis de la va­
riancia. Veam os ah o ra en detalle el procedim iento que ello com ­
p o rta.
F ragm entación de la variación total e n p artes com ponentes.
Si bien n u e stro objetivo* últim o está en la form ación de dos esti­
m aciones d istin tas de la variancia, será m en este r in tro d u c ir u n
nuevo concepto p a ra explicar cóm o dichas estim aciones se obtie­
nen. Sirvám onos del térm ino variación (d iferen te del de varian­
cia) p a ra d esignar la sum a de las desviaciones cu ad rad as con
resp ecto a la m edia. E n este caso, la variación to tal resp ecto de
N —
la m edia grande será p a ra todas las m u estras 2 (X i — X )2. Así,
i—1
pues, el térm in o variación designa u n a sum a de cuadrados, p re s­
cindiendo del n ú m ero de casos im plicado. Procedem os ah o ra a
frag m en tar e s ta variación to ta l en dos p arte s com ponentes, cada
u n a de las cuales se u tiliza rá en el cálculo de las dos estim aciones.
R epresentem os n u estro s datos e n fo rm a sim bólica, com o en
el cu ad ro XVI.2. Los datos individuales están re p resen ta d as p o r
Xn> •■•>Xi j ; las m edias d e las m u estras, p o r X .u X .2l . . . , X .k,
y la m ed ia gran de p o r X ... Los p u n to s se em plean en los sub­
índices p a ra d istin g u ir las m edias d e las colum nas de las m edias
d e las hileras, que se em plearán cuando añadam os u n a segunda
escala nom inal. El sím bolo general X iy re p resen ta la m arc a del
f-ésimo individuo en la colum na j-é sim a. La sum a 2 X n indica
que se h a n sum ado las N 1 m arcas de la p rim e ra colum na, y lo
m ism o en relación con las colum nas re sta n te s.1
A hora practicam os algo de álgebra. Podem os e sc rib ir:

X y - X . . = ( X i i - X . i) + ( X . i - X . . )

o sea

( d a to m edia V _ / d ato m ed ia de \
individual g ra n d e / \ individual la clase /
( m edia de m edia \
la clase g ra n d e /

en lo que hem os re sta d o X.¡ (la m edia de la colum na /-ésim a) de


Xi¡, p a ra volverla a adicionar inm ediatam ente. P or lo tan to , h e­
m os expresado la d iferencia e n tre u n d ato individual sin g u lar y
la m ed ia gran d e com o sum a de dos cantidades, a sa b e r: i ) la
diferencia e n tre su d a to y la m edia d e la categoría a la que p e r­
tenece, y 2 ) la diferencia e n tre la m edia d e la clase y la de la me-

C uadro XVI.2. R epresentación sim bólica d e los datos para el


análisis de la variancia

Categorías
Total
Ai A2 A-h

*n *12 *»
*21 *22 . . . * 2*
*31 *32 *3fc
M arcas

*AT11

2 2 * i¿
Sum as 2 X tl 2 * i2 2 *«, i ¡
i= l i= l í= i

M edias X .x X.O . . . *•* X ..


N? de casos Nk N

i Como quiera que tenemos dos subíndices, i y /, importa distinguir entre


2 y 2 . En el último caso, los valores / se sumarían para cualquier i (fijo),
i i
y obtendríamos así la suma de los datos de la hilera í-ésima.
d ia grande. E n el ejem plo n um érico a n te rio r podem os expresar
la diferencia e n tre el d ato del p rim e r individuo de la p r im ara
clase y la m ed ia grande como :

4.3 - 6.71 = (4.3 - 8.58) + (8.58 - 6.71)


o sea — 2.41 = — 4.28 + 1.87

Si elevam os al cu ad rad o am bos m iem bros de la ecuación, ob­


tenem os :

{Xi¡ - Z..)2 = ( X tj - X.j)2 + 2 { X is - X.¡) {X.¡ - X..) + (X ., - X..)2


S um ando am b os lados obtenem os la sum a de las desviaciones
cu ad rad as de todos los individuos. Podem os su m ar p rim ero cada
colum na y a ñ a d ir luego las cifras resu ltan tes de cad a clase. Al
h acerlo así, el térm ino' cen tral se anula. P ara v er p o r qué esto
es así, obsérvese que, al su m ar cu alq u ier colum na p artic u la r, el
v alo r de / £erá constante. P o r lo tanto, p a ra la colum na /-ésim a
el fa c to r (X.¡ — X. . ) será co n stan te y puede to m arse fu e ra de la
su m a to tal. Así, p o r ejem plo, p a ra la sum a de los datos de la co ­
lum na /-ésim a el térm ino cen tral se convierte en

2(X.,-X..) 2 (Xy-X.,)
i
Pero, com o q u iera que p a ra cada colum na las desviaciones res­
p ecto de la m ed ia de la colum na h an de ser cero, vem os inm e­
d iatam ente q ue el térm ino cen tral h a de desaparecer p a ra todas
y cada u n a de las colum nas. O btenem os, p u e s :

2 2 ( Xi ,- X ..)2 = 2 2 ( X y - X . , ) 8+ 2 2 (X..-X..)* (X V I.l)


* i i i i i
Sum a to tal de sum a de cuadra- su m a de cu ád ra­
los cuad rados dos (d e n tro ) dos (e n tre )

Al p ro ced er así, obtenem os u n a doble sum a to tal que escribim os


com o 2 2 , in d icando que hem os sum ado tan to las hileras com o
i 3
las colum nas.
H em os dividido la variación to ta l en dos p artes. La p rim era
es u n a sum a de las desviaciones cu ad rad as de los datos indivi­
duales resp ecto de las m edias de sus clases respectivas. É sta se
designa com o sum a dentro de los cuadrados y se em pleará p ara
o b ten er n u e stra p rim e ra estim ación de la variancia com ún o2.
O bsérvese que e sta sum a de cuadrados se obtiene esencialm ente
en la m ism a fo rm a en que se form ó la estim ación unificada en
la p ru e b a de la diferencia de las m edias. Si escribim os la sum a
in te rio r de cuadrados com o:

2 ( X i l - X . 1y + 2 ( X i 2- X . 2)* + . . . + 2 { X i h- X . ky
i= l t= l i= l

vemos que el p rim e r térm in o es exactam ente AT1s12, en donde las


desviaciones se h an tom ado respecto de la m edia de la categoría,
y en fo rm a análoga en relación con los o tro s térm inos. P or lo
ta n t o :

SC in te rio r = + N2s2z + . . . + N ksk2

Si dividim os e n tre los grados apropiados de libertad, que resu lta­


rá n se r N — k, obtenem os u n a estim ación unificada, b asad a en
todas las k categorías. La segunda sum a d e cuadrados, o sum a
en tre colum nas, com porta las desviaciones de las m edias de las
categorías resp ecto de la m edia grande, siendo p o r consiguiente
u n a m edida de la variación e n tre las m u estras. La segunda esti­
m ación de la v ariancia se b a sa rá en e s ta sum a de cuadrados en­
tre colum nas.
Las sum as d en tro y e n tre cuadrados se designan a m enudo
com o variaciones explicadas e inexplicadas respectivam ente. Re­
su lta tal vez m ás fácil v er p o r qué la variación in terio r se designe
com o inexplicada, y a que se refiere a la variación que no se tiene
en cu enta en la variable de la categoría. Si d en tro de la categoría
A hay todavía alguna o tra variabilidad resp ecto de la m edia de
la categoría, esta v ariabilidad no p u ed e ciertam en te explicarse
p o r la categoría. P or o tra parte, si las m edias de las categorías
d ifieren co n siderablem ente e n tre sí, u n a fracción relativam ente
g ran d e de la variación to tal puede a trib u irse a diferencias en tre
varias categorías. Así, pues, es la m ag n itu d de la variabilidad
d en tro de las categorías, com parada con las diferencias en tre
ellas, la que d eterm in a h a sta qué grado las dos variables están
asociadas. C ategorías hom ogéneas que difieran considerable­
m en te e n tre sí explican u n alto grado de variación.2 E n el caso
extrem o, si tuviéram os categorías p erfectam ente hom ogéneas, la
su m a d en tro de los cuadros sería cero, y to d a la variabilidad po­
d ría atrib u irse a la variable de la categoría. Así, p o r ejem plo, si
todas las ciudades in d u striales tuvieran exactam ente la m ism a
2 Lo que sin embargo no implica causalidad, por supuesto. La palabra
"explicado”, tal como se la emplea en la bibliografía estadística, se traduce
mejor como: "asociado con”, no debiendo en forma alguna interpretarse
en el sentido de suponer necesariamente que se haya localizado una varia­
ble explicativa en el sentido causal o teórico.
ta sa de crim in alidad y d ifirieran de la de los centros com erciales,
de tasas tam b ién to talm e n te hom ogéneas, etcétera, entonces po­
d ría decirse que el tip o de ciudad explicaba to d a la variación en
m a teria de tasas de crim inalidad. O sea que, sabiendo d e cuál
tip o de ciudad se tra ta , estaríam o s en condiciones de an ticip ar
dicha ta s a exactam ente.
Con o b jeto de o b ten er apreciaciones de estas dos sum as d istin ­
tas de cuad rad o s, b a sta dividir e n tre los grados apropiados de li­
b ertad . A hora bien, los grados d e lib e rta d asociados a la sum a
to tal de los cu ad rad o s es N — 1, ya que, según vim os, o 2 es la es­
tim ación insesg ada de o2, habiéndose perdido' u n grad o de liber­
ta d debido al cálculo de la m edia general X ... Veam os ah o ra la
su m a de los cu adrados e n tre colum nas. E sta ca n tid ad re p resen ta
la sum a de las desviaciones cu ad rad as de las m edias de la m ues­
tr a k resp ecto de la m edia general. E n efecto, la m edia de cada
categoría se tra ta com o caso p artic u la r. P or lo tan to , están im ­
plicados k — 1 grados de lib ertad , y a que u n grado se h a perdido,
debido al h echo que el prom edio p onderado d e X,¡ h a de ser X ...
E n el caso de la apreciación de la clase in terio r, se p erd erá un
grad o de lib e rta d en cada colum na a causa del cálculo de la X.¡.
P o r lo tan to , en conjunto' h a b rá N — k grados de lib e rta d asocia­
dos a la ap reciación in terio r. O bsérvese que los grados de lib er­
ta d se sum an, lo m ism o que las sum as d e cuadrados. Así, p u es:

N -l = (N-k) + (k-í)
dif. to ta l = dif. d e n tro + dif. e n tre colum nas

E n esta form a, n u e stra s dos estim aciones de la v arian cia com ún


se convierten e n :

i j
estim ación d en tro = --------------------------- (X V I.2)
N —k

S 2 ( I r L )s
i i
estim ación e n tre colum nas = --------------------------- (X V I.3)
k - 1

Llegados a este punto, es posible que se le haya o cu rrid o al lec­


to r que, si incluim os la estim ación usu al b asad a en la sum a to­
tal de los cuad rados, tenem os en re alid ad tres estim aciones d istin ­
tas de la varian cia total. ¿P or qué, pues, no co m p arar aquélla con
cu alquiera de las o tra s dos, ya q u e dicha estim ación to ta l bien
p o d ría c o n stitu ir u n a estim ación m e jo r que cu alq u iera d e éstas?
Se reco rd ará, sin em bargo, que la p ru eb a F req u iere q u e las es-
tim aciones com paradas sean independientes unas de otras. Y la
estim ación b asad a en la sum a to tal de los cuadrados no es inde­
pen d ien te de las o tras, siendo ésta la razón de que no se la pueda
u tilizar en la p ru e b a de la F. P or lo regular, las sum as de cu ad ra­
dos d en tro y e n tre colum nas no son independientes u n a de otra.
Pero ocu rre que la d istribución norm al posee la propiedad de que
dichas cantidades sean independientes, a p esa r de que las m ism as
X. j figuren en am bas expresiones. É sta es la razón en cuya v irtu d
hem os de su p o n er que todas las poblaciones son norm ales. Se
re co rd a rá que tam b ién en el caso de la distribución t se req u ería
norm alidad, debido a la necesidad de que el n u m erad o r fu era
independiente del denom inador. Como lo verem os en seguida, la
distrib u ció n t es u n caso p a rtic u la r de la distribución F.
Problem a. Sirvám onos de los datos hipotéticos anteriores, que
re p resen ta n tasas de crim inalidad p a ra tres tipos de ciudades.
Nos in tere sa sab er si existen diferencias significativas e n tre las
m edidas de los tres tipos de ciudades en cuestión.

1. Supuestos.
N ivel de m e d ic ió n : Tasas d e crim inalidad, escala de interva­
lo. Tipo de ciudad com o escala nom inal.
M odelo: M uestreo independiente aleatorio.
Poblaciones norm ales p a ra cada tipo de ciudad.
Las variancias de las poblaciones son iguales.
(a i2 = a32 = . . . = ofc2 = a2)
H ip ó tesis: Las m edias de las poblaciones son iguales.
(fi.l = (1.2 = . . . = [X.fc)

Lo m ism o que en el caso de la p ru e b a de la diferencia de las


m edias, h ay que su poner que las m u estras se h an seleccionado
ind ep en d ien tem en te u n a d e otra. E n o tro s té rm in o s: las ciuda­
des no1 están asociadas en form a alguna. Como q u iera que se
supone que las poblaciones de los tre s tipos de ciudades son n o r­
m ales, con m edias y variancias iguales, estam os suponiendo en
realid ad que son idénticas. P or lo tan to , las tres m u estras pue­
den considerarse com o si se hub ieran tom ado al azar de u n a
m ism a población. P or lo regular, el investigador está in teresado
en el supuesto de m edias iguales. E n el p resen te ejem plo, an ti­
cip ará p ro b ab lem en te diferencias en las tasas de crim inalidad de
los tre s tipos de ciudades, y establecerá la hipótesis nula de que
no existe e n tre ellos d iferencia alguna. Conviene observar que no
se req u ieren m u estras grandes, debido al supuesto de norm alidad.
Sin em bargo, es obvio* que si en cada categoría sólo h u b iera un
caso, no h ab ría v ariabilidad en el in te rio r de las categorías, con
lo que la p ru e b a n o sería posible.
La p ru eb a de la F en sí m ism a n o verifica el supuesto de va-
riancias iguales u hom oscedasticidad (com o se designa el supues­
to en len guaje técnico). E n situaciones e n las que las variancias
de las m u estras parecen d iferir m u ch o e n tre sí, pu ed e p ra cticarse
u n a p ru e b a in d ependiente p a ra la igualdad de las variancias (véa­
se [1], pp. 141 a 144). Si los re su ltad o s de u n a p ru e b a de esta
clase in d ican q u e h ay desviaciones m ás b ien extrem as de la h o ­
m ogeneidad de la variancia, entonces no debería em plearse el
análisis de ésta. Sin em bargo, pu ed en con to d o to le ra rse desvia­
ciones m o d erad as de la hom ogeneidad. S em ejantes desviaciones
pueden re d u cirse a m enudo considerablem ente m ed ian te tra n s­
form ación de las v ariables.3 Si u n a categoría p a rtic u la r es o m u­
cho m ás o m u ch o m enos hom ogénea que las o tras, pu ed e re su l­
ta r indicado d esc a rta rla del análisis de la variancia. E n térm inos
generales, las desviaciones m o d erad as resp ecto d e la norm alidad
y de la ig u ald ad de las variancias p u ed en to le ra rse sin necesidad
de re c u rrir al u so de las altern ativ as n o p aram étrica s (véase [ 1 ],
pp. 220 a 223).
2. N ivel de significación y región crítica. Sirvám onos de u n ni­
vel de .05. Si la hipótesis n u la es en realid ad in co rrecta, en to n ­
ces, si tom am os siem pre la razón d e la estim ación d en tro a la
e n tre colum nas, podem os e sp e ra r e n c o n tra r que el v alor de F sea
m ayor que la unidad. P or lo tanto-, nos servirem os d e la cola m a­
yo r de la d istrib u ció n F com o región crítica. Si re su lta q u e F es
m en o r q ue la u n id ad , n o te n d rá o b jeto alguno b u sc a r en la tab la
el v alor de la p rob ab ilid ad , ya que, p a ra d e sc a rta r la hipótesis
nula, se n ec esitarán valores de F su periores a la unidad. U na F
m en o r que la u n id ad in d icaría u n grado m ayor de heterogeneidad
d en tro de las categorías de lo q u e se esp eraría al azar. El lector
h a de re c o rd a r u n a vez m ás que, aunque sólo nos sirvam os de una
sola cola de la d istrib u ció n F, e sto n o significa en m odo alguno
que anticipem os cuál de las m edias de las categorías será m ayor.
3. D istribución de m uestreo. La distribución de m u estreo de F
está d ad a en el c u a d ro J del A péndice 2. El em pleo de este cua­
d ro se describ e m ás abajo.
4. Cálculo de la estadística de la prueba. Con o b je to de obte­
n e r u n v alor de F, razón de las estim aciones e n tre y d e n tro de
colum nas, se rá necesario calcu lar p rim ero los totales e n tre y
d en tro de cu ad rados. Como q u iera que la variación to tal es
igual a la su m a d e las o tra s dos, sólo necesitarem os calcular dos
de los valores en cuestión, y a q u e el terc ero se o b te n d rá p o r
sum a o d iferen cia de éstos. S e re c o rd a rá que la su m a d en tro de
los cu ad rad o s co m p o rta u n a operación de unificación. E sto re p re­

3 Ocurre, por ejemplo, a veces que las categorías que tienen las medias
más grandes son también las menos homogéneas. En tales casos, si se toma
como escala de intervalo el logaritmo de la variable original, el efecto será
el de igualar las variancias. Para un examen más detallado del empleo de
la transformación logarítmica, véase la sec. XVIII2.
sen ta considerablem ente m ás tra b a jo q u e el que se req u iere p a ra
las o tra s dos sum as de cuadrados y, p o r lo tan to , obtenem os la
su m a d en tro de éstos restan d o la sum a e n tre colum nas de la sum a
to ta l de los m ism os.
La fó rm u la de cálculo p a ra la su m a to ta l de los cuadrados se
ob tiene en la m ism a fo rm a que la de la variancia [véase la ecua­
ción (V I .6)]. Así p u e s:

S um a to ta l de los cuadrados = 2 2 ( X tj — X ..)2 =


i j
(2 2 1 ^
= 2 2 X íj2 ------— -------- (X V I.4)
i i 3 N

É sta es la m ism a fó rm u la que em pleam os al calcu lar las des­


viaciones e stán d a r, sólo que ah o ra es necesario servirse de u n
doble signo de su m a to tal.
La fó rm u la de cálculo de las variaciones en tre colum nas se
p re se n ta a p rim era vista com o form idable, pero, si se m ira m ás
de cerca, en cu én trase que co m porta u n procedim iento relativ a­
m en te sencillo. E s com o sig u e :
( 2 X ¡y)2 ( 2 S I «)2
i i }
S um a de cuad rad os e n tre colum nas = 2 ------ -----------------------------
i Nj N
(X V I.5)

■(2x«)2
i
( in i2)2 (si x jn (ssii,)2
-i j
~ ----- ------ - -|----------------1- . . . ~\---- 1------l— ------------------
. N¿ N2 Nk N
O bsérvese que el segundo térm in o de la expresión a n te rio r es el
m ism o fa c to r que se su stra jo de 2 2 I ¡ / p a ra o b ten er la sum a
í i
to ta l de cuadrados. El p rim e r térm ino, en cam bio, es suscepti­
ble de d eso rie n ta r al lector. A nalizando e sta expresión, vem os
que calculam os p rim e ro la sum a de cada colum na y luego la ele­
vam os al cu ad rad o p a ra o b ten er ( 2 X Í3)2. Dividimos luego dicha
i
expresión e n tre el núm ero de casos de la colum na, que no necesi­
ta ser siem pre el mismo-. Tenem os así p a ra la colum na j-ésim a:
( 2 Xi j Y/ Nj . F inalm ente, hacem os lo m ism o con cada colum na
i
y sum am os los resultados.
Los cálculos del p ro b lem a n um érico q u e se dan a continuación
ay u d arán a a c la ra r el procedim iento. Las sum as to tal y e n tre
colum na d e cu ad rados se calculan com o sigue:
2 2 X ij1 = (4.3 )2 + (2.8)2 + . . . + (1.9)2 = 1 453.58
%j
(2
4 # (lól.O)2
= 1 080.042
N 24

SC totales = 1 453.58 - 1 080.042 = 373.538


(68.6)2 (44.8)2 (47.6)2
SC en tre colum nas = ------------ 1----------------------------------------------- 1----------- 1 0
8 8 8

= 1 122.345 - 1 080.042 = 42.303

P ara o b ten er la sum a de cuadrados d en tro sustraem os sim ple­


m ente la segunda expresión de la p rim e ra obteniendo:

SC d en tro = SC totales — SC e n tre colum nas


o
331.235= 373.538 - 42.303

Las apreciaciones de la variancia com ún pueden calcularse aho­


ra dividiendo e n tre los grados apropiados de libertad. Finalm ente,
la F se calcula dividiendo la estim ación e n tre colum nas e n tre la
estim ación in terio r. Estos cálculos se resum en en el cuadro XVI.3.

Cuadro XVI.3. Cálculos para el análisis de la variancia

Sumas de Grados de Estimación de p


cuadrados libertad la variancia

Total 373.538 N - 1 = 23
Entre columnas 42 303 k ~ 1= 2 21.152 . ,.
Dentro de columnas 331.235 M — k — 21 15.773

5. Decisión. P ara decidir si descartam os o n o la hipótesis nula,


hem os de averiguar si el valor de F queda o n o en la región crí­
tica. Se observ ará que se dan tres cuadro s distintos de F, que
co rresponden a los niveles de significación del .05, .01 y .001 res­
pectivam ente. E sta inform ación no puede condensarse en u n solo
cuadro, p o rque hay que asociar con cada F dos grados de libertad,
uno p a ra el n u m era d o r y o tro p a ra el denom inador. Los grados
de lib ertad asociados al num erador, O1 sea la estim ación entre
colum nas, se en cu en tran buscando horizontalm ente a rrib a del
cuadro, en ta n to que los del denom inador, o estim ación dentro,
se obtienen leyendo el cuadro de a rrib a abajo. O bsérvese que
todos los valores de F dados en el cuadro son > 1.0, lo que indica
que el cu ad ro se h a establecido directam en te p a ra p ru e b as de
u n a cola. E n otro s té rm in o s : el n u m e ra d o r es siem pre la m ayor
de las dos estim aciones. E n n u estro p ro b lem a obtuvim os u n a F
con 2 y 21 grados d e lib e rta d (se escribe ^ 2,21) igual a 1.34. S ir­
viéndonos del cu ad ro del nivel de significación del .05, y bu scan ­
do los grados ap ropiados de lib ertad , encontram os la cifra de
3.47. Sabem os, pues, que, si los supuestos fu e ran correctos, ob­
ten d ríam o s u n v alor d e F igual o m ay o r que éste m enos del 5 p o r
ciento de las veces. Com o q uiera que el v alo r efectivam ente ob­
ten id o p a ra F es m enos que 3.47, no d escartam o s la hipótesis nula
al nivel del .05. D ecidim os que n o se dispone de p ru e b as sufi­
cientes p a ra concluir que los tipos d e ciudades difieren realm ente
u n o resp ecto de o tro en cu an to a las ta sa s de crim inalidad.

X V I.2. C om paración de m edias específicas


Se h a b rá observado que el p ro b lem a a n te rio r p u d o h a b e rse tr a ­
ta d o sirviéndonos de la p ru e b a de la d iferencia de las m edias que
co m p o rta la d istrib u ció n t. P udieron h a b e rse hecho tre s com pa­
raciones distin tas, p o r pares, en tre las ciudades in d u striales y co­
m erciales, in d u striales y políticas, y com erciales y políticas. E n
c o n tra ste con esto, el análisis de la variancia b rin d a u n a prueba
sola acerca de si los tre s tipos de ciudades difieren o n o signifi­
cativam ente en tre sí o, en otros térm inos, si todos ellos pu d iero n
p ro ced er de la m ism a población. La v en taja del análisis de la
v arian cia está en que p u ed e em plearse u n a p ru e b a sola en lugar
de m uchas. Si h u b iera hab id o cu a tro categorías, se h a b ría n re ­
querido' 4 (3 )/2 , o sean 6 pru eb as de diferencia de las m edias.
Con 6 categorías se n ecesitarían 15 pru eb as, y con 10 categorías 45.
S upóngase que se n ecesitaban 15 p ru e b as y que solam ente 4 de
ellas re su ltab a n significativas, ¿qué concluiríam os? S ería difícil
decirlo.
H ay u n a salida fácil q u e a p rim e ra v ista p arece se r u n p ro ­
cedim iento razonable. ¿P o r qué n o e fectu ar sim plem ente una
p ru e b a de diferencia de m edias con las dos categorías q u e p re ­
sen tan resp ectivam ente las m edias m ay o r y m enor? P orque si és­
tas son significativam ente distintas, podem os concluir q u e las
categorías difieren efectivam ente e n tre sí. H em os de re c o rd a r,
sin em bargo, que (suponiendo m u estras del m ism o ta m a ñ o ) en
esta fo rm a seleccionaríam os la p ru e b a ú n ica que p re s e n ta ra
m ayores pro b ab ilidades de d ar significado, prescindiendo de las
dem ás. Como q u iera que podem os e s p e ra r que al nivel del .05
u n a p ru e b a so b re veinte dé significado incluso si todas las m e­
didas de las poblaciones son iguales, es evidente que ca rg aría­
m os así los dados en favor del rechazo. E n otros té rm in o s : el
nivel de significación realm en te em pleado no sería del .05, sino
tal vez el del .5 o .7, ya que estam os obteniendo la p ro babilidad
de conseguir p o r lo m enos un éxito (significación al nivel del .05)
en u n gran n ú m ero de pruebas.
Sin em bargo, no debe deducirse de ello que el análisis de la va-
riancia sea siem pre preferible a u n a serie de pruebas de diferencia
de m edias. E stas últim as, en efecto, si se em plean cautam ente,
pueden su m in istra r considerable inform ación. Así, p o r ejem plo, el
análisis de la variancia puede conducir a resultados significativos
sobre todo debido al hecho de que u n a de las categorías se aleje
m ucho de las restantes. De m odo que si dicha categoría se h u ­
b iera excluido, la conclusión pudo h ab e r sido to talm e n te distinta.
E n cambio, u n a serie de pru eb as de diferencia de m edias podría
in d icar el hecho en cuestión con m ayor claridad. Si antes de
em pezar la p ru e b a se sospecha, en p artic u la r, que u n a o varias
categorías p o d rán acaso diferir m ucho de las o tras, entonces
cierto n úm ero de pruebas de diferencia de m edias de u n a sola
cola p o d rá re su lta r m ás adecuado. Es posible tam bién, en oca­
siones, a n ticip ar el orden en que quedarán las m edias de las
categorías. Supóngase, p o r ejem plo, que se h u b iera predicho
que las tasas de crim inalidad serían las m ayores en las ciudades
in d u striales y m ínim as en las políticas. E n tal caso pud ieran h a­
berse utilizado dos pru eb as de diferencia de las m edias de una
sola cola, o s e a : u n a de ellas anticipando u n a diferencia en tre las
ciudades in d u striales y las com erciales, y o tra anticipando u n a di­
ferencia e n tre estas últim as y los centros gubernam entales. En
térm inos generales, parece ser que cu an to m ayor conocim iento
tengam os p a ra p red ecir las m agnitudes relativas de las diferen­
cias y sus direcciones, o éstas, tan to m ás pro b ab le re su lta que
las p ru eb as d istin tas de la diferencia de las m edias sean adecua­
das. El análisis de la variancia, en cam bio, parece ser m ás ú til
al nivel de exploración.
F inalm ente, p u ed e observarse la relación e n tre las distribucio­
nes t y F. Si sólo h u b iera hab id o dos tipos de ciudades, podría
tam bién h ab erse hecho u n a p ru e b a de análisis de variancia, com ­
p aran d o luego los resultados con los de u n a p ru e b a t de dife­
rencia de las m edias. En este caso, los grados de lib ertad aso­
ciados al n u m era d o r de F h ab ría n sido 2 — 1, o sea 1. E n tan to
q ue los grados de lib e rta d del denom inador h ab ría n sido N — 2,
los m ism os que p a ra t en la p ru e b a de la diferencia de las m e­
dias. Hay que reco rd ar, tam bién, que cuando suponem os Ox = o2,
los denom inadores tan to de t com o de F com portan estim acio­
nes unificadas de la variancia. R esulta que la distribución t
puede co n siderarse como caso p a rtic u la r de la distrib u ció n F.
S i calculáram os los valores de iz con N — 2 grados d e libertad,
en contraríam os que son exactam ente los m ism os que los de una
F de 1 y N — 2 grados de libertad, com o puede com probarse com ­
p aran d o los cuadros F y t. E n o tro s térm inos, t es la raíz cua­
d rad a de u n a F que tenga u n grad o de lib ertad asociado a su
n u m erad o r. E sto significa, p o r supuesto, que se llegará exacta­
m en te a las m ism as conclusiones en el caso de dos m uestras,
in d ependientem ente de si nos servim os de la p ru e b a de análisis
de variancia o de la de diferencia de las m edias. E n este sen­
tido, el análisis de la variancia es en realid ad u n a extensión de
la p ru eb a de la diferencia de las m edias.
* Com paraciones ortogonales. E n m u ch as ocasiones en q u e son
com paradas m ás de dos categorías re su lta conveniente h ac er u n
cierto nú m ero d e com paraciones específicas previam ente p la­
n eadas, b asadas en u n in terés teórico, y o rien tad as a com probar
los procedim ientos de pru eb a. Supongam os p o r ejem plo que en
u n experim ento aparecen cinco grupos, uno de los cuales es de
co n tro l, en tan to los re sta n te s e stán su jeto s a diferentes tipos
de m anipulación experim ental. Puede o c u rrir que los grupos se­
gundo y tercero cuenten con dirigentes au to ritario s que se h an
visto som etidos a grados de fru stració n , m ediano en el del se­
gundo y elevado en el del tercero. T am bién los grupos cu arto
y quinto pueden h ab erse visto sujetos a grados m oderados y ex­
trem o s de fru stració n , p e ro h an desarro llad o experiencias de
dirección dem ocrática. Podem os desear co m p arar el grupo te sti­
go con cada un o de los cu atro grupos experim entales, p ero a la
vez podem os p ro p o n e m o s co m parar los dos grupos au to ritario s
con los dos dem ocráticos, o los dos grupos som etidos a u n a fru s­
tració n m oderada con los otros dos en los que la fru stració n
e ra extrem ada. ¿Son legítim as todas estas com paraciones, en el
sen tid o de que no nos vayan a b rin d a r inform ación re d u n d an te?
Dicho de o tra m a n e ra : si conocem os el re su ltad o de u n a com ­
p aración, ¿no p o d rá o c u rrir que tal re su ltad o haya de a r ro ja r luz
so b re alguna de las dem ás? N ecesitam os u n sistem a que nos p e r­
m ita d ecid ir si las com paraciones son ortogonales o si son re al­
m en te in d ep en d ientes.4
Podem os h ac er uso de nuevo de la idea de las funciones linea­
les, m ed ian te u n procedim iento que viene a se r u n a am pliación
d irecta de la p ru e b a de la diferencia de m edias. Si deseam os
c o m p arar el g ru p o de co n tro l (grupo I) , con los grupos experi­
m entales, se nos o c u rriría n atu ra lm e n te re s ta r la m edia de las
m edias de los cu a tro grupos experim entales, de la m edia del gru­
p o de control. De m an era análoga, si deseam os co m p arar los
grupos au to ritario s con los dem ocráticos, restaríam o s n a tu ra l­
m en te la m edia de los grupos IV y V (dem ocráticos) d e la de
los grupos II y III. Si dam os la m ism a ponderación a todos los
4 La idea de ortogonalidad se deriva de una interpretación geométrica
de las asociaciones estadísticas, y se refiere a aquellas situaciones en las
que la relación puede ser representada mediante ejes perpendiculares u or­
togonales. De interés para nosotros es que si también suponemos homos­
cedasticidad y normalidad en la distribución de la variable dependiente,
puede demostrarse que la ortogonalidad implica la independencia esta­
dística.
g rupos (con independencia del tam añ o relativo de las m u estras),
ello su p o n d ría c o m p arar las m edias de las dos m edias, o ( ’A )
( X 2 + X s ) — ( 1A ) ( X i + X 5), siendo la hipótesis n u la la de que
( Vi )(|x2 + (i3) ~ ( Vt )(^4 + M-e) = 0-
D efinam os de m odo m ás general u n a función de tyj p a ra la i-
ésim a com paración que deseam os hacer, com o sigue:
k
. “i- 1k]líc — 2 Cij\Xj
3=1
En donde c is son ponderaciones m uy sim ples, dependientes de
la com paración q u e se lleva a cabo. Si im ponem os la restricción
de que la su m a de las ponderaciones debe s e r igual a cero, es
decir, 2 ci3- = 0, se sim plificará gran d em en te el análisis sin res-
i
trin g ir de nin g u na m an era las com paraciones a realizar. Así, si
n u e stra p rim e ra com paración se refiere al grupo de control con­
tr a la m edia de los cu a tro grupos re stan tes, podem os to m ar
cu = 1, con los re sta n te s c1} iguales todos a - 54. Si u n a p a rtic u ­
la r com paración d eja sim plem ente fu e ra u n a de las categorías
(p o r ejem plo el g ru p o de co n tro l), h arem o s que el cis p a ra aque­
lla categoría sea igual a cero. De esta m an era tendrem os, en el
caso de las tres com paraciones que estam os considerando:

I II III IV V
: control contra los demás
(I vs. II, III, IV y V) 1 -V i -V i -V i -V i
’1>2: autoritarios contra democráticos
(II y III vs. IV y V) 0 Va V2 -y 2 -'/2
: frustración moderada contra
extrema
(II y IV vs. III y V) 0 V2 -y 2 V2 —lh

Si las v arian cias de población o,2 son aproxim adam ente igua­
les, las poblaciones aproxim adam ente norm ales, y todas las
m u estras del m ism o tam año, las com paraciones separadas serán
m u tu am en te independientes (como- asim ism o ortogonales), siem ­
p re que se p roduzca la siguiente relación é n tre los co eficien tes:
k
2 c np i} = 0 p a ra to d as las h ^ i
i^ i

E n p a rtic u la r com enzarem os p o r exam inar el p rim e r p a r de


com paraciones (h ~ 1, i = 2). E n n u e stro caso ten d rem o s:
C11C21 + C12C22 + C13C23 + c14c24 + C15C25
= 1(0) + ( - 'A ) ( ¡A ) + (~>/4) ( a ) + (-V 4 ) ( - V z ) + ( - J4 ) ( - V 2 ) = o

viendo q ue la condición se aplica. Pasam os a continuación a las


com paraciones p rim e ra y te rc e ra y finalm ente a las segunda y
tercera, observando de nuevo que la sum a req u erid a de los p ro ­
ductos es igual a cero. Así:

1(0) + ( - # ) ( # ) + i - ' A X - ' A ) + ( - J 4 ) ( V í ) + ( —V4)(—Vi) = 0

Y 0(0) + ( 1/ 2) ( >/2) + ( ‘/2 ) ( - ‘/2 ) + { - V i ) ( ) + (-'/2 ) ( - '/ 2) = 0

Podem os d em o strar en general que si h ay k categorías, resul­


ta rá n cuando m ás k — 1 com paraciones m u tu am en te ortogona­
les. Asimismo, si los tam añ o s de las m u estras son distintos, re ­
su lta rá n ecesario p o n d erar con los tam añ o s N¡ de la categoría
de m u estra, siendo el m e jo r criterio p á ra lo g rar la o rto g o n alid ad :

S ^ - = 0
í-i N,

E n n u e stro ejem plo hem os utilizado solam ente tre s com para­
ciones m u tu am en te ortogonales, en ta n to que k — 1 , o cuatro,
son posibles. E n la m ayoría de los casos no te n d rá p o r su puesto
sentido teó rico el u tiliza r todas las com paraciones ortogonales
p o sibles; sin em bargo, es instru ctiv o d eterm in a r cuál sería la
cu a rta. O bsérvese que ya hem os com parado el grupo de con­
tro l con todos los grupos experim entales, y p o r ello n o es de
e sp e ra r que u n a com paración de dicho grupo de control con
cu alq u iera de los subgrup-os (p o r ejem plo el de los grupos auto­
rita rio s ), re su lte ortogonal con la p rim e ra com paración. Puede
co m p ro b arse esto fácilm ente aplicando el criterio de prueba.
O bsérvese que hem os com parado el grupo II (ju n to al I I I o el
IV ) con el grupo- V (en com binación a su vez con los grupos I I I
y IV). Podríam os así e sp e rar que si los grupos I I y V son p a­
reados c o n tra los I I I y IV, la com paración re su ltan te fuese
o rtogonal con las re sta n te s com paraciones, com o en efecto así
o cu rre. A m enos que de m an era específica se buscase u n a in te r­
acción, tal com paración p a rtic u la r carecería probablem ente de
sen tid o teórico-, ya que re q u eriría p ro m ed ia r las puntuaciones
del g ru p o au to rita rio con fru stracio n es m edias con las del grupo
dem ocrático con elevada frustración.
O bsérvese que al co m p ro b ar la ortogonalidad o independencia
m u tu a e n tre com paraciones no hem os dicho n ad a en relación
con el tam añ o real de la m uestra, excepto en el caso d e las
m u estras tam añ o N¡. E l crite rio de p ru e b a im plica solam ente
las ponderaciones c i} y n o las m edias d e las m u estras o varian­
cias. Las decisiones relacionadas con las com paraciones deben
se r hechas, en efecto, antes de realizar la recogida de datos. Se
puede entonces b u sca r la significación estad ística de cada com ­
paración, com o se indica m ás abajo. E sta p ru e b a incluye la dis­
trib u ció n t de m a n e ra exactam ente análoga a lo que o c u rre con
la p ru e b a de la diferencia de m edias, la que es p o r su puesto la
com paración m ás sim ple posible, en la que clí = l, y c12 = —1 .
El n u m era d o r de t será u n a estim ación de la función lineal %
o b ten id a su stitu y en d o las c o n tra p artes de la población con las
m edias de las m u estras. Así, si hacem os:

% = Ci l Xl + Ci 2 ^ 2 + .. • + cilcX k
tendrem os el n u m era d o r p a ra la ¿-ésima com paración. E n el caso,
p o r ejem plp, d e n u e stra p rim e ra com paración e n tre el grupo de
co n tro l y todos los dem ás, hab ríam o s tenido

% = x t - ( y*)(x2+ x z + x á+ x 5)
ta l y com o el sen tid o com ún lo h a b ría sugerido.
P ara n u e stro denom inador de t deseam os u s a r u n estim ador
resu m id o b asad o e n todas las m u estras, incluso en los casos en
q u e la com paración no ab a rq u e la to talid a d de dichas m u estras.
R ecordando n u e stro resu ltad o p a ra la variancia de u n a com bi­
nación lineal, sabem os que

v ar •$< = c n 2 v a r X x + c i22 v ar X 2 + . . . + cikz v ar X k

Si suponem os n o rm alid ad y variancias iguales a*2 = a2 la expre­


sión se convierte en
a o2 o2 ri2 s c -,2
varap* = cn 2 — + ci22 — + . . . + cifc2 = o2 2 - g -
Ni N2 N jc i - i Nj
la que, al colocar u n estim ado p o r o2 y obteniendo la raíz cua­
d ra d a positiva, se convierte en el denom inador deseado de t, el
que te n d rá N — k grados d e lib ertad . E sta m ism a expresión
h ab ía sido u sa d a en el denom inador de t en los casos de nues­
tra s com paraciones segunda y terc era , en las que n o fig u ra el
g ru p o d e co n trol. E n el caso de la segunda com paración, p o r
ejem plo, h ab ríam os tenido

o2= ^ í s i2 + + . ■. + N 6 S b2

N - 5
(d e n tro del grupo estim ad o de variancia)
, (>/2 ) 2 (Ü )2 { -V i )a , (- y * )*
v *L ‘ H------ TZ------r ■ +
i-1 Nf Nt N.
i i i \
+ ~ Ñ r+ ~ Ñ r+ ~Ñ r)

( V2) ( X2 + X s) - ( Vz ) ( X4 + X s)
y p o r lo ta n to í = --------------------------- ----------------- ;------
o ( J * W l / N 2 + 1/iSTg + 1 / J V 4 + \ / N s

( X 2 + X 8) - ( X 4 + X 5)

oy / l / Nz + l / N ñ + í / N 4 + 1/ÑB

lo que es u n a extensión evidente de la p ru e b a de la diferencia


d e m edias. O bsérvese que el facto r (Vi ) se cancela en el num e­
ra d o r y en el denom inador, lo que re fle ja el hecho de que las
m agnitudes ab so lutas de c(j n o im portan, en ta n to que 2 c i} = 0.
a i
D ebe re calcarse que el estim ad o r resu m id o o será precisam ente
el b asa d o en la sum a in te rio r de los cuadrados (ta l com o se
calcula en la p ru e b a F ) y en él estarán incluidas todas las ca te­
gorías, en ta n to que el n u m era d o r de t y la expresión b a jo el ra ­
dical en el den o m inador no ab a rca rán todas las categorías.

XVI.3. Análisis bim odal d e la variancia


E n d eterm in ad as circunstancias re su lta posible ex tender el an á­
lisis de la varian cia añadiendo o tras variables de escala nom inal.
S em ejan te p ro ced im iento es posible an te to d o en experim entos
controlados, en los que el investigador p u ed e asignar individuos
a varios grupos al azar, controlando así el n ú m ero de casos de
cad a categoría. E n las situaciones n atu rales, sin em bargo, en
las que n o pu ed e efectu arse sem ejante tip o de control, la exten­
sión que se describe en la p resen te sección será m enos útil.
Algunas de las ideas básicas contenidas en lo que se h a denom i­
nad o análisis de v arian cia en dos form as ay u d arán a com prender
algo del m aterial q u e se p re se n ta en los capítulos xix y xx.
Si es posible in tro d u c ir o tra variable de escala nom inal de tal
m o d o q u e to d as las com binaciones de subcategorías de las dos
escalas n o m inales tengan el m ism o n ú m ero de casos, la exten­
sión del análisis de la v arian cia es m uy sencilla.5 Supóngase que
s Si colocamos el mismo número de casos en cada categoría, y si cons­
truimos un cuadra de contingencia que relacione a las dos escalas nomina­
les, entonces podremos ver que no hay relación entre ellos en la muestra.
Esta falta de relación entre las variables de escala nominal es lo que nos
permite separar las sumas de cuadrados de hileras y columnas sin ambi­
güedad.
las categorías de la segunda escala nom inal estén rep resen tad as
p o r hileras. O btenem os ah o ra cierto nú m ero de subcasillas, con
el m ism o n ú m ero de casos cada una. Con objeto de cum plir di­
cha condición, hem os de lim itam o s, p o r supuesto, a p o n er en
colum na categorías de la m ism a m agnitud. A los datos num é­
ricos del cuadro X V I.1 añadim os la escala nom inal "región”, em ­
p leando sólo las dos regiones N ordeste y Sudeste. Supongam os
que hay el m ism o n ú m ero de ciudades en cada casilla de las seis
en to tal. Si ello n o fu e ra así, h a b ría que re c u rrir a u n m étodo
aproxim ado (véase infra). Los datos num éricos se dan ahora
en el cu ad ro X V I.4, con las sum as y las m edias de las subcate-
gorías in d icad as en cada casilla.

C uadro XVI.4. Datos para el análisis de variancia en dos form as

Tipo de ciudad
Regiones Total
Industrial Comercial Gubernamental

4 .3 5 .9 5.1 3 .6 3.1 3.8


2.8 7.7 1.8 3.3 1.6 1.9
2 Xy = 4 4 .9
N o rd e s te 2 X = 20.7 2 X = 13.8 2 X = 10.4 )
X = 5.18 X = 3.45 X = 2 .6 0 X x. = 3.74

12.3 9.1 6 .2 4.1 6.2 11.4


16.3 10.2 9 .5 11.2 7.1 12.5
2 = 116.1
S u d e s te 2 X = 4 7 .9 2 X = 3 1 .0 2 X = 3 7 .2 i
X = 11.98 X= 7.75 X = 9.30 X 2. = 9.68

2 * « = 6 8 .6 2 X i2 = 44.8 2 X i3 = 47.6 2 2 X y = 161.0


T o ta l
i i i i i
X .x = 8.58 X 2 = 5 .6 0 X ,g = 5.95 X.. = 6.71

Si hay el m ism o n ú m ero de casos en cada subcasilla, resu lta


posible frag m en tar las sum as d e cuadrados del in te rio r de las
colum nas, o inexplicadas, en diversos com ponentes. Podem os,
p o r supuesto, efectu ar u n análisis de variancia a través de las
hileras, prescindiendo de las colum nas p o r com pleto. Las sum as
de cuad rad o s al in te rio r de las hileras y e n tre las m ism as se
o b ten d rían en ta l caso exactam ente en la m ism a fo rm a en que
se calcularon an terio rm en te las cifras al in te rio r de las colum nas
y en tre ellas. D esde el punto- de vista m atem ático, re su lta que
si hay el m ism o núm ero de casos en cada subcasilla la sum a
de cuadrados e n tre las hileras p u ed e considerarse com o proce­
d en te p o r com pleto de la sum a de cuadrados d en tro o inexpli-
cada (p o r las colum nas) de las colum nas. Así, pues, la variación
to tal puede dividirse ah o ra en tre s porciones, com o sigue:

SC totales = SC den tro de las colum nas + SC entre-hileras +


+ SC inexplicadas ( XVI .6)

H em os tom ado la variación total, explicando todo lo que po­


díam os p o r m edio de la p rim e ra escala nom inal (tip o de ciudad).
De lo q ue perm an ece inexplicado (la sum a de cuadrados d en tro
de la colum na), cierta porció n puede explicarse m ediante la se­
gunda escala nom inal (reg ió n ). E n cu an to al rem anente, llam ado
a m enudo térm in o de erro r, constituye la p roporción de la v aria­
ción to tal d ejad a sin explicar p o r am bas variables. Tenem os
ah o ra tres apreciaciones de la variancia com ún, en adición a la
estim ación b asa d a en la sum a to tal de los cuadrados, y éstas p u e­
den em p learse p a ra efectu ar dos pru eb as F distintas. E l térm in o
de e rro r p u ed e em plearse en los denom inadores de am bas p ru e ­
bas F, ya que la estim ación b asad a en la sum a de cuadrados
inexplicada será siem p re insesgada e independiente de las o tra s
dos. Los n u m erad ores de las F serán las estim aciones basad as en
las sum as d e cu adrados e n tre colum nas y e n tre hileras. Cada
p ru eb a será u n a p ru e b a de la existencia de u n a relación e n tre la
variable de escala de in terv alo y u n a de las variables d e escala
nom inal, con tro lando la o tra escala nom inal.
Si bien este tip o d e operación de control se exam inará con
m ay o r d etalle en el cap ítu lo xix, es m en este r decir aquí unas p a ­
lab ras al p ropósito, ya que el control sirviéndose de u n análisis
de v arian cia d e dos form as com porta u n principio algo diferente
del q ue se exam inó en conexión con los problem as de contin­
gencia. E l lecto r observará, en efecto, q u e h a sta aquí n u estro
pro ced im ien to de control h a consistido literalm en te en m an te­
n er co n stan te la v ariable de control y exam inar lo que acontece
en el in te rio r de cada categoría de la variable de control. Así,
p o r ejemplo-, hicim os u n a serie de p ru e b as de la /-cu ad rad a, u n a
p a ra cad a u n a de dichas categorías. Aquí, en cam bio, hacem os
una sola p ru e b a F en vez de varias, com o se hizo en el caso de
la p ru e b a de la chi al cu ad rad o resum ida. E n efecto, tom am os
su p resen cia en consideración ajustando valores de la escala de
intervalo, de acu erd o con la categoría de la variable de control.
El le c to r o b servará en el cu ad ro XVI.4, p o r ejem plo, que la
tasa m edia de crim inalidad es de 3.74 p a ra todas las ciudades
del N ordeste, en ta n to que la de las ciudades del S udeste es de
9.68. Supóngase q ue fuéram os a p re te n d e r q u e todas las ciudades
estuvieran en la m ism a región, y realizando u n a ju ste estad ís­
tico de los niveles de crim inalidad agregando a todas las ciuda­
des del N o rd este u n a ca n tid ad fija (e sto es, 2.97) y sustrayendo
la m ism a can tid ad de las ciudades del S udeste, de m odo que
am bas categorías tuvieran la m ism a m edia (o sea la m edia ge­
n eral de 6.71). S em ejante operación de control equivale a plan­
te a r la cuestión hipotética de cuáles serían las tasas de crim ina­
lid ad si to d as ellas estuvieran expuestas a las m ism as influencias
regionales. E n lu g ar de tr a ta r realm en te las regiones separada­
m ente, nos servim os del expediente auxiliar consistente en aju s­
ta r las m arcas d e la ta sa de crim inalidad, to m ando con ello en
consideración la variable de control en cuestión. Lo que p erd e­
m os en rig o r científico lo ganam os en eficiencia del esquem a, ya
que podem os servim os así d e u n a sola p ru e b a que com porta
el n ú m ero to ta l d e los casos.
Al a ju s ta r las tasas de crim inalidad en esta form a, reducim os
en realid ad la variación to tal de las m arcas. E n efecto, su strae­
m os la p o rció n de la variación deb id a a la región. Tom ando las
m arcas ajustadas, podríam os c o m p arar a continuación las esti­
m aciones e n tre las colum nas y d en tro de las m ism as, en la form a
habitual. A fortunadam ente, 110 es necesario, en realidad, obtener
las m arcas a ju sta d a s. Si lo hiciéram os, en efecto, en co n traría­
m os que los re su ltad o s serían idénticos a aquellos hallados sir­
viéndonos del análisis de variancia de dos form as. E n otros té r­
m inos : el tip o de análisis que vam os a d escrib ir equivale a la
operación de a ju s te que acabam os de exam inar. E n efecto, lo
que hacem os es, p rim ero, d e ja r que la variable de control actúe
sobre la v ariab le dependiente, sacando la porción de la variación
to tal explicada p o r la variable de control en cuestión. Tom am os
luego el re m a n en te com o o tra variación "to tal nueva" y d eter­
m inam os cu án to de este re m a n en te p u ed e explicarse p o r la o tra
variable independiente. E ste ‘‘nuevo to ta l" es equivalente a la
variación to tal de las m arcas ajustadas. E n térm in o s generales,
podem os co n tro la r variables adicionales en la m ism a form a. Al
p ra c tic a r aju stes p a ra cada u n a d e las variables d e control, ex­
traem o s to d o aquello de la variación que puede explicarse por
dichas variables. Y exam inam os luego el rem anente, p a ra ver
cu án to pued e explicarse p o r la o tra variable independiente. E n
los capítulos siguientes harem os u n u so considerable de este
m ism o tip o de operación de control.
Interacción. N o estam os todavía prep arad o s p a ra u n ejem plo
num érico, ya q ue m ed ian te la adición de u n a segunda escala n o ­
m inal se in tro d u ce u n a com plicación m ás. S iem pre que haya
p o r lo m enos dos casos en cada subcasilla, debería h acerse una
p ru eb a adicional. E sto constituye u n a p ru e b a de "in teracció n ”,
o del efecto posible debido a las com binaciones peculiares de las
dos variables d e escala nom inal. Con o b jeto de efectu ar la p ru e­
b a del an álisis de variancia en dos form as an terio rm en te des­
critas, es n ecesario suponer la pro p ied ad de aditividad. E nunciada
form alm ente, esta pro p ied ad re q u ie re que las diferencias m edias
de población e n tre colum nas sean las m ism as p a ra cada hilera,
así como, inversam ente, que las diferencias e n tre hileras sean las
m ism as p a ra cada colum na. La aditividad puede ilu strarse m e­
d ian te las siguientes cifras que re p resen ta n m edias hipotéticas
de p o b lació n :
¿i a2 a3

*1 5 10 20
10 15 25
Bs 25 30 40

O bsérvese que las diferencias e n tre la p rim era y la segunda


colum nas son de 5 p a ra cada h ile ra ; e n tre la segunda y la te r­
cera, las diferencias son de 10 p a ra cada hilera. Y asim ism o, las
diferencias e n tre la p rim e ra y la segunda hileras son de 5 todas
ellas, en ta n to que e n tre la segunda y la te rc e ra hileras son to­
d as de 15. Supóngase, sin em bargo, que la m edia de la casilla
cen tral fu e ra 35 en lu g ar de 15. E ntonces la aditividad n o se
verificaría. Pese a que norm alm ente As da m ayores m arcas que
A¡¡, y B 3 m ayores que B 2, o cu rre algo p ecu liar cuando A2 y B 2 se
ponen ju n tas, en cu an to re su lta u n a m edia m uy alta. El proceso
es algo p arecid o al q u e tiene lugar cu an d o se com binan h id ró ­
geno y oxígeno y se produce agua. El re su ltad o n o es lo q u e po­
d ría esp erarse si cada elem ento se exam inara separadam ente.
Hem os en co n trado ya e sta posibilidad de interacción en el caso
de los cu adros de contingencia, cuando vim os que la relación
e n tre dos variables puede diferir de acu erd o con el nivel de una
terc era variable. Ilu strem o s la idea con algunos ejem plos. Su­
póngase que p o r lo re g u la r las ciudades in d u striales tengan tasas
de crim in alid ad m ás altas que los cen tro s políticos, y que las
ciudades del S u deste las tengan m ás altas que las del N ordeste.
Se concibe, en tal caso, que podríam os h a lla r ciudades in d u stria ­
les e n el S u deste que p re se n ta ra n u n a ta sa m edia de crim inali­
d ad inesp erad am ente b aja. Podríam os entonces b u sca r alguna
clase de in teracción tal, en tre la in d u stria y los factores regiona­
les, que p ro d u je ra u n a ta sa b aja. O tro tip o de ejem plo es tal
vez m ás ilu strativ o todavía. Supóngase que se tenga que elegir
e n tre tres tipos de m étodos pedagógicos. Se invita a cu atro m aes­
tro s a q ue em pleen los tre s m étodos. Es posible que en térm i­
nos generales el m aestro A sea m ás com petente que el B. Y en
fo rm a análoga, el p rim e r m étodo p u ed e ser, acaso en conjunto,
su p erio r al segundo. P ero se concibe q u e el m aestro A n o se
ad a p te bien al p rim e r m étodo y tenga resu ltad o s inferiores a los
esperados. Así, hay interacción e n tre el m a e stro y el m étodo.
* Antes de p a s a r al cálculo de las d istin tas cantidades re su lta rá
in stru ctiv o tra z a r u n m odelo lineal general, que re su lta rá ser
análogo a los m odelos form ulados en relación con el análisis de
la regresión. E n él expresam os u n a variable de escala de in te r­
valos com o función de o tras diversas variables que pu ed en se r
tom adas, bien sea com o escalas de intervalos, o com o atrib u to s.
Supongam os que la p u n tu ació n del individuo k-ésim o en la fila
i-ésima y colum na j-ésim a se re p re se n ta p o r X ijk, acep tan d o que
dicha p u n tu ació n esté com puesta p o r los siguientes in te g ra n te s :
1) u n o “deb id o a ” la m edia general de población, ¡i; 2) o tro debido
a los efectos q u e son consecuencia de ap arecer en u n a d eterm i­
n ad a fila i, a los que denom inarem os efecto de fila, a*; 3) un
efecto sim ilar debido a en c o n trarse en la colum na / ; 4) u n efec­
to de in teracció n yü debido a la com binación p ecu liar de la fila
z-ésima y la colum na j-é sim a, y 5) u n efecto único, o térm in o de
erro r, z iJk p ro d u c id o p o r facto res n o considerados d e m an era
explícita en la ecuación. É sta re su lta ría a s í :

X ijk — ^ + a » + P í + Y»/ + £i/fc


la que p o r su p u esto se re fiere a los p a rá m e tro s de población que
h an de se r estim ados con base en los datos de la m u estra. Re­
su lta q u e si todos los supuestos requeridos en el caso de u n
análisis de la v arian cia p o r dos m étodos se dan re u n id o s (véase
m ás ad e la n te), podem os o b te n e r estim ad o res n o sesgados de los
p arám etro s de la a n te rio r ecuación, com o sigue:

^= y¡j = X i j — X i . — X.J + X . .

<Xi=Xi . — X„ = X tj —(ai + ¡3/ + [i)

(3j= X .j — X .. £¿jfc = X ijk — Xi¡


* C ada u n a de estas estim aciones tiene u n sen tid o intuitivo,
salvo, ta l vez, la del efecto de in teracción y y. U tilizam os la gran
m edia de la m u e stra X. . p a ra e stim a r ja y las desviaciones en­
tre X.. y las m edias d e fila y colum na, p a ra calcular los efectos
de fila y d e colum na, a { y respectivam ente. L a desviación de
X ijk en relación con la m ed ia X is de la m u e stra de la subcatego-
ría, re p re se n ta la variación inexplicada en la m u estra, la que
estim a el té rm in o residual com parable zijk. La estim ación del
com ponente d e in teracció n yi¡ p o d rá entonces se r o b tenido p o r
su stracció n . H em os expresado en efecto cada individuo X ijlc en
función de los siguientes co m p o n en te s:

X ijk = X. . + ( X t. - X „ ) +(X.,-X..)
(g ran m ed ia -f (efecto de fila) + (efecto de colum na)

+ ( X l j - X i . ~ X . , + X. . ) + ( X m - X i , )
+ (efecto de in teracció n ) + (té rm in o de e r ro r)
P o r ejem plo, en el caso de la segunda ciudad política en el
N ordeste ten d ríam o s:

1.60 = 6.71 + (3.74 - 6.71) + (5.95 - 6.71)


+ (2.60 - 3.74 - 5.95 + 6.71) + (1.60 - 2.60)

* El procedim iento básico ta n to en el caso de este m odelo,


com o en fo rm a m ás generalizada, consiste en realizar pru eb as
separadas p a ra cada u n o de los efectos com ponentes a {, y y i},
evaluando la con tribución de cada u n o d e ellos en relación con
el tam añ o del térm ino de erro r. Como p o r o tra p a rte siem pre es
deseable u tilizar u n m odelo ta n sencillo com o re su lte posible,
com enzarem os observando si tiene sentido la elim inación del
com ponente de interacción y {j. Volvam os ah o ra al procedim ien­
to q ue utilizarem os p a ra el cálculo.
La p ru e b a de la interacción puede efectuarse independiente­
m ente de las dos p ru e b a s descritas an terio rm en te y co m p o rta el
m ism o p rocedim iento básico que ellas. La sum a de cuadrados
inexplicada, o térm in o de erro r, se descom pone m ás todavía,
restán d o le la p o rción q u e puede explicarse p o r la interacción.
E n esta foim a, la su m a to tal de cuadrados se descom pone e n :

SC to tal = SC e n tre colum nas + SC e n tre hileras


+ SC de interacción + SC d e e r ro r (XVI.7 )

E sto pued e efectuarse tom ando cada com binación de las catego­
rías A y B y tra tá n d o la com o categoría de u n a variable sola com ­
binada. E n o tro s térm inos, tra ta m o s el problem a com o si tu ­
viéram os u n a sola escala nom inal con las categorías, A xB ^ A2B lt
. . . , AkB¡. Es obvio que si sólo h u b iera u n caso en cad a subeasi-
11a no p o d ría h a b e r variación alguna de subclase. Si n o existe
interacció n en absoluto, deberíam os o b ten er exactam ente el m is­
m o e rro r o btenido adicionando separadam ente los efectos d e las
h ileras y las colum nas [com o en la ecuación (X V I.6)]. P o r o tra
p arte , si se d a u n a interacción significativa, el térm in o de e rro r
será m en o r em pleando este segundo m étodo. Así, p o r ejem plo,
el lecto r d ebería convencerse p o r sí m ism o d e que, si la casilla ij
p ro d u je ra efectos en discrepancia con las dem ás, dioha casilla
será relativ am en te hom ogénea en com paración y a sea con la
colum na / o con la h ile ra i, y la sum a d en tro de cu ad rad o s de
las subclases será m en o r que el resid u o obtenido re sta n d o la
su m a de las sum as de cuadrados e n tre colum nas y e n tre hileras
de la sum a to ta l d e cuadrados.
La diferencia en tre la cantidad de variación explicada sirvién­
dose de esas subcasillas y la can tid ad explicada en el supuesto
de ad itiv id ad p u ed e entonces a trib u irs e a interacción. Así te­
nem os :

SC to ta l = SC e n tre subclases + SC d en tro de las subclases

en donde la su m a de cu adrados e n tre subclases se h a descom ­


p u esto en tre s com ponentes, a s a b e r:

SC e n tre subclases = SC e n tre colum nas + SC e n tre hileras


+ SC de in teracció n

Cátenlos. V olviendo ah o ra u n a vez m ás al p ro b lem a num érico


q ue co m p o rta tipos de ciudades, región y tasas de crim inalidad,
podem os em pezar enum erando los supuestos requeridos.

1. S u p u esto s
N ivel d e m e d ic ió n : Dos escalas nom inales, u n a escala d e in­
terv alo ;
M o d elo : M uestras independientes a le a to ria s;
Todas las poblaciones de las subcasillas, las hileras
y las colum nas son n o rm ales;
Las variancias d e las poblaciones de las subcasillas
son iguales.
H ip ó tesis: 1. Las m edias de las colum nas de la población
son iguales.
2. Las m edias d e las hileras de la población son
iguales.
3. A dicionalidad d e la población (sin in teracció n ).

Tenem os ah o ra tre s hipótesis d istin tas que pu ed en verificarse


in d ep endientem ente. La p ru e b a de in teracció n h a de efectuarse
prim ero , dependiendo las p ru e b as de las dem ás de aquélla. Si la
hipótesis (3) n o se rechaza, el pro ced im ien to u su al consiste en
su p o n er ad itiv idad en el m odelo, poniendo las sum as d e cu ad ra­
dos debidas a in teracción (e n la m u e s tra ) en el térm in o d e e rro r
y sirviéndose d e este térm in o de e r ro r m ayor p a ra la verifica­
ción de las hip ótesis (1) y (2). P ero si la hipótesis de fa lta de
interacció n se rechaza, entonces el pro ced im ien to a em p lear en
las o tra s dos p ru e b a s dependerá del c a rá c te r de los d ato s (véase
in fra ). O bsérvese que, con o b je to de verificar la interacción, he­
m os de su p o n er ah o ra n o rm alid ad e igualdad d e variancias p a ra
cada u n a de las subcasillas. Los casos en las d istin ta s subcasi­
llas h an de seleccionarse ind ep en d ien tem en te y n o pueden apa­
rearse.
2. N ivel de significado. .05.
3. D istribución de m uestreo. F.
4. Cálculo d e la estadística de la prueba. H em os obtenido ya
las sum as de cuadrados to tal y e n tre colum nas. La sum a de cua­
d rad o s e n tre h ileras se calcula exactam ente del m ism o m odo
q u e la d e e n tre colum nas. Así, p u e s :

44.92 i 16.12
SC e n tre h ileras = ---------- 1-------------- 1 080.042
12 12

= 1 291.268 - 1 080.042 = 211.226

Con o b jeto de o b ten er la sum a de cuadrados d e interacción,


nos servim os de las sum as de cada subclase. La sum a de cu ad ra­
dos e n tre subclases e s:

20.72 47.9a 37.22


SC en tre subclases = -----------1------------ h .. • H-------------- 1 080.042
4 4 4
= 1 341.585 - 1 080.042 = 261.543

O btenem os el térm in o de e rro r em pleado en la verificación d e la


interacció n restan d o la sum a de cu ad rad o s e n tre subclases del
to tal. O sea:

SC del e rro r = 373.538 - 261.543 = 111.995

La can tid ad deb id a efectivam ente a interacción es la su m a de


cuad rad o s e n tre colum nas m enos la su m a de las cantidades debi­
das a las h ileras y las colum nas separadam ente. P o r lo ta n to :

SC de la interacción = 261.543 — (42.303 + 211.226) = 8.014

Los re su ltad o s p u ed e n re su m irse com o en el cu ad ro X V I .5.

Cuadro XVI.5. Cálculos para el análisis de variancia, d e dos fo r­


m as con prueba de interacción

Sumas de Grados de Estimación


cuadrados libertad de la F
variancia
Total 373.538 N - 1 = 23
E ntre subclases 261.543 kl--l= 5
E ntre columnas 42.303 fc - 1 = 2 21.152
E ntre hileras 211.226 1-1- 1 211.226
Interacción 8.014 ( f c - l ) ( 2- l ) = 2 4.007
E rror ( dentro de las 0.644
?!•

subclases 111.995 6.222


09
II
l
Los grados de lib ertad se d eterm in a n p o r los m edios usuales.
Con Z h ileras y k colum nas h a b rá Z— 1 grados de lib ertad aso­
ciados con la sum a de cuadrados e n tre hileras. P ara o b ten er los
grados de lib e rta d del térm in o de interacción, tom am os el nú­
m ero de subcasillas m enos u n o ( k l — 1 ) y restam os de esta can­
tid ad los grados de lib ertad asociados a las sum as d e cuadrados
e n tre h ileras (Z — 1) y e n tre colum nas ( k — 1). Una regla p ráctica
m ás sencilla consiste en to m a r el producto de los grados de
lib ertad asociados a las sum as d e cuadrados e n tre colum nas y en­
tre hileras. Así, pues, si m ultiplicam os los grados de lib ertad
e n tre colum nas y e n tre hileras obtenem os (fc— 1)(Z— 1) = 2 gra­
dos de lib ertad . É ste es el m ism o resu ltad o que obtendríam os
tom ando los grados d e lib ertad en tre subclases ( = 5) y restan d o
de ellos los grados de lib ertad d e las sum as de cu adrados en tre
hileras y e n tre colum nas ( = 1 + 2). E sto puede expresarse alge­
braicam en te con la siguiente id en tid ad :

(fc Z — 1 )’ — ( & — 1 + Z — l ) = ( f c — 1 ) ( Z — 1 )

Los re sta n te s grados de lib ertad , que deberían se r iguales al n ú ­


m ero to tal de casos m enos 1 grado de lib ertad p a ra cada sub­
clase, pueden luego asociarse al térm in o de erro r.
5. Decisión. La p ru e b a de interacción da u n a F que es m enor
que la unidad. N o tenem os, pues, m otivo p a ra rech azar la hipó­
tesis n u la de que n o se da interacción. E sto significa q u e la pe­
queña can tid ad adicional explicada p o r interacción al in te rio r de
estas m u estra s puede explicarse fácilm ente p o r las fluctuaciones
de la selección. E n este caso propenderíam os probablem ente a
acep tar el sup uesto de aditividad, pese a que nos encontram os
en el extrem o indebido de la p ru e b a y que, en consecuencia, de­
beríam os preo cuparnos en p rim e r térm in o p o r el riesgo de e rro r
de tipo II. Añadim os de paso que si hubiéram os dispuesto de
cuadros, p odríam os h ab e r utilizado u n nivel de significación de .3,
p o r ejem plo, si realm ente hub iéram o s tenido in teré s en conser­
v ar el su p u esto de aditividad. H abiendo decidido que no existe
interacción, podem os ah o ra p o n er la sum a de cuadrados debida
a la in teracción (d e la m u e stra ) ju n to con el térm in o de erro r,
y servirnos de este térm in o de e rro r m ayor com o base p a ra la
estim ación del e rro r de la variancia. Al hacerlo obtenem os el cua­
d ro XVI.6, fin el que el térm in o de e rro r d e 120.009 re p resen ta la
sum a de los térm inos de interacción y de e rro r del cuadro XVI.5.
Del cuadro correspondiente se desprende que p a ra u n a F con
2 y 20 grados de lib ertad necesitam os u n a F de 3.49 o m ayor p a ra
o b ten er significación al nivel de .05. Vemos asim ism o que una
F de 35.204 con 1 y 20 grados de lib e rta d es altam en te significa­
tiva, ya que p a ra o b ten er significación al nivel de .001 se reque­
riría u n a F de sólo 14.82. Así, pues, existe poca duda de que se
Cuadro XVI.6. Cálculos para el análisis de variancia en dos fo r­
mas, con la interacción añadida dentro del térm ino d e error

Sumas de Grados Estimación


Nivel de
cuadrados de de la F significación
libertad variancia
Total 373.538 23
E ntre columnas 42.303 2 21.152 3.525 p < .05
E ntre hileras 211.226 1 211.226 35.204 p < .001
E rror 120.009 20 6.000

d a u n a relación e n tre la región y la ta s a d e crim inalidad. O bsér­


vese que cuando controlam os en relación con la región dejando
que e s ta v áriable explique todo lo que p u ed e acerca de las tasas
d e crim inalidad, y d ejan d o luego que el tip o de ciudad explique
to d o lo que pued e a propósito' del resto , obtenem os u n a relación
significativa e n tre el tip o de la ciudad y las tasas de crim inali­
dad. Se re co rd a rá que la relación sin el co n tro l relativo a la re­
gión no d aba significación.
Cabe o b serv ar q u e si la interacción n o es significativa, gana­
m os casi siem pre m ás de lo que perd em o s al a d ju n ta r la in tera c­
ción con el térm in o de erro r, sirviéndonos de este térm in o de
e rro r com binado en el denom inador d e F. E n efecto, pese a que
la su m a de los cuadrados de e r ro r re su lta rá en esta fo rm a lige­
ra m e n te au m en tada, h a b rá tam bién m ás grados de lib e rta d aso­
ciados al térm in o m ayor del erro r. Y com o q u iera que el térm in o
de interacció n será relativ am en te pequeño, el efecto n e to será
p o r lo re g u lar el de o b ten er u n denom inador de F m ás pequeño.
H a b rá tam bién, p o r supuesto, u n m ay o r nú m ero de grados de
lib e rta d asociados con F y, p o r lo tan to , se re q u erirá p a ra obte­
n e r significación u n valor m ás pequeño d e F.
H em os de p re g u n ta r ah o ra qué h ab ríam o s hecho si la in te ra c ­
ción h u b iera sido significativa. La re sp u e sta a dicha cuestión
n o tiene n ad a d e sencillo, p ero podem os, con todo, fo rm u la r al­
g unas cu an tas sugerencias. El lecto r que se in tere se p o r u n tr a ta ­
m ien to m ás com pleto d eberá co n su ltar u n texto com o el de
Hays [7], K irk [9], o el A nderson y B ancroft [1].
Si la interacció n es significativa, a veces será posible h a lla r u n a
o dos filas o colum nas, o aun unas cuantas subcasillas, que son
las q ue p ro d u cen la interacción. Si hubiésem os utilizado, p o r
ejem plo, cinco regiones, podríam os h a b e r observado que el S ud­
este difiere, de m an era fundam ental, del re sto de las regiones.
De ser así po d ríam os h a b e r excluido del análisis dicha región en
especial, averiguando si h ab ía interacción e n tre las categorías res­
tan tes, au n q u e reconociendo la n atu ra leza ex post facto d e tal
procedim iento. E n o tra s m uchas aplicaciones no será ta n sencillo
localizar las filas, colum nas o casillas aisladas responsables de
la interacción, en cuyo caso nos enfrentam os a u n desafío teórico
cuando deseam os fo rm u lar u n a explicación general razonable del
esquem a logrado. E n realidad, el localizar u n efecto m ayor de
interacción p u ed e re s u lta r se r el hallazgo aislado de m ayor im ­
p o rtan cia en el estudio. A unque la conceptualización de m odelos
m atem áticos en los que se h alla im plicada la interacción escapa
al p ro p ó sito de este libro, d eb erá observarse que cabe fo rm u lar
ciertas altern ativ as relativam ente sim ples a los m odelos aditivos
lineales, tales com o los m odelos m ultiplicativos. (V éase Blalock
[ 2 ]).
Además de c e n tra r la atención en la interacción m ism a, puede
ten erse in terés en d eterm in ar si u n a u o tra de las variables de
la escala n o m inal se relaciona o n o con la escala de intervalo.
¿Cuáles p ru e b as pueden efectu arse de tales relaciones? La cues­
tió n se red u ce a lo siguiente: "¿Q ué estim ación de la variancia
debería em p learse en el denom inador de F, en la estim ación del
e rro r o en la estim ación b asad a en el térm in o de in teracción?”
La resp u esta a esta p re g u n ta parece depender de la naturaleza
de las dos variables de la escala nom inal y, en p artic u la r, de si
las categorías em pleadas re p re se n ta n todas las categorías de la
población o n o son m ás, p o r el co n trario , que u n a m era selección
de categorías. E n los problem as sociales, en los que p o r lo re ­
g u lar no asignam os los individuos a las categorías al azar, suele
d arse con frecu encia el caso de q u e estas categorías rep resen ten
todas las categorías posibles del esquem a de clasificación. Así,
p o r ejem plo, si dividim os todas las ciudades en tre s tipos y no
excluim os n inguna al proceder en esta form a, confiam os incluir
algunas ciudades, p o r lo m enos, de cada tipo. Y en fo rm a análo­
ga, si clasificam os a personas com o varones o m u jeres, o como
p ro testan tes, católicos o judíos, confiam os p o r lo re g u la r hab er
incluido algunos rep resen tan tes de todas (o casi to d as) las cate­
gorías. P o r o tra p arte, n u estra s categorías p o d rían co m p o rtar
ellas m ism as u n a selección de todos los tipos. Así, p o r ejem plo,
p odríam os h a b e r seleccionado a m etodistas, cuáqueros y a tes­
tigos de Jehová com o tres grupos religiosos que re p re se n ta n u n
nú m ero m ucho m ayor de ellos. Tal vez cada u n a de dichas deno­
m inaciones sea rep resen tativ a de cierto tipo d e religión. Exam i­
nem os cad a u n a d e estas situaciones p o r turno.
E n la p rim e ra de ellas, n u estra s categorías de am bas variables
re p resen tan todos o casi todos los tipos posibles. No se da cier­
tam en te e rro r alguno en la selección de las categorías, com o
p o d ría h ab erlo si sólo nos hubiéram os servido a títu lo d e com ­
paración de tre s denom inaciones religiosas. E n la m ayoría de
estos problem as, n u estro in terés se c e n tra rá probablem ente en
el grado d e hom ogeneidad de cada tipo, e n relación con la m ag­
n itu d de las diferencias e n tre los tipos. La segunda variable de
la escala nom inal puede considerarse en p rim e r lugar com o una
variable p e rtu rb a d o ra que necesita controlarse. La interacción
p u ed e acaso co n stitu ir sim plem ente u n resu ltad o secundario
in tere sa n te del análisis. E n este caso será razonable co m p arar
u n a estim ación b asad a en la sum a de cu adrados e n tre con la
apreciación b asad a en la sum a de cuadrados n o explicada. E sta
ú ltim a estim ación es u n a estim ación d en tro d e las subclases y
co m p o rta la variación que perm anece todavía inexplicada p o r la
acción co n ju n ta de la variable independiente m ayor ( digam os el
tip o de la ciu d ad ) y la variable de control. D ejam os que la va­
riab le de control actú e prim ero, y dejam os luego que la variable
in d ependiente m ayor explique lo que p u ed e del resto. C ierta
ca n tid ad adicional es explicada asim ism o p o r la interacción de
las dos variables. Cada u n a de estas sum as d e cuadrados "expli­
cad as" pued e co m pararse con la sum a de cuadrados “no explica­
d a ”, o térm in o de erro r. A continuación tom aríam os esta esti­
m ación del e r ro r com o denom inador en cada u n a d e n u estras
p ru eb as separadas de F. Al verificar en relación con la signifi­
cación de u n a diferencia e n tre colum nas, tom aríam os, p o r lo ta n ­
to, la estim ación de e n tre colum nas dividida p o r el térm in o de
e rro r, y en fo rm a análoga p o r lo q u e se re fiere a las h ileras. E n
n u estro p roblem a num érico, si la in teracción h u b iera sido sig­
nificativa, estas razones de F h a b ría n sido respectivam ente de
21.152/6.222 y 211.226/6.222.
Surgen o tras consideraciones cuando las categorías de u n a u
o tra v ariab le (o de am b as) de la escala nom inal sólo co m portan
u na peq u eñ a selección de las categorías posibles. Si la in tera c­
ción re su lta significativa y es m ayor, p o r lo tan to , que la e sti­
m ación del e rro r, añádase siem pre la cuestión de sab e r si esto
n o se h a b ría pro d ucido de h ab e r sido d istin tas las categorías.
Si tanto la v ariable de fila com o la de colum n a ab arcan u n a
m u estra de categorías, nos referim os a ta l m odelo denom inándo­
lo m odelo de efectos aleatorios, p o r c o n tra ste con el m odelo de
efectos fijos, p a ra el cual ninguna de las variables com prende un
m u estreo de categorías. P ersonalm ente n o h e visto n u n ca u n a
ilu stració n razonable de tal m odelo de efectos aleatorios, aunque
los m odelos m ixto s en los que figuran u n o (o m ás) facto res no
m u estread o s y u n fa c to r m uestreado, son razonablem ente com u­
nes. El m ás h ab itu al de los m odelos com unes en las aplicaciones
a la ciencia social se p re se n ta en los casos en que son p ersonas
(educadores, experim entadores, entrev istad o res, o peradores de
equipo, e tcé tera ) las que figuran com o u n o de los factores. E n
los experim entos en las aulas, p o r ejem plo, puede se r necesario
co n sid erar el "efecto del m a e stro ” e n tre u n cóm puto de tal vez
cinco educadores. E n u n laboratorio p o d rá o c u rrir que el inves­
tig ad o r h aya co n tado con tres experim entadores. A unque in stru i­
das p a ra conducirse de m an era análoga, tales p ersonas in troducen
inevitablem ente en la situación algunos valores idiosincrásicos.
E n u n a investigación puede el an alista n ecesitar se p a ra r los
"efectos del e n tre v ista d o r” d e e n tre las dem ás variables. E n to­
dos estos ejem plos se reconocerá que las perso n as que en ellos
figuran c o n stitu y e n 'u n a fracción m uy reducida del nú m ero po­
tencial en relación con el cual desea h acerse la generalización,
y q u e la in teracción e n tre las p erso n as y el fa c to r de m ayor in-
térés p u ed e re s u lta r especialm ente p ertu rb ad o ra .
E stas ideas intuitivas pueden se r o b jeto de u n a fundam enta-
ción m ás rig u ro sa (véase Hays [7 ], capítulo xnx). B a stará in d icar
aquí el p rocedim iento preferido. Supongam os en p rim e r lugar
que tenem os in terés en co m p ro b a r los efectos del fa c to r no
m uestreado o fijo. Si la interacción h a sido significativa, ello
im plica p o r su puesto que el cálculo de la variancia, basado en
el térm in o de la interacción, debe h a b e r sido m ay o r que la esti­
m ación del " e rro r” (p roduciendo así u n a F > 1.0). Como se da
la circu n stan cia de que el segundo fa cto r h a sido m uestreado,
y que u n segundo m u estreo p o d ría h a b e r pro d u cid o u n a estim a­
ción m uy d iferen te de la interacción, el procedim iento m ás con­
serv ad o r co n sistiría en u tiliza r la interacción estim ada ( la m ayor
de las dos can tid ad es) com o denom inador p a ra la razón de F en
la p ru eb a de la significancia del fa cto r fijo o n o m uestreado.
E n e fe c to : la interacción es considerada com o u n e rro r. E n nues­
tro ejem p lo num érico supongam os que considerásem os la región
com o u n fa c to r m uestreado, ya que hem os seleccionado ta n sólo
dos regiones de e n tre tal vez cinco o seis. Si el efecto de in terac­
ción hu b iese sido significativo y p o r ta n to no incluido en el
térm in o de erro r, habríam os utilizado la razón 21.152/4.007 al
co m p ro b ar la significancia de los efectos de la ciudad en los
niveles de delincuencia.
Si estam os adem ás in teresad o s en p ro b a r los efectos del facto r
m u estread o (p o r ejem p lo : p erso n as o región), deberem os sin
em bargo c o n tin u ar u sando la estim ación del e rro r, de p re fere n ­
cia a la estim ación de la interacción, en el denom inador de F.
La ju stificación in tu itiv a consiste en que el o tro fa c to r no está
siendo m u estreado, y p o r ello n o puede o c u rrir q u e u n e rro r de
m u estreo en dicho fa cto r constituya u n a fu en te de e rro r en nues­
tro cálculo de los efectos del fa c to r m u estread o sobre la varia­
ble dependiente. Así, si la interacción hubiese re su ltad o signifi­
cativa en n u e stro ejem plo, h ab ríam o s utilizado la razón 211.226/
6.222 al co m p ro b a r los efectos de la región sobre los índices de
crim inalidad. (E l hecho de q u e el denom inador, 6.222, es m ayor
q u e el de 4.007 usado en relación con los efectos de tip o ciudad,
refleja el h echo de que la F, u sa d a e n este ejem plo p a ra com pro­
b a r la in teracción, re su ltó se r m en o r que la unidad, en tan to
que u n a interacción significativa h u b iera re q u erid o desde luego
u n a F m ay o r que la un id ad .) P a ra u n a justificación m ás am plia
de este pro cedim iento véase H ays [7].
R esulta necesario a d o p ta r u n a precaución m ás con respecto a
la in terp retació n de interacciones significativas. E n la bibliogra­
fía estad ística se en c u en tran frecuentes referencias a los "efec­
tos principales" de las variables de fila o colum na, m ás los "efectos
de in teracció n ”. R esulta posible in te rp re ta r estos efectos p rin ­
cipales com o los efectos prom edios d e u n a de las variables in­
dependientes so b re el m argen d e la o tra u o tras variables. P ero
si el com ponente de interacción es relativam ente grande, esta
sim ple distinción e n tre efectos principales y efectos de in tera c­
ción re su lta rá difícil de tra d u c ir a valores sustantivos o teóricos,
ya que cuando la interacción es gran d e n o tiene sen tid o teórico
el o scurecer las diferencias reales hab lan d o de los efectos pro m e­
dios de, p o r ejem plo, el tipo de ciudad. Debe, pues, entenderse
que esta distinción e n tre efectos principales y efectos de in tera c­
ción se lim ita al u so estadístico, lo m ism o que o cu rre con la re­
lativa a las sum as, "explicadas” y "n o explicadas”, de cuadrados.
E s fácil a veces caer en la tra m p a d e u tilizar la term inología
d e u n a su stan tiv a y personal disciplina en lu g ar de la term ino­
logía estadística, y creer que hay d istin to s tipos d e "efectos”
q ue cu entan con u n a sim ple c o n tra p a rtid a en la p ro p ia su stan ­
tiva teoría. Tal vez la precaución m ás o p o rtu n a consista e n com ­
p re n d e r que en cuantas ocasiones se en cu en tran interacciones
estadísticas de m agnitud sustancial, ello significa que dos o m ás
variables tienen efecto co n ju n to so b re alguna variable depen­
d ien te; efectos dem asiado com plejos p a ra ser adecuadam ente
descrito s m ediante u n sim ple m odelo aditivo. La presencia de la
interacción estad ística constituye así u n a indicación de q u e las
relaciones son m ás com plejas de lo q u e pudo pensarse, pero
la in teracción p o r sí m ism a n o debe se r tra ta d a com o si fuese
algo a p a rte de los efectos "p rin cip ales” de las variables que están
siendo consideradas.
E xten sió n a tres o m ás escalas nom inales. E n teo ría n a d a hay
q u e nos im pida ex ten d er el análisis d e variancia a variables adi­
cionales. E n la p ráctica, sin em bargo, es p ro b ab le que nos veam os
restrin g id o s p o r el req u isito de núm eros iguales de casos e n cada
subcasilla, a m enos que estem os en condiciones de co n tro lar este
fa c to r p o r vía experim ental. Si añadim os u n a te rc e ra escala
nom inal, podem os dividir la sum a to tal de cuadrados en in terac­
ción e n tre A, en tre B, e n tre C y los térm in o s d e erro r, y podem os
efectu ar cierto n ú m ero de p ru eb as de h ip ó tesis separadas. Ahora,
sin em bargo, ten d rem o s m ás de u n tip o de interacción. E n efecto,
pued e d arse interacción e n tre las variables A y B, A y C, B y C,
así com o e n tre las tre s variables o p eran d o ju n tas. Procedem os
p rim ero a u n a p ru e b a en relación con la interacción d e tre s fac­
to res (A X B X C ). Si ésta no re su lta significativa, podem os
to m arla en el térm in o de e rro r y v erificar las tre s interacciones
de dos factores. P ueden efectu arse p ru e b as de la significancia de
A, B y C. La extensión a c u a tro o m ás escalas nom inales ten d ría
lugar en la m ism a form a. E n el caso d e que el investigador esté
en condiciones de c o n tro la r el n ú m ero de casos de cada catego­
ría m ed ian te asignación al azar, se dispone de m uchos o tro s es­
quem as experim entales, y el lecto r h a rá bien e n co n su ltar u n
tex to de éstos. M uchos de esto s diseños alternativos hacen posi­
ble el logro d e u n a m ayor eficiencia (m ed ian te u n a reducción
del tam añ o de la m u e stra ), al costo de u n a sim plificación de
supuestos acerca de algunos de los térm inos de la interacción.
Si un o está d ispuesto, p o r ejem plo, a su poner que ciertas in terac­
ciones son despreciables, p u ed e "co n fu n d ir" deliberadam ente
estos efecto s principales al tra z a r u n diseño "incom pleto” m ás
eficiente.
* A nálisis de variancia d e dos fo rm a s con subclases desiguales.
C uando el n ú m ero de casos n o es igual en cada subclase, com o
o c u rrirá p o r lo re g u la r en la investigación sociológica, el análisis
de la v arian cia de dos form as y a n o re su lta ta n sencillo. Si el
n ú m ero de casos es suficientem ente grande, será siem pre posi­
ble, p o r su puesto, co n tro la r en relación con u n a segunda escala
nom inal efectu ando análisis separados en cad a categoría de la
variable de co n trol, com o lo hicim os e n el caso de los problem as
de contingencia. P ero si p a ra em pezar, el n ú m ero d e casos es
relativam ente pequeño, pueden em plearse algunos m étodos ap ro ­
xim ados. Uno d e éstos co m p o rta el em pleo de los logaritm os,
p ero es sencillo p o r lo dem ás (véanse [ 8], pp. 260 a 266).
O tro procedim iento, d escrito p o r W alker y Lev [11], es m u­
cho m ás sencillo desde el p u n to d e v ista conceptual. E ste úl­
tim o m éto d o consiste en tr a ta r las m edias de las distin tas
subcasiJlas com o si co n stitu y eran casos sim ples. P ueden obte­
n erse las sum as de cuadrados y las apreciaciones de variancia
de los térm in o s e n tre h ileras, e n tre colum nas y de interacción,
suponiendo esencialm ente que n o hay m ás que u n caso en cada
su b casilla: la m edia. La su m a de los cuadrados del e rro r se ob­
tien e luego, al igual que en el análisis co rrien te de v arian cia de
dos form as, re sta n d o la sum a de cuadrados de la subclase " e n tre ”
de la su m a de cu adrados total, sirviéndonos p a ra ello del n ú ­
m ero to tal de casos, y n o d e las m edias de cad a subcasilla. La
apreciación del e rro r se obtiene dividiendo e n tre el e r ro r en el
nú m ero de grados de lib ertad , com o antes, y dividiendo entonces
esta ú ltim a cifra e n tre la m edia arm ónica del n ú m ero de casos
en cada subcasilla. E sta ú ltim a operación es n ecesaria p a ra que
la estim ación del erro r, b asad a en el n ú m ero to tal de los casos,
p u ed a co m p ararse con las estim aciones b asadas ún icam en te en
las m edias de las subcasillas tra ta d a s com o casos singulares. Las
p ruebas F p u ed en luego efectu arse en la fo rm a h ab itu al.
Si las subclases contienen u n n ú m ero desproporcionado de ca­
sos, com o o cu rre h ab itu alm en te en la investigación n o experi­
m ental, ta l cosa significa que las v ariables de fila y d e colum na
e sta rá n interrelacionadas. E n efecto, alguna variación que viene
"explicada” p o r la v ariab le de la colum na p u ed e asim ism o se r "ex­
p licad a” p o r la variable de la fila, dándose casos de am bigüedad
acerca de a cuál de las variables h a b rá d e d arse el créd ito p o r
u n a variancia, cu ando ésta es explicable d e dos m aneras. H alla­
rem os esta m ism a d ificu ltad e n relación con el análisis de re g re­
sión m últiple, y, d e m an era im plícita, en el análisis de la co­
variancia.
D espués de estu d ia r ta n to la regresión m últiple com o el an á­
lisis d e la covariancia, exam inarem os brevem ente (e n el cap ítu ­
lo xx), lo que se denom ina "variable sim ulada", utilizable p a ra
m a n e ja r u n g ran n ú m ero de situaciones, en tre ellas aquella en la
qu e-se tien en dos (o m á s) escalas nom inales variables indepen­
dientes e interrelacionadas. V erem os sin em bargo q u e este m uy
am plio pro ced im iento estad ístico n o nos p erm ite su p e ra r las
dificultades teóricas que surgen en aquellos casos en que las va­
riables in dependientes están interrelacionadas. Tales problem as
sólo pueden ser resueltos p o r m edio d e procedim ientos de cálcu­
lo basad o s en ecuaciones sim ultáneas, cuestión que excede los
lím ites de este libro. Debe observarse q u e u n a de las grandes
v en tajas de los diseños experim entales consiste en que éstos
p erm iten la m anipulación de variables independientes, de tal
m an era q ue sus efectos pueden se r separados sin am bigüedad,
lo que hace posible evaluar los efectos principales de cada varia­
ble, siem pre a condición de que la in teracció n no sea dem asia­
do n o tab le.

XVI.4. A lternativas n o param étricas del análisis de variancia


E n el caso en que los supuestos req u erid o s p a ra el análisis de
v arian cia n o se cum plan, se dispone de p ru e b as no p aram étrica s
que pu ed en u tilizarse com o análisis de v arian cia de u n a o de
dos fo rm as. E xam inarem os en p rim e r lu g ar el análisis de u n p ro ­
cedim iento de la v arian cia con categorías de K ruskal-W allis, p a ra
v er a continuación la p ru e b a de F riedm an p a ra m u estras p a re a ­
das, u tilizab le en aquellas ocasiones en que la variable d e fila
co n stituye u n g ru p o de variables p aread a s y en las que hay un
"caso” en cad a fila.

Prueba de K ruskal-W allis. La p ru e b a tra ta d a en esta sección fue


d esarro llad a p o r K ru sk al y W allis y re s u lta in d icad a siem pre que
tengam os cierto n ú m ero de m u estras al azar independientes y
u n nivel de m edición de escala ordinal. La eficacia de su fuerza
es aproxim adam ente, en las m u estras grandes, del 95 p o r ciento.
La p ru e b a es b ásicam en te m uy sencilla y co m porta la com para­
ción de las sum as d e los órdenes d e cada u n a de las categorías
de la variab le de la escala nom inal. Se calcula u n a estad ística H
con o b jeto d e m ed ir el grado en que las distin tas sum as de órde­
nes difieren de aquello que se esp e ra ría b a jo la hipótesis cero.
Si hay m ás de cinco casos en cada clase, la distrib u ció n de selec­
ción de H es ap roxim adam ente la ^-cuadrada.6
Con fines de com paración, ilu strem o s el em pleo de la p ru eb a
d e K ruskal-W allis con los m ism os datos. E n el cu ad ro XVI.7, las
tasas de crim in alidad de los tre s tipos de ciudades se h an orde­
nad o de altas a b a ja s (los órdenes b ajo s indican tasas b a ja s).

Cuadro XVI.7. Datos y cálculos para el análisis de variancia


con rangos de K ruskal-W allis

Ciudad industrial Ciudad comercial Ciudad política

Cuota Orden Cuota Orden Cuota Orden

4.3 10 5.1 11 3.1 5


2.8 4 1.8 2 1.6 1
5.9 12 3.6 7 3.8 8
7.7 16 3.3 6 1.9 3
12.3 22 6.2 13.5 6.2 13.5
16.3 24 9.5 18 7.1 15
9.1 17 4.1 9 11.4 21
10.2 19 11.2 20 12.5 23

Sumas R t = 124 «2 = 86.5 R s = 89.5

1. Supuestos.
N ivel d e m e d ic ió n : escalas o rd in al y nom inal
M odelo: m u estreo al azar independiente
H ip ó te sis : m u estras sacadas d e la m ism a población continua
2. N ivel de significación y región crítica. Tom em os el nivel
del .05.
3. D istribución d e m uestreo. La distribución de m u estreo de
H será ap ro x im adam ente la ^-cuadrada con k — 1 grados de lib er­
tad, en donde k re p resen ta el n ú m ero de categorías em pleadas.
4. Cálculo de la estadística de la prueba. Calculam os H p o r m e­
dio de la fó rm u la

/ 12 * R* \
(-w ñ í t t & h - ) - 3 ( N + 1 )
H = --------------------------------------------------- (X V I.8)
1 - 27y(JV 3 — N )

en donde N t y N re p resen ta n respectivam ente el n ú m ero de ca-


« En caso de tres clases y N muy pequeñas, véase [10], pp. 195-198.
sos de la í-ésima categoría y d e la m u e stra to tal. El denom inador
de la fó rm u la re p resen ta u n a corrección p o r ligaduras, en la que

T *= t í-%
s —t■

siendo el nú m ero d e observaciones ligadas en relación con un


rango determ inado.
E n este ejem plo p a rtic u la r hay sólo u n p a r de m arcas em p ata­
das. P o r lo ta n t o : T i = 23 — 2 = 6. Tenem os, p u e s :

[ 12/24(25)](124^/8 + 86.5V8 + 89.52/ 8 ) - 3(25)


. H = --------------------------------------------------------------------- = 2.17
1-6/(243-24)

5. Decisión. R efiriéndonos a la ta b la de la ^-cuadrada, vem os


q u e con 2 grados de lib e rta d necesitam os u n a ^-cuadrada de 5.991
o m ay o r p a ra o b ten er significación al nivel del .05. H abiendo,
pues, obten id o u n a H de 2.17, decidim os no rech azar la hipótesis
n u la a dicho nivel de significación. Vemos, de paso, que llega­
m os a la m ism a conclusión q u e an terio rm en te.
Análisis de F riedm an de dos m étodos con categorías. Los da­
tos o rdinales no p erm iten en ap ariencia m a n e ja r el concepto de
interacción, a n o se r de m a n e ra m uy b u rd a y poco satisfactoria.
S in em bargo, si se e stá d ispuesto a su p o n er que la interacción
carece de im p o rtan cia, y se desea co n tro lar p a ra u n a o m ás va­
riables u tilizando lo que equivale a u n procedim iento de pareado,
puede p ro ced erse com o sigue. Se e m p arejan los individuos (en
este caso las ciu d ades) de acuerdo con el c rite rio que se desee
aplicar. Uno de tales crite rio s puede se r el regional, o tro el ta ­
m año, u n te rc e ro la edad d e las ciudades, etcétera. Se asigna a
continuación u n m iem b ro de cada grupo a u n a situación experi­
m ental, to m an d o com o n ú m ero de “casos” el nú m ero d e grupos
de individuos pareados. E stá bien claro que este procedim iento
re p re se n ta u n a am pliación de las p ru e b as m ed ian te p a re s n o r­
m alizados, y a estu d iadas. E n algunos casos pueden darse obser­
vaciones rep etid as so b re cada individuo; en o tro s puede n o h a ­
b e r re su ltad o posible a p lica r realm ente el azar a la asignación
a los grupos de tra ta m ie n to o experim entales, en cuyo caso nues­
tra s in terp retacio n es d eb erán se r m ucho m ás cautelosas. E n el
caso que estu d iam o s re su lta rá evidentem ente im posible d is tri­
b u ir al azar las ciudades en las categorías in d u strial, com ercial
o política.
C onsiderem os a continuación cada grupo d e individuos p area­
dos com o u n a re sp u e sta independiente. D entro de cada u n o de
los grupos asignam os categorías 1, 2, 3, . . . , k, d e acuerdo con las
pu n tu acio n es de la v ariab le dependiente. H acem os lo m ism o en
cada caso y sum am os las filas, obteniendo u n a sum a de filas T¡
p a ra la colum na /-ésim a. Si la variable experim ental (colum na)
n o tiene efecto alguno, podrem os esp e ra r que las varias T¡ resul­
ten ap ro x im adam ente iguales. E staríam o s en efecto asignando
las filas d en tro de cada sec to r e n fo rm a to talm en te al azar, y no
esp eraríam os que el to tal de puntuaciones de los sectores en
cualquiera de las colum nas resu ltase desusadam ente grande o
pequeño. H a b rá, em pero, de ordinario, diferencias m enores de
m u estras e n tre las T¡, y p o r ello desearem os o b ten er u n a m edida
de las diferencias e n tre las T¡ que cuenten con u n a distribución
conocida de la m uestra.
Si com putam os la estad ística

S = 2 (T,-T)*
i

en la que k es el n ú m ero de categorías y T es la m ed ia d e las T¡,


la distrib u ció n de la m u e stra de S puede ser calculada exacta­
m en te e n el caso de m u estras pequeñas, y aproxim adam ente en
el de m u estras grandes. E n B radley [3 ] y Siegel [10] se dan
cuadros p a ra las distribuciones exactas. C uando k > 4 y N > 10,
en donde N re p re se n ta el nú m ero d e grupos de individuos p area­
dos, podem os u s a r u n a aproxim ación de ji al cuadrado, com o
sigue:

* - n w + í) ~ - m + » k T' - 3 H i t + »

en la que el grado de lib ertad p a ra ji al cuadrado es k — 1 , y en


donde el lad o de la extrem a derech a re su lta rá m ás conveniente
p a ra fines del cálculo. Suponem os de nuevo u n a distribución
básica co n tin u a de puntuaciones v erdaderas, d e m odo q u e los
em pates re su lten ta n sólo de la crudeza de las m ediciones. Pode­
m os asig n ar a las puntuaciones em patadas las m edias de las fi­
las que h u b ie ra n recibido en caso de no p ro d u cirse em pates o,
m ás conservadoram ente, podem os ro m p er los em pates, m inim i­
zando así el v alor obtenido de ji al cuadrado. P rocedam os ade­
lan te con u n ejem plo.
C ontinuando con la m ism a ilustración, p o r conveniencia de la
com parabilidad, conservam os el su p u esto de que hem os obtenido
p o r lo m enos u n nivel ordinal de m edición p a ra los grados de
delincuencia, y la hipótesis n u la de que las m u estras h an sido
obtenidas de la m ism a población continua. E sta hipótesis equi­
vale, en efecto, al ase rto de que, en el contexto de u n experim en­
to real, la v ariab le experim ental no ten d ría efecto alguno. Supo­
nem os ahora, sin em bargo, que las m u estras e stán agrupadas, en
este caso e n trío s de ciudades, u n a in d u strial, o tra com ercial y
o tra política. H a b rá ocho réplicas, de m an era que k = 3 y N = 8.
A nteriorm ente, al h ac er u n análisis p o r dos m étodos de la va­
riancia, utilizam os sólo dos series, u n a de ellas p a ra el S udeste
y o tra p a ra el N ordeste. Aquí contam os con ocho series, lo que
p erm ite em p arejam ientos individuales donde ello sea posible.
Podem os p o r supuesto asignar arb itra ria m e n te cada ciudad del
S u deste a cu alq u iera d e las cuatro series de m ás abajo, p ero el
h acerlo su p o n d ría u n diseño m enos eficiente que el logrado usan­
do controles m ás refinados en el proceso de pareado. P ara ser
concretos, supongam os que hem os utilizado cu a tro clases de dife­
re n te tam añ o p a ra cada u n a de las dos regiones, de m odo que las
ciudades hayan re su ltad o em parejadas sim ultáneam ente p o r ta ­
m añ o y p o r región. Supongam os que las ciudades han sido dis­
p u estas com o en el cu ad ro XVI.8.

Cuadro X V I.8. Datos y cálculos para la prueba de F riedm an

Ciudad industrial Ciudad comercial Ciudad política


Grupo
Tasa Rango Tasa Rango Tasa Rango

A 4.3 2 5.1 3 3.1 1


B 2.8 3 1.8 2 1.6 1
C 5.9 3 3.6 1 3.8 2
D 7.7 3 3.3 2 1.9 1
E 12.3 3 6.2 1.5(1) 6.2 1.5(2)
F 16.3 3 9.5 2 7.1 1
G 9.1 2 4.1 1 11.4 3
H 10.2 1 11.2 2 12.5 3

Ti 20 14.5(14) 13.5(14) X = 16

Los rangos no coinciden p o r supuesto con los del cuadro XVI.7,


ya que hem os tra ta d o cad a grupo com o u n a réplica separada,
con los rangos llegando sólo en cada caso h a s ta k = 3. O bsérvese
que hay sólo u n em p ate den tro del g rupo E, habiendo asignado
u n ran g o pro m ed io de 1.5. El procedim iento m ás conservador
h a b ría consistido en asignar rango 1 a la ciudad com ercial y ra n ­
go 2 a la ciu d ad política, ya que p a ra los dem ás grupos T 2 > T 3.
Los resu ltad o s p a ra el procedim iento m ás conservador aparecen
e n tre p arén tesis. Aun cuando estam os m an ejan d o u n nú m ero
m uy red u cid o de casos y de colum nas, utilizarem os, con fines de
ilustración, la aproxim ación de ji al cuadrado. T en em o s:

12
v* = ------------[20* + 14.52 + 13.52] - 3(8) (4) = 3.06
* 8(3)(4)

lo que p a ra d.f. = k — 1 = 2 no re su lta significativo ni aun al nivel


d e .10. Si hubiésem os em pleado1 el m étodo m ás conservador ob­
teniendo T 2 — T s = 14, hab ríam o s logrado u n a ji al cuadrado
d e 3.00.
B radley [3 ] hace n o ta r que la eficacia de fuerza de la pru eb a
d e F ried m an no sólo depende del tam año de la m u estra, sino del
n ú m ero de categorías usado. E n el caso de m u estras grandes la
eficacia d e la p ru e b a en relación con el de la p ru e b a F ( suponien­
do que todos los supuestos de esta ú ltim a estuviesen ju stificad o s),
es ap ro x im ad am ente igual a

De m an era que p a ra k = 2 la eficiencia de u n a m u e stra grande


sería ap ro x im ad am ente de 2 /jt = .64, y p a ra k = 5 re su lta ría apro­
x im adam ente de 5/2jr = .80. B radley observa que a m edida que
k dism inuye, dism inuye tam b ién la v en taja de u s a r categorías a
trav és de las colum nas. E n el caso lím ite en que k = 2, podem os
asig n ar sólo las dos categorías 1 y 2, re su ltan d o e s ta p ru eb a
equivalente a la p ru e b a de signo, ten ien d o p o r su p u esto la m ism a
escasa fu erza eficaz.
Si la v ariable dependiente (en este caso los niveles de la cri­
m in alid ad ), es m ed id a de m an era ta n b u rd a que sólo pueden
asignarse los dos valores de éxito y fracaso, será posible hacer
u so de u n a p ru e b a no p ara m é tric a m uy sim ilar, conocida com o
p ru e b a Q de C ochran. El procedim iento que en ésta se sigue con­
siste en asig n ar unos ( 1 ) y ceros ( 0) a las equis (X ) (ta l vez se­
gún se en cu en tren p o r a rrib a O' p o r ab ajo de la m edia global),
u tilizando u n a d istribución exacta o u n a aproxim ación de ji al
cu adrado, com o se hizo en el caso de la p ru e b a de F riedm an. La
p ru e b a de C ochran es d iscutida p o r Hays [7] y B radley [3], y re ­
su lta tam bién ap ro p iad a p a ra el u so con m u estras pareadas.

XVI.5. M edidas de asociación: correlación intraclase


Las p ru éb as de análisis de la v arian cia sólo nos p erm iten decidir
si existe o n o alguna relación e n tre dos variables. Como ya vi­
m os, es re lativ am en te fácil o b ten er significación estad ística aun
con u n a relación m uy superficial, a condición que se tenga u n
nú m ero su ficientem ente gran d e de casos H abiendo decidido que
sí existe relación, sujetos sin d u d a al riesgo de e rro r de tipo I,
procedem os a continuación a m e d ir la fuerza o grad o de la m is­
m a. Puede o b ten erse alguna indicación acerca de la m agnitud de
la relación, co m parando sim plem ente las m edias de las diversas
categorías. Si estas m edias difieren m ucho, es p ro b a b le que la
relación sea fu e r te ; p ero si las diferencias son pequeñas, en cam ­
bio, podem os e sta r en condiciones de n o atrib u irles m ucha sig­
nificación p ráctica, au n en el caso en que hayam os obtenido signi­
ficación estadística. Sin em bargo, la m era com paración de las
m edias de las categorías puede re su lta r equívoca, a m enos de
o b serv ar tam bién el grado de hom ogeneidad en el in terio r de cada
grupo. P or lo regular, aunque tal vez n o siem pre, n u estro interés
se ce n tra en la m agnitud relativa de las diferencias e n tre las
m edias, en com paración con las diferencias en el in terio r de
las categorías. E n o tro s té rm in o s : deseam os o b ten er u n a m edida
del grad o en que las categorías son hom ogéneas en com paración
con la v ariabilidad to tal en la variable de la escala de intervalo.
Si las categorías son p erfectam ente hom ogéneas, la asociación
en tre las dos variables será com pleta, y sabiendo la categoría a
la que u n individuo pertenece, podem os p re d ecir su m arc a exac­
tam ente.
Se h an d esarro llado varias m edidas b ásicam ente in tercam b ia­
bles de asociación, que se sirven de las sum as de cuadrados total,
" e n tre ” y "d en tro ", o b ien de las apreciaciones de la variancia
basadas en dichas sum as de cuadrados. La razón de correlación
E z, la m ás sim ple ta l vez de dichas m edidas, co m porta to m ar la
razón de la sum a de cuadrados explicada, con respecto a la total.
Así, p u es:
SC explicada SC “e n tre ”
E* = --------- -----------= ------------------- (X V I.9)
SC total SC total

Según verem os en el próxim o capítulo, la in terpretación de la ra ­


zón de correlación es d irectam en te análoga a la de la correlación
producto-m om ento corriente, salvo p o r su falta de signo, y nos
servirem os de dicha m edida p a ra verificar la no linealidad de la
relación en tre dos escalas de intervalo.
La razón de correlación, sin em bargo, es ligeram ente sesgada.
El lecto r reco rd ará que la desviación e stá n d a r de la m uestra, o
variancia, tiende a su b estim ar la desviación están d a r o variancia
de la población, siendo el grado de sesgo relativam ente im p o rtan ­
te en el caso de m u estras pequeñas. De ahí que. en el denom ina­
d or nos sirviéram os de N — 1, en lugar de N , con o bjeto de ob­
ten er u n a estim ación insesgada. Y en form a análoga, cuando el
núm ero de casos de cada categoría se hace relativam ente peque­
ño, el valor esperado de la variabilidad en el in terio r de cada
m u estra tenderá, en com paración con la desviación están d ar s, a
ser m en or que la de la población. Con o b jeto de corregir en
relación con un sesgo correspondiente en la razón de correla­
ción, podem os ob ten er lo que se designa com o la razón de corre­
lación insesgada, sirviéndonos de los grados de lib ertad adecua­
dos y operando directam ente con las estim aciones de la variancia
y no con las sum as de cuadrados.
La fó rm u la de la razón de correlación insesgada e2 re su lta ser
la siguiente:
= (XVI.10)

en donde V w y V t figuran en lu g ar de las estim aciones in te rio r y


to tal respectivam ente. Si bien n o hem os ten id o necesidad h asta
el p re sen te d e calcular la estim ación total, su valor p u ed e con
todo o b ten erse fácilm ente dividiendo la sum a d e cu ad rad o s to tal
p o r N — 1. E n el ejem plo n um érico del que nos hem os servido,
los valores de E y e son respectivam ente (véase el cu ad ro XVI.3,
p, 342).
42.303 „
E 2 = ------------= .113 £ = .34
373.538
15.773
e2 = 1 ------------------ = .029 e = .17
373.538/23

O bsérvese q ue el valor de e es m ás pequeño q u e el d e E .


Una m ed id a de asociación algo m ás c o rrien te es la del coefi­
ciente de correlación intraclase. E sta m edida d eriva su nom bre
del hecho d e q u e b ásicam ente co m p o rta u n a correlación de m o­
m en to-producto e n tre todos los p ares posibles d e casos dentro de
las categorías d e la variable de la escala no m in al.7 Al igual
q u e las dem ás m edidas exam inadas en esta sección, el coeficiente
de co rrelación d en tro de las clases, r¿, puede co n sid erarse tam ­
bién com o m ed ida del grado de hom ogeneidad de las clases en
relación con la variabilidad to ta l en la escala de intervalo. Su
fó rm u la es com o sig u e :
r¡ = ____V * ~ V ”------ (X V I.ll)
Vt + ( ñ - í ) V „

en donde V t y V w son las estim aciones e n tre clases ( b — betw een)


y d en tro de las clases (w = w ith in ) respectivam ente, y n re p re­
sen ta u n n ú m ero de casos prom edios en cad a clase. U na fórm ula
altern ativ a p a ra averiguar ri en función de F es la sig u ien te:

F —1
i*í = -
F + ( k —1)

Si el n ú m ero de casos en cad a clase es el m ism o, n o existe p ro ­


blem a, p o r supuesto, en c u a n to al v alo r de n. E n el caso d e cla­
7 D e s p u é s d e l e íd o e l c a p í tu lo x v n e l l e c t o r p o d r á e v e n tu a l m e n te c o n s u l­
t a r [5] para d a r s e c u e n t a d e l c a r á c t e r p r e c i s o d e l a r e l a c ió n e n t r e e s t a s d o s
m e d id a s .
ses desiguales, en cam bio, p u ed e em plearse u n a sim ple m edia
aritm ética p a ra o b ten er el valor en cuestión. H aggard [5 ] reco­
m ienda u n a clase algo d istin ta de v alo r pro m ed io que h a b rá que
utilizar siem pre que el n ú m ero de casos varíe considerablem ente
de u n a categoría a o tra. Su fó rm u la p a ra el cálculo de ñ e s :

en donde re p re se n ta el núm ero de casos de la categoría z-ésima


y k el n ú m ero de categorías. E n n u e stro ejem plo num érico todas
las categorías son de la m ism a m ag n itu d y, p o r consiguiente,
ñ = 8.
2 1 .1 5 2 - 15.773 5.379
Así, pues, = = .041
21.152 + 7(15.773) 131.563

P ueden o b servarse algunas propiedades del coeficiente de co rre­


lación in traclase. Si las categorías son to d as ellas p erfectam en te
hom ogéneas, no h a b rá variación d e n tro de las clases (es decir,
Vw = 0)> y el valor de r { será de + 1.0. E n el caso extrem o opues­
to, supóngase, p o r el co n trario , que to d a la variación tien e lugar
d en tro de las clases y q u e las m edias d e las categorías son exac­
tam en te iguales. E n este caso, desaparecerá, y el lím ite infe­
rio r se rá :
-V * 1
(ñ-l)V w n —í

Así, pues, el lím ite in ferio r no es — 1.0, excepto en el caso espe­


cial en q ue se tenga u n prom edio de 2 casos en cada clase. N or­
m alm ente, p o r lo tan to , el lím ite in ferio r s e rá m enor que la un i­
dad en v alo r absoluto. De hecho, esto ra ra m e n te nos preocupa, ya
que pocas veces encontram os categorías que sean sustancialm en­
te m enos hom ogéneas d e lo que se esp e ra ría p o r azar. C uando las
apreciaciones "en tre " y " d e n tro ” son exactam ente iguales, o sea
cuando el v alo r de F es igual a la unidad, entonces r< será cero.
Así, pues, Ti = 0, cuando las categorías son exactam ente ta n ho­
m ogéneas com o se e sp e raría p o r azar, si no h u b iera relación al­
guna e n tre las dos variables. P or lo regular, los valores de se
situ a rá n e n tre 0 y 1.0. P o r desgracia, no parece ex istir in te rp re ­
tación sencilla alguna d e los valores de r, e n tre dichos lím ites.
* La noción d e correlación in traclase p u ed e generalizarse fácil­
m en te p a ra a b a rc a r el análisis de variancia d e dos form as. En
aquellas situaciones en las que nos serviríam os del térm in o de
e rro r en el d enom inador de F, podem os o b ten er u n a m edida del
grado de correlación e n tre la variable de las colum nas y la escala
de intervalo, con control en relación con la variable d e las hile­
ras, tom ando com o la estim ación e n tre colum nas y sustituyen­
do V w p o r el térm in o del erro r. Y en form a análoga, podríam os
to m ar la estim ación e n tre hileras com o V it con lo q u e o b ten d ría­
m os u n a m edida del grado de asociación en tre la escala de in­
tervalo y la variable de las hileras, después de re sta d a la variación
debida a la variable de las colum nas. Como verem os en el capí­
tu lo xix, este procedim iento es directam ente análogo a lo que
hacem os al o b ten er correlaciones “parciales” e n tre dos escalas
de intervalo, con control en relación con u n a te rc e ra escala de
intervalo.
G losario

Razón de correlación
Variación explicada e inexplicada
Homoscedasticidad
Interacción
Correlación intraclase
Comparaciones ortogonales.

E j e r c ic io s

1. Como quiera que la prueba F puede utilizarse para probar la hipó­


tesis nula de que tenemos dos estimaciones independientes de la mis­
ma variancia, podemos servimos de la misma para verificar el supues­
to de que = <r2 en problemas de diferencia de las medias. Ya que
por lo regular no será posible anticipar cuál valor de s2 será el mayor,
tomamos la razón del mayor al m enor y duplicamos el valor de la
probabilidad dado en el cuadro F. Teniendo presentes estos hechos,
tómense los datos del ejercicio 1, capítulo x i i i , y verifiqúese la hipóte­
sis de que = o2. Respuesta, F = 1.75, no rechazo al nivel .10.
2. Supóngase que los datos expuestos más abajo representan los in­
gresos de los presidentes de los consejos de administración de diver­
sos tipos de organizaciones locales. Se han seleccionado al objeto al
azar cinco organizaciones de cada tipo, tanto de localidades grandes
como pequeñas, obteniendo en consecuencia números iguales de ca­
sos en cada subclase.
a) Empléese el análisis de variancia en dos formas con objeto de
verificar la existencia de una relación entre el tipo de organiza
ción y los ingresos de los presidentes de consejos de administra­
ción, dejando de lado la extensión de la ciudad. ¿Cuáles son los
valores de E y e? Respuesta, F = 4.97; E = .52; e = .47.
*b) Utilizando el análisis de variancia, de dos tipos ¿qué puede de­
cirse acerca de la relación entre el tipo de organización y el in­
greso, controlando en relación con la extensión de la localidad?
¿Cómo se comparan estos resultados con los de aj? Respuesta,
para la interacción, F = 3.52, rechazo al nivel de .05.
c) C a l c ú l e s e l a r e l a c i ó n i n t r a c l a s e d e l o s a p a r t a d o s a) y *b).

Tamaño Tipo de organización


de la
localidad Religioso Social Civil

$ 13 00 0 $ 1 5 00 0 $ 2 0 800
11500 10600 18 100
G ra n d e 17 300 12 30 0 14 600
19 100 11400 22300
16700 10 800 16 500

15 0 0 0 9 30 0 14 4 0 0
12 300 10400 10 80 0
P equeño 13 900 12 90 0 9 700
14 300 11000 12300
11700 9100 13 100

3. T r a n s f ó r m e n s e l o s d a t o s d e l e j e r c i c i o 2 r e l a t i v o s a l i n g r e s o e n
r a n g o y , u tiliz a n d o la p r u e b a d e K ru s k a l-W a llis , in v e s tig ú e s e s i e x is te
o n o r e la c ió n e n tr e e l tip o d e o rg a n iz a c ió n y e l in g re s o :

a ) P r e s c i n d i e n d o d e l t a m a ñ o d e l a l o c a l i d a d . R e s p u e s t a , H = 9 .2 ;
r e c h a z o a l n i v e l .05.
b) C o n t r o l a n d o e n r e l a c i ó n c o n e l t a m a ñ o .

4. U t i l i c e l o s d a t o s d e l e j e r c i c i o 2, y s u p o n g a q u e l a s c o m u n i d a d e s
h a n s i d o o r g a n i z a d a s e n tríos d e a c u e r d o c o n s u t a m a ñ o , h a b i e n d o
d ie z d e a q u é llo s . L a s o r g a n iz a c io n e s e n l a h i l e r a s u p e r io r ( c o n in g r e ­
s o s d e $ 13 0 0 0 , $ 1 5 0 0 0 y $ 2 0 8 0 0 ) , r e p r e s e n t a n l a s l o c a l i d a d e s m a y o r e s ;
la s d e la s e g u n d a h ile r a , la s s ig u ie n te s e n ta m a ñ o , y a s í s u c e s iv a m e n te .
U tilíc e s e la p r u e b a d e F r ie d m a n p a r a h a l l a r la r e la c ió n e n tr e tip o d e
o r g a n i z a c i ó n e i n g r e s o s d e l p r e s i d e n t e ( a n i v e l .0 5 ).
*5. E l a n á l i s i s d e v a r i a n c i a p u e d e p r a c t i c a r s e l o m i s m o c o n d a t o s
a g r u p a d o s q u e s in a g r u p a r . C o n o b je to d e r e d u c ir la c o n fu s ió n , lo m á s
s e n c illo s e r á s e r v i r s e d e l a s e c u a c io n e s ( X V I.4 ) y ( X V I.5 ) , s in m o d i ­
fic a r, p e ro re c o rd a n d o , s in e m b a rg o , q u e e n el c a s o d e d a to s a g ru p a ­
d o s tr a ta m o s la s m a r c a s c o m o s i e s tu v ie ra n c o n c e n tr a d a s e n lo s p u n ­
to s m e d io s d e lo s in te r v a lo s . T e n ie n d o e n c u e n t a e s ta s in d ic a c io n e s ,
e f e c t ú e s e u n a n á l i s i s ú n i c o d e v a r i a n c i a c o n l o s d a t o s d e l e j e r c i c i o 2,
c a p ítu lo x m . A títu lo d e c o n tr o l d e lo s c á lc u lo s , ¿ c ó m o s e c o m p a r a n
e n t r e s í lo s v a lo r e s d e F y f?
6. U t i l i z a n d o l o s d a t o s d e l e j e r c i c i o 2 a n t e r i o r :

a ) Ig n o ra n d o el ta m a ñ o d e la lo c a lid a d , b ú s q u e s e la s ig n ific a c ió n d e
la d if e r e n c ia e n tr e e l in g r e s o m e d io d e lo s p r e s id e n te s d e la s o r ­
g a n iz a c io n e s re lig io s a s y la s d e lo s c o rre s p o n d ie n te s a la s o rg a ­
n iz a c io n e s s o c ia le s y c iv ile s c o m b in a d a s .
b) ¿ Q u é c o m p a ra c ió n r e s u lta r ía o rto g o n a l c o n la h e c h a e n a ) ?
c) S u p ó n g a s e q u e te n e m o s s e is tip o s d e o r g a n iz a c io n e s ( r e lig io s a s
e n lo c a lid a d g r a n d e , r e lig io s a s e n lo c a lid a d p e q u e ñ a , s o c ia l e n
localidad grande, etcétera). ¿Cuántas comparaciones mutuamen­
te ortogonales serían posibles? Hállese un grupo específico del
anterior núm ero de comparaciones que sean m utuam ente ortogo­
nales, comprobando que así es el caso.

B ibliografía
1. Anderson, R. L., y T. A. Bancroft: Statistical Theory in Research,
McGraw-Hill Book Company, Nueva York, 1952, caps. 17 y 18.
2. Blalock, H. M.: "Theory Building and the Statistical Concept of
Interaction”, American Sociological Review, vol. 30, pp. 374-380,
1965.
3. Bradley, J. V.: Distribution-free Statistical Test, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, cap. 5.
4. Dixon, W. J., y F. J. Massey: Jntroduction to Statistical Analysis,
2“ ed., McGraw-Hill Book Company, Nueva York, 1957, cap. 10.
5. Haggard, E. A.: Intraclass Correlation and the Analysis of Varían-
ce, The Dryden Press, Inc., Nueva York, 1958, caps. 1-5.
6. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, cap. 22.
7. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc. Nueva
York, 1963, caps. 11-14.
8. Johnson, P. O.: Statistical Methods in Research, Prentice-Hall,
Inc. Englewood Cliffs, N. J., 1949, caps. 10 y 11.
9. Kirk, R. E.: Experimental Design: Procedures for the Behavioral
Sciences, Brooks/Cole Publishing Company, Belmont, Cal., 1968,
cap. 3.
10. Siegel, S.: Nonparametric Statistics for the Behavioral Sciences,
McGraw-Hill Book Company, Nueva York, 1956, pp. 166-172, 184-193.
11. Walker, H. M., y J. Lev: Statistical Inference, Henry Holt and
Company, Inc., Nueva York, 1953, cap. 14.
E n e l p resen te capítulo y en el siguiente exam inarem os la re la­
ción e n tre dos escalas de intervalo. La extensión a tres o m ás
variables de escala de intervalo se verá en el capítulo xix, al tra ­
ta r de la correlación m ú ltip le y parcial. De m om ento, considera­
m os situaciones en las que tenem os dos m edidas de escala de
in tervalo p o r cada individuo. Así, p o r ejem plo, podem os conocer
el n úm ero de años de enseñanza com pletados y el ingreso anual
de los varones adultos de u n a localidad determ inada. O puede
in tere sa m o s relacionar el p o rc en taje de m ano de o b ra em pleado
en la in d u stria con el crecim iento dem ográfico de u n a población.
E n algunos problem as de esta índole nos interesam os a m enu­
do no sólo en las pru eb as de significación y las m edidas de gra­
dos de relación, sino q u e podem os tam b ién q u erer d esc rib ir la
naturaleza de la relación en tre las dos variables, de m odo que,
conociendo u n a de ellas, podam os an ticip ar la otra. Así, p o r
ejem plo, podem os q u erer p red ecir el ingreso fu tu ro de u n a p e r­
sona sobre la b ase d e su instrucción, o la tasa de crecim iento
de u n a ciudad a p a r tir del p o rc en taje de su m an o de o b ra em ­
pleada en la in d u stria. C uando el in teré s se ce n tra an te to d o en
la ta re a exploradora de e n c o n tra r cuáles variables se relacionan
con u n a variable determ inada, nos interesam os p o r lo regular
p rincip alm en te p o r las m edidas de grados o fuerza de las re la­
ciones, tales com o los coeficientes de correlación. P or o tra p a r­
te, u n a vez halladas las variables significativas, propendem os a
d irig ir n u e s tra atención al análisis d e regresión, en el que in ten ­
tam os p re d ecir el v alor exacto de u n a variable a p a r tir d e la o tra .
Si b ien el lecto r ya está fam iliarizado con las p ruebas de sig­
nificación y las m edidas de asociación, recom iéndase, con todo,
em pezar n u estro exam en estudiando el p ro b lem a de la predicción.
E sto se debe a que la noción de regresión es a la vez a n te rio r
lógicam ente y m ás im p o rtan te teóricam ente q u e la de correlación^
L a razón d e ello se irá viendo m ás clara a m edida que vayam os
avanzando. D espués de h a b e r exam inado el p roblem a de la p re ­
dicción, dirigirem os n u e stra atención a la m edición de la fuerza
d e la relación. E n el capítulo x v m , que d e hecho re p re se n ta la
continuación del p resen te, exam inarem os diversas p ru e b as de
significación, así com o la correlación del orden de lugares, que
pueden em plearse p a ra relacionar dos escalas ordinales.

X V II.1. R egresión lineal y m ínim os cuadrados


E n cierto sentido, el objetivo ú ltim o de to d as las ciencias es el
d e la predicción. E sto n o im plica, p o r supuesto, que sólo secun-
377
d ariam en te estem os interesados en com prender o su m in istra r
explicaciones causales de p o r qué dos o m ás variables se relacio­
n an com o lo hacen. Tal vez sea m ás acertad o decir que la com ­
pren sió n co nstituye el objetivo final y que, en la m edida en que
la com prensión se va perfeccionando, la predicción se hace cada
vez m ás p recisa. Es posible que si la com prensión fu e ra com­
p leta la pred icción p erfec ta sería tam b ién posible siem pre que
se conociera asim ism o cierta inform ación factu al necesaria. P or
ejem p lo : si u n o conoce las leyes del m ovim iento d e los planetas,
el cam po g rav itato rio d en tro del sistem a solar, y la posición y la
velocidad d e V enus en determ in ad o m om ento, p o d ría p re d ecir
su m ovim iento fu tu ro . Sin em bargo, independientem ente de las
im plicaciones filosóficas de sem eja n te p u n to de v ista determ i­
n ista, lo cierto es que la predicción constituye el objetivo de toda
ciencia.
E n sociología y en o tra s ciencias sociales, los enunciados pre-
dictivos se fo rm u lan a m enudo, p o r necesidad, en fo rm a relati­
vam ente b u rd a. P o r lo reg u lar esto se debe a que no hem os al­
canzado el nivel d e m edición de la escala de intervalo. Así, p o r
ejem plo, po d ríam os p re d ecir que cuanto m ás elevada sea la posi­
ción de u n a p erso n a en el grupo, ta n to m ayor será su confor­
m ación a las n o rm as de éste. S em ejante enunciado n o necesita
im plicar causalidad en u n a sola form a, sino que a firm a sim ple­
m en te que la posición y la conform idad se relacionan d e m odo
positivo. E stableciendo u n a analogía con u n a term inología m ate­
m ática q ue n o es estricta m e n te correcta, decim os que la posi­
ción es u n a fu n ció n de la conform idad, o que la conform idad es
u n a función d e la posición, eludiendo la cuestión d e la causali­
dad. Obsérvese, sin embargo-, que hem os dicho m uy poco acerca
de la fo rm a de e sta relación, a p a rte de in d icar que es positiva.
Y a m enos que tengam os u n nivel de m edición de escala de in ter­
valo p a ra am b as variables, re su lta efectivam ente m uy difícil de­
cir m ucho m ás.
Supóngase, sin em bargo, que tenem os dos escalas de intervalo.
Se hace entonces posible d esc rib ir m ás exactam ente de qué
m odo u n a de las variables varía con la o tra. Así, p o r ejem plo
podríam os e s ta r en condiciones de decir que, p o r cada añ o de
in strucción recibida, el ingreso a u m en ta rá en f 1 000. Si esto
fu e ra efectivam ente así, ten d ríam o s en re alid ad u n a relació n m uy
sim ple, o sea u n a relación lineal o en línea recta. Sin em bargo,
la m ayoría d e las relaciones no son ni con m ucho ta n sencillas,
pese a que, según verem os, re su lta a m enudo posible ob ten er
una aproxim ación m uy b u en a de la verd ad era relación suponien­
do linealidad. La fo rm a m ás elegante y sencilla de ex p resar una
relación e n tre dos (o m ás) variables es p o r m edio d e u n a ecua­
ción m atem ática. Así, p o r ejem plo, el lecto r e s ta rá fam iliarizado
con ciertas leyes físicas que enuncian u n a relación e n tre la p re­
sión, el volum en y la te m p e ra tu ra (P V /T = k ), o que indican
u n a relación e n tre la razón de aceleración de u n cuerpo al caer,
la d istan cia re co rrid a y la duración del tiem po en que h a estado
cayendo. Podem os tam bién re p re se n ta r cada u n a de e sta s ecua­
ciones m atem áticas com o alguna clase de curva geom étrica. Afor­
tu n ad am en te, en sociología solem os p o r lo regular o p erar con
ecuaciones m uy sim ples y con las curvas m ás sim ples posibles
(re c ta s).
Cuando añadim os m ás variables, no podem os re p re se n ta r tan
fácilm ente las ecuaciones como figuras geom étricas, ya que nos
salim os de las dim ensiones, de lo cual, sin em bargo, no necesita­
m os p reo cu p am o s p o r el m om ento.
Supóngase que hay u n a variable dependiente Y que h a de p re­
decirse a p a rtir de u n a variable independiente X . E n algunos
p roblem as, X p reced erá obviam ente a Y en el tiem po. P or ejem ­
p lo : p o r lo reg u lar u n a persona com pleta su in stru cció n antes
de o b ten er u n ingreso. E n tales casos, sem ejante m an era de re ­
p re se n ta r las cosas re su lta m uy adecuada, pese a que hem os de
p o n er cuidado en n o im plicar u n a relación necesaria o causal,
o que X es la ú n ica variable que influye sobre el valor de Y. Si
la dirección de la causa es am bigua, o si se piensa que cada va­
riab le es causa d e la otra, necesitarem os, si es que deseam os
s u m in istra r u n a explicación teórica de la relación, u s a r u n m é­
todo de ecuaciones sim ultáneas que escapa a este texto. (V éanse
[1], [2 ] y [ 6]. Si n u e stro objetivo es u n a sim ple estim ación o una
predicción a plazo breve de Y a p a r tir de X , no se p re se n ta rá n
tales am bigüedades, aunque deba señalarse u n a vez m ás que no
hay n ad a en las operaciones estadísticas que nos im pida realizar
operaciones m atem áticas teóricam ente carentes de sentido. E n
éste y en los capítulos sucesivos supondrem os que la variable Y,
seleccionada com o dependiente en sentido m atem ático, es asim is­
m o causalm ente dependiente, de m an era que la in terp re tació n
teó rica puede re su lta r relativam ente directa.
Y a vim os que si X y Y son estadísticam ente independientes,
no podem os p re d ecir Y a p a rtir de X o, m ás exactam ente, el co­
nocim iento de X no m ejo ra en n ad a n u e stra predicción de Y . P re­
sum iblem ente, pues, cuando las variables no son estad ísticam en te
independientes, el conocim iento de X sí nos ayuda a p re d ecir Y .
C uanto m ás fu e rte sea la dependencia, ta n to m ás p recisa será
n u e stra predicción. M ás adelante m edirem os la fuerza de esta
relación p o r m edio de coeficientes de correlación. Nos concen­
tram o s de m o m ento en la cuestión acerca d e cóm o predecim os
Y a p a r tir de X . Así, p o r ejem plo, podem os q u erer e stim a r el
ingreso fu tu ro de u n individuo, sabiendo que h a com pletado tre s
años de escuela secundaria. Sin este conocim iento relativo a la
instrucción, n u e stra m ejo r estim ación (suponiendo q u e n o hay
inflación) sería la del ingreso m edio d e todos los varones adul­
tos. E n cam bio, el hecho de conocer su instrucción debería p e r­
m itirn o s o b ten er u n a predicción m ejor.
La ecuación d e regresión. R epresentém onos el p roblem a de la si­
guiente m an era. Nos im aginam os que p a ra cada valor fijo de la
variable in d ep en d ien te X (in stru cc ió n ) tenem os u n a d istribución
de Y (in g reso s). E n o tro s té rm in o s: p a ra cada nivel educacional

O

CP
C3>

*4 *5
Educación
Fig. X V II.l. F orm a general de la regresión de Y sobre X , o curso
de las m edias de los valores de Y para valores fijo s de X.

h ab rá cierta d istrib u ció n de ingresos en la población. No todas


las perso n as q u e h a n term in ad o la escuela secu n d aría ten d rá n
exactam ente los m ism os ingresos, p o r supuesto, p e ro dichos in­
gresos estarán con todo d istrib u id o s alred ed o r de alguna m edia.
Y h a b rá d istribuciones de ingresos sim ilares p a r a los egresados
d e la escuela p rim aria, los de la universidad, los posgraduados,
etcétera. C ada u n a de estas d istin tas distribuciones d e ingresos
(p a ra X d eterm in ad as) te n d rá u n a m edia, y podem os h a c e r u n a
g ráfica de la posición de dichas m edias sirviéndonos del sistem a
fam iliar de las coordenadas rectangulares. D esignam os el curso
re su ltan te de estas m edias de las Y p a ra X fija s com o ecuación
de regresión de Y a X . S em ejante ecuación de regresión puede
verse ilu stra d a en la fig u ra X V II.l.
E stas ecuaciones de regresión son las "leyes” d e la ciencia. En
algunos casos h ay m uy poca d ispersión alrededor de la ecuación
d e regresión. E n tales casos, pueden h acerse predicciones m uy
precisas, y las desviaciones resp ecto de la ley se consideran a
m enudo com o e rro r de m edición o com o resu ltad o de influen­
cias m enores no controladas. La “ley” puede fo rm u larse así com o
si existiera u n a perfecta relación e n tre F y l E n el caso ideal,
se consid eraría que to d o s los p u n to s caen exactam ente en la
curva, y la relación se a b stra e ría com o u n a función m atem ática
p erfec ta e n la que n o hay m ás que u n a sola Y p a ra cada X . En
las ciencias sociales n o podem os se r ni con m ucho ta n exigentes.
E n efecto, esperam os u n a variabilidad considerable alre d ed o r de
la ecuación de regresión, y preferim os p e n sa r en térm inos de m e­
dias y de variancias d e u n a d istribución de Y p a ra cada X . Sin
em bargo, el p ro cedim iento es en p rincipio el m ism o en todas
las ciencias, p ese a que las leyes de las ciencias sociales no sean
ta n precisas com o las d e la física.
E n la fig u ra X V II.l hem os indicado el ca rác te r general de las
ecuaciones de regresión, q u e co m portan los cursos de las m edias
de los valores d e Y p a ra determ inados valores de X . V am os a
te n e r que p ro c ed er ah o ra a algunos supuestos sim plificadores,
con o b jeto de p o d e r tr a ta r el p ro b lem a estadísticam ente. Si bien
la id ea de regresión es perfectam en te general, la m ayoría de la
la b o r estad ística sólo se h a realizado con los m ás sim ples d e los
m odelos. E n p artic u la r, vam os a su p o n er d e m o m en to : 1) que
la fo rm a de la ecuación d e regresión es lineal, 2) que las d istri­
buciones de los valores de Y p a ra cad a X son norm ales, y 3) que
las v arian cias de las distribuciones d e Y son las m ism as p a ra cada
valo r de X . Podem os ah o ra h ac er u n exam en de estos diversos
su p u esto s un o p o r uno, p re sta n d o la m ay o r atención al p rim ero
d e ellos.
Si la regresión d e Y a X es lineal, o sea u n a relación en línea
recta, podem os e sc rib ir u n a ecuación com o sigue:

Y = a + $X (X V II.l)

en la q ue a y (3 so n constantes. La ecuación (X V II.l) in d ica que


la relación e n tre X y Y es exacta, p ero en brev e hem os d e in­
tro d u c ir en la ecuación u n térm in o de e rro r. U na fo rm a a lte r­
n ativ a d e escrib ir la ecuación es la siguiente: E ( Y \ X ) = a + f i X ;
en la que E ( Y \ X ) pone de relieve que estam os preocupados con
el v alo r esp erado de Y, el que depende de X. H em os utilizado
le tra s griegas, ya que d e m om ento tra ta m o s de la población total.
E n u n a ecuación de e sta clase, ta n to a com o f? tienen in te rp re ta ­
ciones geom étricas definidas. Si ponem os X igual a cero, vem os
que Y = a. P o r consiguiente, a re p re se n ta el p u n to en donde la
línea de la regresión c o rta el eje de las Y (o sea, allí donde X = 0 ).
La inclinación de la línea de la regresión está d ad a p o r ¡3, ya
q u e esta co n stan te in d ica la m ag n itu d del cam bio de Y p a ra u n a
u n id a d de cam bio e n X. E l hecho de que la relación sea lineal
significa que to d o cam bio de X, digam os en 5 unidades, produce
siem pre el m ism o cam bio en Y (e sto es, 5<3 unidades, indepen­
d ien tem en te de la posición sobre el e je d e X. (véase fig. X V II.2).
E l lecto r h a d e convencerse p o r sí m ism o q u e si (3 = 1 y si las uni­
dades de X y Y están indicadas p o r distancias iguales a lo largo
de los respectivos ejes, la línea de regresión fo rm a rá u n ángulo de
45 grados con el eje de las X. U na (3 m ayor que la u n id ad indica
u na p en d ien te m ás rápida. C uanto m ás ráp id a sea la pendiente,
tan to m ayor es el cam bio de Y p a ra u n cam bio dado de X. Y en
fo rm a análoga, si {3 es m enor que la un id ad pero m ayor que cero,
se re q u e rirá u n cam bio m ayor de X p a ra p ro d u c ir u n cam bio

dado en Y. E n el caso lím ite, en que la línea es horizontal, (3 se


hace cero, y los cam bios de X no producen cam bios de Y. E n
otros térm inos, si (3 = 0, no existe relación lineal e n tre X y Y.
El conocim iento de X no nos ayuda a predecir Y, si se supone
un m odelo lineal.1 Si (3 es negativa, sabem os que se d a u n a rela­
ción negativa e n tre las dos variables, y que m ientras X crece,
Y decrece.
Una línea re c ta puede d eterm in arse siem pre p o r com pleto si
conocem os ya sea dos puntos de la línea o un p u n to y la pen­
diente. P o r lo tan to , no hay m ás que u n a sola línea de ecuación
Y = a + (3A', a condición, p o r supuesto, que se considere a a y |3
como can tid ades fijas (pero generales). Si a y p están dadas,
podem os tra z a r la recta tom ando sim plem ente dos p untos d e la
misma. Sabem os que cuando X = 0, Y = a. P or consiguiente,
el punto (0, a ) se sitúa en la recta. Y así tam bién, cuando Y = 0,
tenem os 0 = a + fSX o X = -a /|3 . E ste punto (-a /{ 3 ,0) es, p o r su­
puesto, el p u n to en donde la línea co rta el eje de las X. Si no
i S e g ú n v e r e m o s m á s a d e la n te , la in d e p e n d e n c ia e s ta d ís tic a a s e g u r a q u e
p se a c e r o , p e r o n o s e s ig u e n e c e s a r i a m e n te d e a h í que s i es c e ro te n g a ­
m o s in d e p e n d e n c ia .
conviene servirse de dichos dos p untos, pueden d eterm in arse
otro s dos p u n to s cualesquiera p o r el m ism o p ro ced im ien to .2
S u p u esto s acerca de X y el térm ino de perturbación. H asta
ah o ra n o hem os tra ta d o en form a explícita el hecho de que, pues­
to que h a b rá dispersión alred ed o r de la ecuación de regresión,
h ab rem o s de re p re se n ta r el valor real d e Y p a ra cada individuo
m ediante u n a ecuación que contenga u n térm in o de p ertu rb ació n
o d e e rro r que es ú nico p a ra cada individuo. Si suponem os que
Y i y X i se refieren a las puntuaciones correspondientes al i-ésimo
individuo, p o drem os re p re se n ta r la relación (lin eal), com o sigue:

Y i = a + ¡3X¡ + ei

en la que e{ re p resen ta el térm ino de p ertu rb ació n , cuyo com por­


tam ien to necesitam os estu d iar. Podem os concebir este térm ino
com o si contuviera el e rro r de m edición en Y (p e ro n o en X ),
y com o re su lta n te de todas las varias causas de Y que n o h an sido
llevadas a la ecuación de u n a m an era explícita. Si la m ayor p a r­
te de estas causas om itidas tienen individualm en te u n efecto
m enor, y si adem ás están operando casi independientem ente
e n tre ellas, será razonable su p o n er que el valor esperado co rres­
po n d ien te al fa c to r de p ertu rb ació n E (e {) será igual a cero, y
que e¡ e sta rá d istrib u id o en fo rm a aproxim adam ente norm al.
Lo que re su lta m uy im p o rtan te es el hecho d e que el fa c to r de
p ertu rb ació n será estad ísticam en te in d ep en d ien te de X . R esulta
que al u s a r m ínim os cuadrados p a ra e stu d ia r los coeficientes de
regresión a y |3, es necesario suponer q u e E( e ) = 0, y que X t y
no están relacionados. La suposición de norm alidad, m ás la su­
posición de hom oscedasticidad, de que oe2 es co nstante a trav és
de todos los niveles de X será n ecesaria en las pru eb as de signi­
ficancia y p a ra la determ inación de los lím ites de confianza.
El su p u esto fu n d am en tal que subraya él uso del análisis de
regresión es el d e que X sea independiente del fa cto r d e erro r.
E n aplicaciones experim entales nos encontram os con frecuencia
en la posibilidad d e elegir niveles fijos de X ( como, p o r ejem plo,
cuando m antenem os constantes de te m p e ra tu ra a intervalos de
50 g rad o s). E n tales casos, pu esto q u e el nivel de X está b ajo
n u estro co n tro l y se p re su m e q u e no es m anipulado en fo rm a
que v aríe sistem áticam ente con el fa c to r de p ertu rb ació n , será
ra ro p reo cu p arse con este supuesto concreto. Un m om ento de
reflexión nos convencería, sin em bargo, de que en m uchas situ a­
ciones experim entales incluso este su p u esto es inocente, ya que
al m an ip u lar X u n o puede in ad v ertid am en te afectar o tro s facto ­
res q u e se q u ed aron fu e ra d e la ecuación y contenidos p o r lo
tan to en el facto r de pertu rb ació n .
E n la investigación n o experim ental se tom a tan to a las X com o
2 Véase u n e je m p lo n u m é r i c o e n la p á g i n a 392.
a las Y com o observadas y n o com o m anipuladas, siendo p o r lo
ta n to X y Y variables aleatorias, o lo que se denom ina variables
estocásticas, las que tienen u n a distribución de probabilidad.
E n algunos casos la distrib u ció n de X será aproxim adam ente
norm al, au n q u e esto no es necesario en el caso del análisis de
regresión. Lo que resulta esencial, sin em bargo, es el fo rm u lar
algunos su p u estos acerca de la distribució n c o n ju n ta de X i y el
fa cto r d e p e rtu rb ació n e { . Si tuviéram os a priori razones sólidas
p a ra especificar alguna d istribución p artic u la r, esto resu ltaría
suficiente, p e ro en la p rá ctica se carece siem pre d e ta l inform a­
ción. Con m u ch a frecuencia suponem os que X¡ y e¡ son estadís­
ticam en te independientes, su puesto que re su lta rá justificado si
las causas de Y om itidas son, 1) num erosas, aisladam ente sin
im portancia, y no m uy interrelacionadas, o 2) sin relación con X
en situaciones en las q u e predom inan uno o dos de los factores
om itidos. Si u n o n o está disp u esto a h acer ta l suposición en
algún caso p artic u la r, d eb erá tr a ta r de id en tificar los m ayores
factores p e rtu rb a d o re s que h ayan sido om itidos, introduciéndo­
los explícitam ente en la ecuación corno variables adicionales. En
el capítulo xix exam inarem os la regresión m últiple, en la q u e han
sido incluidos tales factores causales adicionales.
Una de las ventajas de la te o ría estad ística del análisis d e re ­
gresión co n siste en que está lo suficientem ente d esarro llad a com o
p a ra q ue tales supuestos acerca del com portam iento de los facto­
res de p ertu rb ació n resu lten explícitos. R esu ltará bien claro que
lo que hem os dicho acerca del com portam iento de las variables
om itidas se aplica igualm ente bien a todos los procedim ientos que
h asta aquí hem os exam inado. Si se encuentra, p o r ejem plo, u n a
diferencia estad ísticam en te significativa en m edias o proporcio­
nes, y si se desea a trib u ir u n a explicación causal a la variable in­
dependiente (p o r ejem plo, sexo) e n esta relación, h a b rá que supo­
n er tam bién que los factores om itidos no están sistem áticam ente
relacionados con la escala nom inal dicotom izada (p o r ejem plo
sexo). No es posible soslayar supuestos acerca de variables om i­
tid as cam biando sim plem ente el tip o del análisis y confiando
en que así d esaparecerá el problem a.
Ya se in dicó m ás a rrib a que p a ra las p ruebas de significación
hem os de su p o n er que las Y están distrib u id as norm alm ente
alred ed o r de cada valor de X . P ara las X estocásticas conven­
d rá tam b ién su p o n er q u e p a ra cad a valor fijo de Y las X están
asim ism o d istrib u id as norm alm ente. Decimos que la distribución
co n ju n ta de X y Y es u n a d istrib u ció n norm al bivariable, lo que
significa que hay dos variables, cad a u n a de las cuales está dis­
trib u id a alred ed o r de la o tra en fo rm a norm al. S em ejante d istri­
bución n o rm al bivariable tiene u n a ecuación m atem ática definida
y puede re p resen ta rse com o u n a superficie tridim ensional, com o
en la fig u ra XVII.3. La a ltu ra de la superficie en u n punto
dado (X , Y) es pro porcional al núm ero de casos en el m ism o. Así,
pues, se req u iere u n diagram a tridim ensional p a ra re p resen ta r
la d istrib u ció n co n ju n ta e n tre X y Y , del m ism o m odo que nece­
sitábam os dos dim ensiones p a ra re p re se n ta r la distribución de
frecuencia de la X sola. La form a exacta de esta figura, que se

Fig. XVII.3. La d istribución norm al bivariable. (Con autoriza­


ción de A. M. Mood, In tro d u ctio n to th e T heory o f Sta tistics,
McGraw-Hill Book Company, Inc., N ueva York, 1950,
fig. 41, p. 165.)
parece m ucho a u n casco de bom bero, depend erá de cuán cerca­
n am ente estén relacionadas las variables e n tre sí.
Si am bas variables se h a n expresado e n térm inos de unidades
de desviación están d a r, entonces, cu an to m ás relacionadas estén
las variables tan to m ás angosto será el casco. E n el caso extrem o,
en el que Y puede p redecirse exactam ente a p a rtir de X y, p o r
consiguiente, todos los p u n to s están exactam ente en la ecuación
de regresión, las desviaciones están d a r de las Y p ara cada X se­
rían cero, y el casco n o ten d ría grueso alguno. P or o tra p a rte , si
no ex istiera relación alguna en tre X y Y, la b ase del casco sería
m ás ap roxim adam ente circular. C ualquier plano perp en d icu lar al
p lan o X Y co rta ría la superficie en u n a curva norm al. E n ta n to
que u n p lano paralelo al plan o X Y c o rta rá el casco en u n a elipse.
La d istrib u ció n n orm al bivariable posee la propiedad de que la
reg resió n de Y a X sea lineal. P or lo tan to , si tenem os u n a dis­
trib u ció n n o rm al bivariable, sabem os que, si trazam os las m edias
de las Y p a ra cada X, el re su ltad o será u n a recta, No se sigue de
ahí, sin em bargo, que si la regresión es lineal, la distribución
co n ju n ta sea n ecesariam ente norm al bivariable.
E n el caso de las p ru e b as de significancia necesitarem os tam ­
bién su p o n er que las desviaciones está n d a r de las Y p a ra cada X
son las m ism as, independientem ente del v alo r d e X . E ste su­
p u esto se ex am inará en conexión con el te m a d e la correlación,
ya que ésta es esencialm ente u n a m edida de dispersión alrededor
de la lín ea d e regresión. De m om ento b asta, con todo, señalar
que si la d istrib u ció n co n ju n ta es n o rm al bivariable, las desvia-

Fig. XVII.4. Diagrama de dispersión y recta d e m ínim os


cuadrados.

ciones e s tá n d a r de las Y p a r a ca d a X serán de hecho to d as idén­


ticas. E sta p ro p ied a d de v arian cias iguales se designa com o
hom oscedasticidad y es análoga al su p u esto hecho en el análisis
de v arian cia d e que ai = c2 — • • • = <*&•
M ínim os cuadrados lineales. El m odelo de regresión que h e­
m os estad o exam inando es m ás bien sencillo en sus conceptos,
p ero no es p o r desgracia d irec tam en te ú til en su fo rm a teórica.
Es ra ro , en efecto, q u e tengam os suficientes casos p a ra exam inar
la d istrib u ció n d e las Y p a ra valores fijos sucesivos d e X . Con
m ayor frecu en cia encontram os que hay relativam ente pocos ca­
sos en los que las X sean idénticas o aproxim adam ente tales. Si
hacem os u n a gráfica de la d istrib u ció n de los casos alrededor
de los ejes d e las X y las Y e n la fo rm a convencional, en co n tra­
m os p o r lo re g u la r tina d ispersión d e p u n to s com o la que se
indica en la fig u ra XVII.4. Y si hacem os u n a gráfica de la d is­
trib u ció n de los p u n to s en e sta form a, obtenem os lo que se de­
signa com o esquedogram a o diag ram a de dispersión. El estu d ian ­
te h a d e aco stu m b rarse a d ib u ja r u n diagram a d e dispersión
an tes de p ro c ed er al análisis u lterio r. La m era inspección del
diagram a en cuestión, en efecto, puede acaso in d icar que no tiene
o b jeto seguir adelante. Así, p o r ejem plo, si los puntos aparecen
en el diagram a com o si estuvieran d istribuidos al azar, re su lta
claro que no existe relación, o sólo u n a relación m uy débil, en tre
las dos variables.
Una vez fijad as las m arcas en u n diagram a de dispersión, po­
dem os q u erer acercarnos a dichos p u n to s p o r m edio de alguna
clase de cu rva q ue sea la m ás adecuada. U na de las m an eras de
hacerlo es tra z a r u n a curva (en el p re sen te caso una re c ta ) p o r
inspección. Sin em bargo, existen p a ra ello m étodos m ás preci­
sos. Uno de éstos es el m étodo de los m ínim os cuadrados, que
se exam inará en la p re sen te sección. N uestro objetivo es ah o ra
algo d istin to del objetivo del análisis de regresión, en el que
trazábam os el cu rso d e la m edia d e las Y . Aquí, en efecto, que­
rem os apro x im am o s a cierto núm ero d e p untos p o r m edio de
u n a cu rva de m e jo r adaptación.
Con o b jeto de serv im o s de la teo ría de los m ínim os cu ad ra­
dos, hem os d e p o stu la r la fo rm a de la curva a utilizar en la adap­
tación d e los datos. E n el caso del análisis de regresión, la
fo rm a de la cu rva se h allaría p ro p iam en te d eterm in ad a p o r el
curso de las m edias, suponiendo que se dispone de datos re la ti­
vos a la población en tera. Vamos a to m a r u n a vez m ás la curva
m ás sim ple posible, la recta, com o curva d e nu estro s m ínim os
cuadrados. E sto significa que hem os d e a d a p ta r los datos a una
re c ta d e m e jo r aju ste, conform e al crite rio de los m ínim os
cuadrados, obteniendo u n a ecuación de la fo rm a :

Y = a + bX (X V II.2)

R esu ltará así que la a y la b obtenidas con este m étodo son las
apreciaciones insesgadas m ás eficaces d e los p arám etro s d e la
población, a y p, si la ecuación d e regresión es efectivam ente u n a
re cta y si suponem os : 1) M uestreo al azar, 2 j Que E ( e{) = 0, y
3) Que X{ y son estadísticam ente independientes.
N u estro criterio d e los m ínim os cuadrados com porta h a lla r la
única re c ta que posee la pro p ied ad de que la sum a de los cua­
d rados de las desviaciones de los valores reales de Y respecto de
dicha re c ta sea m ínim a. Así, p o r ejem plo, si trazam os líneas
verticales d e los p u n to s a la línea de los m ínim os cuadrados"^
y si elevam os al cuadrado dichas distancias y las sum am os, la
sum a re su ltan te será m en o r que la su m a correspondiente de cua­
d rad o s a cu alq u ier o tra re c ta posible (véase la figura X V II.5).
O bsérvese que son las distancias verticales, y no las perpendicu­
lares o las horizontales las que aquí se consideran. S ería posi­
ble m inim izar la sum a de los cuadrados de las distancias p er­
p endiculares (d esignada com o sum a ortogonal de los m ínim os
cu ad rad o s), p e ro las ecuaciones de ello resu ltan tes no son ni
con m u ch o ta n p rácticas. Y si se em plearan las distancias ho­
rizontales, la re c ta de m ínim os cu adrados re su lta n te p o d ría u ti­
lizarse p a ra ap re c ia r la regresión d e X a Y. E l lecto r h a de
convencerse p o r sí m ism o q u e m inim izar la su m a de cuadra­
dos de las d istan cias verticales n o m inim iza necesariam ente
la su m a de cu adrados de las d istancias horizontales. Así, pues,

Fi g . X V I I . 5 . E cuación de m ín im o s cuadrados, que m in im iza las


sum as de los cuadrados de las distancias verticales y estim a la
regresión de Y sobre X .

p odem os o b te n e r v arias líneas de m ínim os cu ad rad o s distin tas.


P ero éstas sólo coincidirán si todos los p u n to s q u ed an exacta­
m en te en u n a sola línea. R esulta asim ism o que, al m inim izar
la su m a d e los cu adrados de las distancias verticales, en c o n tra­
m os de hecho la re c ta q u e posee la p ro p ied a d d e q u e la sum a
de las d istan cias verticales positivas y negativas sea cero y la
desviación e stá n d a r de los p u n to s re sp ecto de aquélla sea m íni­
m a. E ste concepto d e la desviación e stá n d a r de las Y se exam i­
n a rá con m ay o r d etalle m ás adelante.
Con o b jeto d e o b te n e r la línea d e m ínim os cuadrados, pues,
necesitam os calcu lar la a y la & q u e d eterm in an la línea provista
de la p ro p ied a d deseada. E sta clase d e problem as p u ed e resol­
verse fácilm ente p o r m edio del cálculo y conduce a las siguientes
fó rm u las de cálculo d e a y 6.3
3 P a r a lo s e s t u d i a n te s f a m ilia r i z a d o s c o n e l c á lc u lo e l e m e n t a l v a m o s a
d e l i n e a r l a n a t u r a l e z a d e l a d e r iv a c ió n . C o m e n z a r e m o s c o n l a e c u a c ió n
y 4 = a + bXi + e{, e n l a q u e ei e s u n t é r m i n o r e s i d u a l q u e p u e d e s e r u t i ­
l iz a d o p a r a e s t i m a r e l r e s i d u a l t i d e l a e c u a c ió n d e r e g r e s i ó n . D e s e a m o s
m i n i m iz a r l a s u m a d e lo s c u a d r a d o s d e e s to s r e s id u a le s , e s d e c i r : l a c a n ­
t i d a d 2 e i a = 2 ( 3 ^ — 'O— c o n r e s p e c to a l a s d o s c a n t i d a d e s a y b,
N N
2 Y i - b 2 Xi
a = — ----------- ÜIÍ-------------------------------------= Y — b X (X V II.3)
N

2 (Xí - X K Y í - Y ) 2
i=X t= l
y 6 = ------ — ----------- -------- - = — -------- (X V II.4)
2 (Xt -X y * 2 x 42
i= l i= l

en do n d e x i = X i — X y y t = Yt — Y. O bsérvese que en estas ecua­


ciones a y b son las incógnitas, hallándose las o tra s cantidades
d eterm in ad as a p a r tir d e los datos. U na vez que se haya obtenido
b, a p u ed e calcularse fácilm ente a p a r tir d e la p rim e ra de las dos
fórm ulas. Podem os, pues, c e n tra r n u e s tra atención en el cálculo
de b. N _ _
E l n u m era d o r d e b co m p o rta la expresión 2 ( X { — X ) ( Y i — Y )
i—i
q u e se designa com o covariación de X y Y. E sta can tid ad es direc­
tam en te análoga a las sum as de cu adrados ta n to de X com o d e Y,
excepto que, en lu g ar d e elevar al cu ad rad o ( X — X ) o ( Y — Y) ,
tom am os el p ro d u cto de estos dos térm in o s. O btenem os en esta
fo rm a u n a m ed ida de cóm o X y Y v aría n ju n ta s, y d e ahí el nom ­
b re de covariación. Si dividim os e sta expresión e n tre N , o b ten e­
m os, p o r analogía, lo que se designa com o covariancia. V erem os
in m ed iatam en te que b p u ed e p o n erse igual a la razón de la co­
v ariancia a la variancia en X.
Si exam inam os m ás d e cerca la covariación de X y Y, vem os
que, a d iferen cia d e u n a sum a de cuadrados, la covariación puede
to m a r valores ta n to positivos com o negativos. Si X y Y se re la­
cionan positivam ente, entonces valores grandes de X se asocia­
rá n p o r lo re g u la r con valores grandes de Y. Así, pues, si X > X,
será p o r lo re g u lar cierto que Y > Y. Y asim ism o, en el caso de
u n a relación positiva, si X < X, ten d rem o s generalm ente Y < Y.
P o r consiguiente, el p ro d u c to de ( X — X ) y ( Y — Y ) será n o rm al­
m en te positivo, y la sum a de estos p ro d u cto s será asim ism o posi­
tiva. Y en fo rm a análoga, si X y Y se relacionan negativam ente,
esp eraríam o s que, si X > X, entonces Y será m en o r q u e Y, y la
su m a d e p ro d u cto s re su lta n te será negativa. Si no existe relación,
entonces ap ro x im adam ente la m ita d d e los p ro d u cto s serán posi­
tivos y la o tra m ita d negativos, ya que X y Y v ariarán indepen-
a l a s q u e a q u í s e t r a t a c o m o d e s c o n o c id a s . T o m a m o s d e r iv a tiv o s p a r c i a le s
c o n r e s p e c to a a y 6 ; l a s h a c e m o s ig u a l a c e r o , y r e s o lv e m o s l a s d o s e c u a ­
c io n e s r e s u l t a n t e s ( a l a s q u e s e d e n o m in a ecuaciones normales ) p a r a a y b.
E s t e m i s m o p r o c e d i m i e n t o e s d e a p lic a c ió n a l c a s o m u l t i v a r i a d o .
dientem ente. E n este caso, b se rá cero, o vecino de cero. P or lo
tan to , cu an to m ayor sea el valor num érico de la relación, inde­
p en d ien tem en te de la dirección, ta n to m ayor será el valor num é­
rico de la covariación. Como h ab rem o s de v er en breve, la co­
variación fig u ra tam bién en el n u m era d o r del coeficiente de
correlación, que es n u e stra m edida del grado de asociación. En
el caso de b, tom am os la covariación y la dividim os e n tre la sum a
de los cuad rados en X , con o b jeto d e o b ten er n u e s tra estim a­
ción de la p en d ien te de la ecuación de regresión.
E s m ás conveniente servirse p a ra la covariación de u n a fórm u­
la que es d irectam en te análoga a la fórm ula de cálculo de la sum a
de los cu ad rad os y puede derivarse en fo rm a sim ilar. Podem os
escrib ir la fó rm u la de cálculo de b com o sig u e :

n z x y - o x x sr)
N 2 X 2 - ( 2 X )2

E n la ecuación (X V II.5), ta n to el n u m era d o r com o el denom ina­


d o r se h a n m ultiplicado p o r N, con o b jeto d e re d o n d ear los erro ­
res debidos a la división y con o b jeto de facilitar el cálculo con
u n a calcu lad o ra.4
Problem a. S upóngase que tenem os los datos del cu ad ro X V II.l,
en donde X re p resen ta el p o rc en taje de negros en las grandes
ciudades del M edio Oeste, y Y indica la diferencia e n tre las m edia­
n as de los ingresos de los blancos y los negros, com o m edida de
d iscrim inación económ ica.6

Cuadro X V II.l. Datos para u n problem a de correlación

Porcentaje Diferencia Porcentaje Diferencia


de negros de ingresos de negros de ingresos
X Y X Y

2.13 $809 4.62 $859


2.52 763 5.19 228
11.86 612 6.43 897
2.55 492 6.70 867
2.87 679 1.53 513
4.23 • 635 1.87 335
10.38 868

4 En esta y las fórmulas posteriores hemos prescindido de los subíndi­


ces, ya que se opera siempre la suma total de los casos, del cuadro N.
5 Aunque la palabra "negro" puede resultar ofensiva para algunos lecto­
res, resulta necesario mantener esta terminología al referirse a los datos del
censo, como contraste con otros datos hipotéticos o los obtenidos de otras
fuentes.
A p a r tir de los dato s podem os calcu lar cinco sum as que, ju n to
con N , son to d o lo que necesitam os p a ra tr a ta r los p ro b lem as de
regresión y correlación. Todas estas su m as m enos u n a se em ­
p learán en los cálculos d e a y b. Los cálculos pueden resu m irse
com o sigue:
N = 13 2 Y = 8 557
2 X = 62.88 2 Y 2 = 6 192 505
2 Z 2 = 432.2768 H X Y = 43 943.32
Aquí la ú n ica ca n tid a d nueva es 2X Y . Si ponem os estos valores
en las fó rm u las d e a y b, tenem os a h o ra :
W 2 X Y -(2 X )(2 Y )
W2 X 2 - ( 2 X )2
13(43 943.32) -( 6 2 .8 8 )( 8 557) _ 33 199.0
13(432.2768) - (62.88)® 1 665.7 ~ 19-931
2 Y -& 2 X
a = ------------------
N
8 557 — (19.931)(62.88)
= ------------:---------1:------- 1 = 561.83
13
P o r lo tanto, la ecuación lineal re su lta n te es :

Y P = a + b X = 561.83 + 19.931X

en donde hem os utilizado Y P p a ra in d ic a r que los valores de Y


se h a n estim ado a p a r tir de u n a ecuación d e m ínim os cuadrados.
Como ya se indicó an terio rm en te, las a y b obtenidas p o r este
m éto d o son las estim aciones insesgadas m ás eficaces d e a y p,
o sea los coeficientes de regresión reales a condición d e que el
fa c to r de p ertu rb ació n e» en la ecuación Y i = a + pXj + gj tenga
u n v alo r esp erad o d e cero n o relacionado con X , y siem pre, p o r
o tra p a rte , de que tengam os u n a m u e stra al azar de la población
q ue estudiam os. P o r consiguiente, la lín ea de m ínim os cu a d ra­
dos será la m e jo r apreciación d e la v erd ad era regresión, si la
ecuación d e reg resión es efectivam ente lineal.
La ecuación de los m ínim os cuadrados posee asim ism o la p ro ­
p ied ad d e p a s a r p o r el p u n to (X ,Y ), que re p re se n ta las m edias
d e X y d e Y. E sto p u ed e verse en la ecuación (X V II.3). Ya que

a = Y — bX
te n e m o s : Y = a + bX
lo que indica que estos valores de X y Y satisfacen la ecuación.
P o r consiguiente, el p u n to (X , Y ) queda exactam ente sobre la
línea.
E n el p ro b lem a an terio r, si sabem os el valor de X (p o rcen taje
de negros) p a ra cualquier ciudad d ad a del M edio Oeste, n u estra
m ejo r estim ación del valor de Y sería aquel valor de Y que co-

Porciento de nearos

Fig. X V II.6. Diagrama de dispersión y recta de m ín im o s cuadra­


dos para los datos del cuadro X V I I A.

rresp o n d e en la ecuación de los m ínim os cuadrados a la X dada.


Como q u iera que las m arcas d e discrim inación indican diferen­
cias (en d ó lares) entre los ingresos (en m edianas) de los blancos
y los negros, vem os que u n au m ento del 1 p o r ciento de los ne­
gros co rresp o nde a u n a diferencia de $ 19.93 en dichos ingresos.
En la fig u ra X V II.6 se h an trazad o u n diagram a de dispersión
y la ecuación de los m ínim os cuadrados. Con objeto de ilu stra r
el em pleo de sem ejante ecuación d e predicción, si supiéram os
que h ab ía u n 8 p o r ciento de negros en u n a ciudad determ inada,
la diferencia estim ativa del ingreso m ediano sería:

Y p = a + b( 8) = 561.83 + (19.931 ) ( 8) = f 721.28

Vemos en la fig u ra que se h a b ría obtenido aproxim adam ente el


m ism o re su ltad o con la gráfica. Observem os de p aso que, hacien­
do X = 8 y resolviendo en relación con Y, hem os localizado un
segundo p u n to d e la línea, que puede utilizarse a continuación
con o bjeto de tra z a r la línea en el diagram a de dispersión.

XVII.2. Correlación
Supongam os a p a r tir de ah o ra que X es estocástica, y n o so­
m etid a p o r tan to al control del investigador. No sólo deseam os
conocer la fo rm a o la n atu raleza de la relación e n tre X y Y, de
m odo que u n a de las varia­
bles p u ed a p re d ecirse a p ar­
tir de la o tra, sino que es
necesario al p ro p io tiem po
conocer el grado o fuerza de
la relación. E s obvio que si la
relación es m uy débil, no tie­
n e o b jeto tra ta r de p red ecir
Y a p a r tir de X . Los soció­
logos tien en a m en u do in te­
rés an te todo en d escu b rir
cuáles de u n g ran n ú m ero de
variables se relacionan m ás
de cerca con u n a variable
dependiente determ inada. En
los estudios de exploración
de esta clase, el análisis de
S in relación
regresión rev iste im p o rtan cia
secundaria. A m ed ida que
u n a ciencia va m ad u ran d o y
que se d escubren variables
im p o rtan tes, la atención pue­ (*>
de c e n trarse en m étodos de
p redicción exacta. Algunos
estadígrafos son del p arece r
que en conjunto se h a p re s­ Relación negativa débil x
tado dem asiada atención a
F ig. XVII.7. Diagrama de dispersión
la correlación y casi ningu­ que muestra las diferentes fuerzas y
n a al análisis de regresión. direcciones de las relaciones entre
Que esto sea así o que no lo X y Y.
sea depende, p o r supuesto,
del estad o del conocim iento en la ciencia considerada.
El coeficiente de correlación r, que vam os a exam inar en esta
sección, fuie in tro d u cid o p o r K arl P earson y se designa a m enudo
com o correlación m om ento-producto, con o b jeto de distinguirla
de o tra s m edidas de asociación. E ste coeficiente m ide la canti­
d ad de dispersión a lre d ed o r de la ecuación lineal de los m ínim os
cuad rad o s. H ay u n coeficiente correspondiente de población rh o
(p ), que m ide la b o n d ad del a ju ste a la verd ad era ecuación de
regresión. O btenem os u n a estim ación r d e dicho p arám etro mi*
diendo las desviaciones r e s p e t o de’ la lín ea calculada p o r m edio
de los m ínim os cuadrados.
Como q u iera q u e la ecuación d e regresión re p re se n ta el curso
d e las m edias de las Y p a ra u n as X dadas, sería tam b ién posible
m ed ir la d isp ersión resp ecto d e esa línea tom ando u n a desviación
e stá n d a r d e la m ism a.6 S in em bargo, los investigadores de la
m ayoría d e los cam pos de aplicación se h an aco stu m b rad o al coe­
ficiente de co rrelació n ; es probable, con todo, que el coeficiente
de correlación se m antenga. Posee la v en taja de se r de fácil in ­
terp retació n , v su re co rrid o va de — 1.0 a 1 .0. hecho que re su lta
atractiv o p a r a la m ayoría de los p rácticos. Según verem os, en
efecto, la relación e n tre el coeficiente de correlación y la des­
viación e stá n d a r respecto de la lín ea d e los m ínim os cuadrados
es m uy sencilla, hecho que p u ed e u tilizarse p a ra p ro p o rcio n ar
u n a in terp re tació n de r.
Se acaba de in d icar que r tiene u n lím ite su p erio r de 1.0. Si
todos los p u n to s se hallan, exactam ente sobre la x e c ta . r será OT
o — LO. según q ue l a relación sea positiva ó negativa. Y si los
p u n to s están disper^ados_^L azaj^.x^firá cero. C uanto m e j o r s ^
el a ju s te /ta n to m ay o r será la m ag n itu d de r. Es lo que se indica
en la fig u ra XVII.7.
O bsérvese que r es u n a m edida d e relación lineal, ya que es una
m ed id a de la b o n d ad de a ju ste d e la línea, d e los m ínim os cua­
drados. El lecto r n o debe caer en el e rro r de su p o n er que si
r = 0 (o srQ = 0 - ) ;n o c is t e relación alguna,. E n efecto, si n o hay
relación, síguese que r será aproxim adam ente cero y h a b rá una
dispersión de p u n to s al azar. Sin em bargo, puede h a b e r u n a rela­
ción p erfec ta m e n te curvilínea y, con todo, se r r cero, indicando
que n o se d a recta alguna que satisfaga los datos. É ste es el caso
en la fig u ra X V II.8, p o r ejem plo. P or lo tan to , si el investigador
en cu en tra u n a correlación d e cero, h a b rá d e p recav erse c o n tra la
deducción de q u e n o existe relación e n tre las variables. P o r lo re­
gular, la inspección del diagram a d e dispersión in d icará si hay
o no relación d e hecho, o si la relación es suficientem ente no li­
neal p a ra p ro d u c ir u n a correlación de cero. E n la m ayoría de
los pro b lem as sociológicos, las relaciones pueden aproxim arse
razonablem ente p o r m edio de re ctas. Sin em bargo, esto no signi­
fica que n o se d eb a e sta r b a sta n te a le rta co n tra excepciones even­
tuales.
H asta el p re sen te no hem os definido todavía el coeficiente de
correlación, p e ro podem os h ac erlo fácilm ente en los térm inos
d e la fó rm u la:

8 La naturaleza exacta de semejante medida se examinará más adelante.


De momento podemos señalar simplemente que representa una extensión del
concepto de la desviación estándar, en la que la media de las Y ya no se
toma como fija, sino que se considera función de X.
V[2(X-X)2][2(y-D2] VtS^XSy2)
U o ralm en te: el coeficiente de correlación es la razón de la co­
variación a la raíz cu a d rad a del p ro d u c to de la variación de X
y la variación de Y. D ividiendo el n u m era d o r y el denom inador
e n tre N y poniendo esta cantidad com o JV2 b a jo el radical, vem os

Fig. X V II.8. Diagrama de dispersión de una relación no lineal


perfecta, en que r = 0.

que r p u ed e tam bién definirse com o la razón d e la covariancia al


p ro d u cto de las desviaciones e stá n d a r d e X y Y. lia covariancia
es la medida, d éla"ygffácigñ conju n ta de X y Y, p ero su m agnitud
depende d e l a can tid ad to ta l de v a ria b ilid a d d é las dos variables.
Como q u iera que el v alo r num érico de la covariancia pu ed e ser
considerablem ente m ayor que la unidad, n o re su lta conveniente
em plearlo d irectam en te com o m edida d e asociación. E n lugar de
ello, estan d árizam os dividiendo e n tre el p ro d u c to d e las dos des­
viaciones están d ar, con lo que obtenem os u n a m edida que varía
e n tre — 1.0 y 1 .0.
Y a vim os que la covariancia será cero siem pre que X y Y no
estén relacionadas. P uede d em o strarse tam b ién fácilm ente que
el lím ite su p erio r de r es la unidad. Tom em os, p o r ejem plo, el
caso en q u e b es positiva y todos los p u n to s se en cu en tran exac­
tam en te so b re la recta. E n ta l caso, p a ra cad a Y podem os escrib ir
Y = a + b X . Y com o q u iera q u e el p u n to ( X , Y ) se en cu en tra tam ­
bién so b re la recta, tenem os Y = a + bX. P or consiguiente, p a ra
todos los p u n to s sobre la re c ta te n e m o s :

Y - Y = ( a + b X ) - ( a + bX) = b (X - X )

De d o n d e: 2¡(X - X ) ( Y - Y ) = - X)*
y 2 ( y - r ) 2 = b s2 ( X - X )2

La inspección del n u m era d o r y el denom inador d e r in d ica ah o ra


que, en estas condiciones, r = 1.0. Y en fo rm a análoga, puede
d em o strarse q u e si todos los p u n to s se en c u en tran exactam ente
so b re u n a lín ea d e pen d ien te negativa, la r re su lta n te se rá — 1 .0.
Conviene o b serv ar asim ism o la relación e n tre el coeficiente de
correlación y las pendientes de las dos ecuaciones de los m ínim os
cuadrados. Si hacem os que byx sea la pendiente de la ecuación
de m ínim os cu adrados estim ando la regresión de Y sobre X, y
dejam os que bmy indique la p en d ien te de la estim ación de la re ­
gresión de X so b re Y, tenem os, p o r sim etría, q ue:

t _ 2 (X -X )(Y -Y )
®ccy — —
2 ( Y — Y )2
en donde X = axy + bxyY

Así, pues, r tien e el m ism o n u m era d o r que las dos b. Si éstas son
cero, síguese que r h a de se r tam b ién cero y viceversa.
P ara sum as de cuadrados en X y Y dadas, el valor de byx (o de
b ^ ) será p ro p orcional a r. E sto p arece ría conducir a la conclu­
sión de que la fuerza de la relación sea proporcional a la pendien­
te de la línea de los m ínim os cuadrados. Sin em bargo, esto sólo
será así si el denom inador p erm an ece fijo. Así, pues, b es u n a
función n o sólo de la fuerza de la relación, sino tam b ién de las
desviaciones e s tá n d a r.7 Si h ay b a sta n te variabilidad en X , en re ­
lación con Y, el v alor de b será relativ am en te pequeño, indicando
que se re q u ie re u n gran cam bio de X p a ra p ro d u c ir u n cam bio
m o derado de Y. Como lo verem os después, los valores nu m é­
ricos de las b dependen, p o r consiguiente, de la m ag n itu d de las
unidades de m edida.
El valor de r se h a estan d a rizad o d e m odo que sea h a sta cier­
to pu n to in d ependiente de las m agnitudes relativas d e las desvia­
ciones e s tá n d a r en X y Y. S ería en efecto desdichado que no
fu e ra así, ya que difícilm ente deseam os u n a m ed id a que v aria ra
7 Excepto en los casos en que ello pudiera dar lugar a confusión, seguire­
mos sirviéndonos de b sin subíndice para representar & .
según que escogiéram os com o u n id ad m o n etaria dólares o centa­
vos. Se o b serv ará en las fórm ulas de r y las b que r2 pu ed e ex­
p re sa rse en térm in o s d e estas últim as. Así, pu es:

[S x y ]2
= (X V IL ?)

E l le c to r h a rá bien en verificar que cuando r es 1.0 (o — 1.0),


b ym= l/b zy, lo que significa que las dos ecuaciones d e m ínim os
cu ad rad o s coinciden. P o r lo regular, a m edida que r se acerca a
cero, el ángulo e n tre las dos líneas se va haciendo cada vez m a­
yor, h a s ta que, r = 0, las líneas se h acen perp endiculares.
F inalm ente, podem os in tro d u c ir u n a fó rm u la de cálculo p a ra
r que co m p o rta las cinco sum as prev iam en te obtenidas en co­
nexión con los cálculos de a y b. La fó rm u la e s :

________ (X V II.8)
V tW S X 2 - C£X)2][jV2Y2 - (2 Y )2]

E l n u m erad o r, p o r supuesto, h a sido ya calculado, lo m ism o que


u n a p a rte del denom inador. Así, pues, la correlación e n tre el
p o rc e n ta je de negros y el índice de discrim inación es:

13(43 943.32) - (62.88)(8 557)


r = —---------------------------- ---------------------------------------------- -
y[13(432.2768) _ (62.88 )2][ 13(6192 505) - (8 557)2]

33 199
■= .301
110120

Conviene o b servar que se pueden ad icio n ar valores ta n to a X


com o a Y, o su straerlo s, sin afectar el v alo r del coeficiente de
correlación. De fo rm a análoga, r no se v erá afectado p o r u n cam ­
b io de escala en cu alq u iera d e las variables. E sto equivale a
decir, d e hecho, que la correlación e n tre el ingreso y la educación
es la m ism a, ya sea que se m ida el ingreso e n dólares o en cen­
tavos. Sin em bargo, au n q u e el coeficiente de correlación sea
in v arian te en tran sform aciones d e e s ta clase, la ecuación de los
m ínim os cuadrados, e n cam bio, n o lo es. E n efecto, la adición
o su stracció n de valores afecta el v alo r n um érico de a. Y un
cam bio de escala afecta la pen d ien te de la línea. Así, p o r ejem plo,
si cad a X se divide e n tre 10 m an ten ien d o a la Y fija, la b re su lta n ­
te se v e rá m u ltip licad a p o r 10. El lecto r h a rá bien en verificar
q u e estas p ro p ied ad es se m antienen, exam inando las fórm ulas
d e r, a y b. E stos hechos pu ed en u tilizarse con o b jeto de simpli-
ficar los cálculos. Así, p o r ejem plo, si X co m p o rta u n núm ero
m uy g ran d e o u n decim al m uy pequeño, u n cam bio d e escala pue­
de re d u cir el riesgo de e rro res d e cálculo. O bien, si la variable
X consta d e valores tales com o 1 207, 1 409, 1 949 y 1 568, se reco­
m en d ará p ro b ab lem en te su s tra e r 1 000 de cada m arca. Algunas
ru tin as d e cálculo requieren q u e todos los valores sean positivos.

(b)

X
Fig. XVII.9. Diagramas de dispersión que m uestran los efectos
posibles de valores extrem os de X .
P or lo tan to , al calcu lar r p u ed e re s u lta r necesario a ñ a d ir a cada
valor u n n ú m ero ligeram ente su p erio r a la m arc a negativa m ayor.
H ay que te n e r presente, e n este pu n to , o tro hecho relativo a la
correlación. Y es que, com o q u iera que esta m ed id a com porta
variancias y covariancias a la vez, se ve sum am ente afectada por
unos pocos valores extrem os de cualq u iera de las dos variables.
P o r o tra p a rte , la m agnitud d e r depende del grado de variabili­
d ad general d e la variable independiente. Es lo que ilu stra la
figura XVII.9. E n la figura XVII.9a, el efecto de u n o o dos valo­
res extrem os p ro d u ce u n a correlación m oderadam ente alta cuan­
do no se d a nin g una en los casos re sta n te s. E n la fig u ra XVII.9&,
tenem os u n a relación lineal m o d erad am en te elevada, excepto en
cu anto al hecho d e que los casos extrem os n o quedan en línea
re cta con los dem ás. E n este ú ltim o caso tenem os probablem en­
te u n ejem plo de relación n o lineal. El diagram a de dispersión
re s u lta rá siem pre ú til p a ra in d icar la n atu ra leza de la situación
en u n p ro b lem a determ inado. Veam os ah o ra lo que pu ed e h a­
cerse cu an d o se p re sen ta u n a u o tra de estas situaciones.
La fig u ra X V II.9a ilu stra el p u n to an terio rm en te señalado de
que la m ag n itu d del coeficiente d e correlación depende del m ar-
Y

X
Fig. X V II.10. Diagrama d e dispersión que no m u estra relación
alguna den tro de u n recorrido lim itado de variación de X, pero
con relación positiva sobre el recorrido total.
gen de v ariab ilid ad de am b as variables. Si h u b iera h ab id o u n
n ú m ero m ayor d e casos extrem os, la d istrib u ció n re su lta n te h a ­
b ría p odido se r com o en la fig u ra XVII.10. E n este caso, la co­
rrelació n c o n ju n ta p o d ría se r alta, p e ro en el in te rio r d e cual­
q u ier re co rrid o lim itad o de las X la correlación puede se r vecina
d e cero. E sto in d ica d e hecho que hay insuficiente v ariabilidad de
X en el in te rio r d e dicho re co rrid o lim itad o p a ra c o n tra rre sta r
los efectos de las nu m ero sas variables incontroladas. E n reali­
dad, X e s tá siendo m a n ten id a casi constante. P or consiguiente, si
el diag ram a d e d ispersión re su lta se r sem ejan te al de la figura
XVII.9íz, h a b ría q ue tr a ta r de ex ten d er el re co rrid o de variabili­
d ad de X h allan d o m ás casos extrem os.
Si la extensión del re c o rrid o d e variab ilid ad no re su lta p rá c ti­
cam en te posible, o si el in te ré s del investigador se ce n tra an te
to d o en casos m enos extrem os, será ta l vez m ás razonable p re s­
c in d ir to talm e n te e n el análisis de los casos extrem os. Así, p o r
ejem plo, supongam os que X es el tam añ o d e las ciudades y que
la ciu d ad de N ueva Y ork fig u ra en la m u estra. A m enos que haya
u n g ra n n ú m ero de ciudades de tam año correspondiente, y n o las
hay, p u ed e re s u lta r necesario lim ita r la atención a ciudades de
m enos de 500 000 hab itan tes. E n algunos casos p o d rá parecer
indicado calcu lar r ta n to con los casos extrem os com o sin ellos.
Es obvio que la decisión dependerá de la naturaleza del problem a
y del in terés del sociólogo. El lecto r h a de p ercatarse bien del
hecho de que u n a o dos m arcas extrem as pueden eventualm ente
ejercer u n efecto m uy pro n u n ciad o sobre el tam añ o de r, hecho
que e n alguna fo rm a debe tenerse siem pre en cuenta. De ahí que
el reco rrid o d e v ariabilidad debiera consignarse ju n tam en te con
los coeficientes d e correlación. E sto constituye o tra ilustración
del p u n to im p o rtan te relativo a q u e u n a sim ple m edida de resu­
m en, p o r m uy su p erio r que sea resp ecto de o tras, pu ed e ser a
m enudo d eso rien tadora.
Si los dato s se p re se n ta n com o en la figura XVII.9&, sospecha­
rem os, p o r supuesto, que n o existe linealidad. Aquí tam bién,
pues, h a b ría que obtener, de ser posible, m ás casos extrem os. Si
éstos son sólo u n o o dos, re su lta rá tal vez p referib le excluirlos
del análisis. Las situaciones de esta índole ilu stra n el hecho de
que, al in te rio r d e cierto reco rrid o u n a relación de variación pue­
de se r ap roxim adam ente lineal, resu ltan d o en cambio- inapropiada
si se extiende el m odelo lineal. De ahí, pues, que se im ponga
p ru d en cia en cu an to a generalizar m ás allá de los lím ites d e los
datos. Un en u n ciado p o r el estilo de “den tro los lím ites de
---------y--------- la relación re su lta se r aproxim adam ente lineal”
será m ás apropiado.
Comparación en tre correlaciones y declives. Las observaciones
an terio res acerca d e la sensibilidad d e los coeficientes de corre­
lación an te las diferencias en la can tid ad de variación de X , re ­
lativ a a la disp ersión p ro d u c id a p o r facto res extraños, ap u n ta
u no d e los pro b lem as fundam entales con cualquier m edida del
grado de asociación. N u e stra atención debe e sta r c e n trad a en la
n atu raleza d e la ley que relaciona X y Y , de si la relación es o no
es lineal, y, si lo es, en la m agnitud del declive. Al co m p arar los
resu ltad o s d e dos estudios o de varias subm uestras, debem os re­
conocer que es p erfectam ente posible o b ten er diferencias sustan­
ciales e n tre los coeficientes de correlación, aun cuando se apli­
quen las m ism as leyes (m edidas p o r los declives). E s decir, que
las r pueden d ife rir aunque no- los declives, lo que p u ed e se r debi­
do ú n icam en te a diferencias en la can tid ad d e variación en la
variable in d ependiente X , o a diferencias en la am p litu d con que
h an sido som etidos a control otros factores extraños que p ro d u ­
cen variaciones aleatorias en Y . Como verem os al tr a ta r del análi­
sis de la covariancia, al b u sca r la interacción estam os en efecto
buscando u n a d iferencia en tre declives, y no correlaciones. E n el
capítulo siguiente estudiarem os brevem ente las pru eb as p a ra en­
co n tra r diferencias e n tre correlaciones, pero el lecto r debe e sta r
prevenido acerca del peligro de que tales diferencias, u n a vez
encontradas, p u ed an se r fácilm ente m al in terp re tad as.
Puede ser ú til concebir u n coeficiente de correlación r ^ com o
función de dos tipos variables, con el declive bw y u n facto r sx/ s v
abarcando la razón de las dos desviaciones e stán d a r que se apli­
can a la m u estra o su b m u estra p a rtic u la r que nos ocupa. A sí:

El valor num érico de byx es, p o r supuesto, determ inado no sólo


p o r la ley que une a X con Y , sino tam b ién p o r la elección que
el investigador hace e n tre las unidades de m edida. El facto r
s j s v es tam bién u n a función de tales unidades, las que son por
sup u esto conocidas an tes que los datos de la población o la m ues­
tra. Pero la razón sx/ s y será tam bién única p a ra cada m u estra
(y o J o y p a ra cada población), y se utiliza p a ra ob ten er la m e­
dida estandarizada r ^ . Un coeficiente de correlación tiene la ven­
ta ja de ser estandarizado, independizándolo así de la elección
que se haga de unidades de m edida, p ero lam entablem ente tie­
ne que se r estandarizado en función de algo que re su lta ser una
can tid ad no invariable e n relación con m u estras o poblaciones.
E sta circu n stan cia debe s e r claram ente entendida, debiendo ser
señalados siem pre los declives n o estandarizados, de m odo que
las réplicas no resu lten desorientadoras a este respecto.
Planteando el asu n to en fo rm a algo diferente, podem os recono­
cer que en la inferencia y estim ación estadísticas se da una
je ra rq u ía de m etas científicas. Probam os buscando p rim ero la
significancia, p a ra d ecid ir si se h a en co n trad o u n a relación que
no p u ed a ser fácilm ente explicable p o r m ecanism os casuales.
O bservam os a este resp ecto que el nivel de probabilidad o signi­
ficación es función del grado de relación y del tam añ o de la
m u estra. Si ésta es m uy grande podrem os o b ten er u n pequeño
nivel de p robabilidad, incluso con una relación m uy débil y tal
vez sin im p o rtancia p ráctica. Pero habiendo encontrado al m e­
nos u n a relación m oderadam ente fuerte, se nos plantea de nuevo
u n a ta re a m ás im p o rtan te, a sab e r: la de estim ar la n aturaleza
de tal relación, m edida p o r u n coeficiente d e regresión en el caso
lineal. Cuando las correlaciones son m oderadam ente fuertes, en
lugar de co m p arar estas r directam ente, estim am os los declives,
y los com param os en n u estras pru eb as de interacción. El p ro ­
ceso p u ed e p re sen tarse d iagram áticam ente así:

P
donde la d irección d e las flechas re p re se n ta el “c u rso causal”
(p o r ejem p lo : pro b ab ilid ad es influidas p o r m agnitudes de rela­
ciones y tam añ o s de m u e stra s), lo q u e va frecu e n te m e n te en di­
rección o p u esta a la que siguen los p aso s del proced im ien to em ­
p lead o en u n análisis estadístico. E l diagram a in d ica que p es
u n a función d e dos variables, u n a d e las cuales (e l tam añ o de la
m u e stra ) no es d e in teré s in h eren te, y que la correlación es
asim ism o u n a fu n ció n de dos facto res, u n o de los cuales { s j s v),
n o es d e in teré s. N u e stro objetivo consiste en llevar el análisis
h acia a rrib a en el diagram a h a s ta la estim ación d e los coeficien­
tes de regresión, en lu g ar de deten ern o s en los niveles d e p ro b a­
bilidad, o fo rm u lan d o declaraciones en relación con los coeficien­
tes de correlación.
R esulta q u e en cu an tas ocasiones se m an eja n m edidas ordina­
les de asociación, tales com o las q u e se v erán en el cap ítu lo si­
guiente, d esap arece la distinción e n tre declives y m edidas de
asociación. E n el caso d e dicotom ías, sin em bargo, p u ed e dem os­
tra rs e que si se sigue la regla d e colocar la variable independien­
te al trav és d e la p a rte a lta del cuadro, y se co m p u tan las p ro ­
porciones (o p o rc en tajes) de m odo que sum en 1.00 (o 100) hacia
abajo, co m p aran d o a continuación de izquierda a derecha, la
d iferen cia de p ro porciones re su ltan te puede se r considerada
com o u n caso especial del declive byx, en ta n to q u e -<j> p asa a ser
u n caso especial de rmy. Si se co m p u tan las pro p o rcio n es en la
o tra dirección, la diferencia de proporciones p asa a s e r u n caso
especial de b ^ , d e m odo que ten d re m o s u n a ju stificació n m ás
p a ra seguir la regla em pírica p rev iam en te sugerida. Pueden ob­
ten erse estos re su ltad o s p o r el sim ple procedim iento de asignar
pu n tu acio n es d e 0 y 1 ta n to a X com o a Y , utilizan d o a continua­
ción las fó rm u las básicas p a ra el cálculo de rxy y byw.
* Cálculos a p a rtir de datos agrupados. Si el n ú m ero de casos es
gran d e o si no' se dispone de u n a calculado ra m oderna, el cálculo
de los coeficientes de correlación p u ed e re s u lta r ex trem adam ente
laborioso. E n tal caso será ta l vez m ás indicado servirse de d a­
tos agrupados, au n a riesgo de in tro d u c ir eventualm ente algunas
im precisiones. E n principio, estos cálculos de dato s agrupados
no son m ás que aplicaciones abreviadas de los procedim ientos
em pleados p a ra o b te n e r la m edia y la desviación están d a r. Tene­
m os ah ora dos variables que h a n d e clasificarse cruzadam ente
com o en el c u a d ro XVII.2. H em os de an tic ip a r u n a m edia p a ra
cad a variable, to m an d o desviaciones graduales de cada u n a de
las m edias y sirviéndonos de facto res de corrección en cada caso.
Además, n ecesitarem os u n térm in o d e p ro d u c to cruzado equiva­
len te a 2x>\ Como que las desviaciones ta n to de X com o de Y
se to m ará n de las m edias adivinadas respectivas, necesitam os
serv im o s de u n fa cto r de corrección a s u s tra e r del térm in o del
p ro d u c to cru zad o apreciado. Podem os m odificar así las fórm ulas
de cálculo de r y b de m odo que se tenga en cu en ta que nos he­
m os servido d e m edias adivinadas en lugar de las correctas.
Se re co rd a rá que u n a de las fórm ulas de s sirviéndose de datos
agrupados era (d e ja n d o de lado los su b ín d ices):

5 = ^ - V ^ 2 / d '2 - ( 2 / d ' ) 2

Como q u iera que tenem os ah o ra dos variables, X y Y , nos servi­


rem os de subíndices con objeto de distin g u ir las frecuencias y
las desviaciones graduales d e X (e sto es, fx y d'x) de las de Y (o
sea, f v y d'v). Al calcular el térm ino del pro d u cto cruzado, nece­
sitam os o b ten er tam bién las frecuencias d e cada subcasilla.
E stas últim as serán p o r lo regular m ás pequeñas que fa o Así,
pues, si bien hay 24 casos en la categoría de 40.0 a 49.9 p a ra la
variable X y 30 casos en la categoría de 15.0 a 19.9 de Y, sólo hay
6 casos en la subcasilla correspondiente a am bas categorías. El
lecto r h a de convencerse p o r sí m ism o d e que la fó rm u la de
cálculo de r (ecuación X V II.8) puede m odificarse com o sigue:

N V f x y d ’w d ' v - a f x d ’* ) ( ? f v d ’v ) V I I 9

VüiVS/A2- (2 ¿ A )»][ ATSMV - ( ^ f y d ’ y r - ]


Y en fo rm a análoga, la fó rm u la de b se convierte e n :

_ N '2fxvd'xd'y - C2fxd'x )('2f1/d'v) iv


(X V II.10)
N V fwd ' / - ( 2 fxd'x )*

en donde i„ e ia re p resen ta n las am plitudes de intervalos de y y


X respectivam ente. El valor d e a p u ed e calcularse ah o ra a p a rtir
de la ecuación:

2 Y -6 2 X
a — -------------------— =
y —bX
N

en donde X y Y pueden obtenerse sirviéndonos de la fórm ula


usual de los datos agrupados.
Calculemos ah o ra los valores en esos coeficientes en relación
con los datos de 150 d istrito s del S u r consignados en el cuadro
XVII.2. Tom arem os como variable dependiente Y, o sea el p o r­
cen taje de m ujeres de la clase trab a jad o ra, siendo la variable
independiente el p o rcentaje de la población clasificada como
granjas rurales. C onvendrá servirse de u n a fórm ula de cálculo
com o la que se d a en el cuadro XVII.3. E n ésta, los lím ites de
las clases y los p u n to s m edios se indican ho rizo n talm en te en la
p a rte su p e rio r (p a ra Y ) y de a rrib a abajo, a m an o izquierda,
p a ra X . O bsérvese el á re a c e rra d a e n el in te rio r del cuadro. Se
verá q ue h ay tre s n úm eros en cad a subcasilla. E n ca d a casilla, el
n ú m ero de a rrib a re p re se n ta el n ú m ero d e casos d e la subcasilla,
tal com o se d a en el cuadro XVII.2. Los n úm eros re sta n te s de la

C uadro XV II.2. Datos clasificados cruzados para obtener


correlaciones de datos agrupados

Porcentaje de mujeres de la clase trabajadora, Y


Porcentaje de
granjas rurales, 10.0- 15.0- 20.0- 25.0- 30.0- 35.0- 40.0- Totales
X 14.9 19.9 24.9 29.9 34.9 39.9 44.9
0.0- 9.9 0 0 0 1 8 4 0 13
10.0-19.9 1 2 0 2 4 1 3 13
20.0-29.9 2 5 1 2 3 3 0 16
30.0-39.9 2 0 5 5 7 3 0 22
40.0-49.9 4 6 6 7 1 0 0 24
50.0-59.9 3 10 9 6 2 0 0 30
60.0-69.9 2 4 3 7 4 0 0 20
70.0-79.9 2 3 4 1 0 0 0 10
80.0-89.9 1 0 1 0 0 0 0 2
Totales 17 30 29 31 29 11 3 150

Fuente: Censo de los Estados Unidos de 1950.


subcasilla se em plean p a ra calcu lar el térm in o del p ro d u c to cru­
zado. La cifra cen tral de cada subcasilla re p re se n ta el p ro d u cto
de las desviaciones graduales d \ d ’v. Así, p o r ejem plo, en la sub­
casilla m ás b a ja de la izquierda (c o rresp o n d ie n te a las categorías
d e 80.0 a 89.9 y d e 10.0 a 14.9), la cifra — 12 es el p ro d u c to de
4 p o r —3. E n o tro s té rm in o s : la categoría de 80.0 a 89.9 se halla 4
desviaciones graduales p o r encim a d e la m edia an ticip ad a de X ,
y la categoría d e 10.0 a 14.9 se e n c u en tra 3 desviaciones graduales
por debajo de la m edia an ticip ad a de Y . F inalm ente, el núm ero
in ferio r en cada subcasilla re p re se n ta el p ro d u c to d e los dos
nú m ero s que tien e a rrib a y pu ed e p o r consiguiente re p resen ­
ta rse sim b ó licam ente com o f^d'^d'y. P o r lo tan to , la sum a de
estas cifras in ferio res de to d as las subcásillas nos d a el térm in o
del p ro d u c to cruzado, sin corrección d e los e rro re s in tro d u ci­
dos sirviéndose de m edias estim adas. E sta su m a se em pleará
en el p rim e r térm in o del n u m e ra d o r de r; es n u m éricam ente
igual a — 200, y se h a d isp u esto e n el ángulo in fe rio r derecho
del cuadro.
Las can tid ad es re sta n te s n ecesitadas en el cálculo d e r y fe pue­
den o b ten erse en la fo rm a usual. Las c u a tro ú ltim as colum nas
C uadro XVII.3. Cálculos de la correlación de datos agrupados *

Limites 10.0- 15.0- 20.0- 25.0- 30.0- 35.0- 40.0- ¿W 2


de clase Y 14.9 19.9 24.9 29.9 34.9 39.9 44.9 d'X h d’w

Puntos 12.45 17.45 22.45 27.45 32.45 37.45 42.45


X
medios
0.0- 1 8 4
9.9 4.95 0 -4 - 8 13 —4 -52 208
0 -32 -32
10.0- 1 2 2 4 1 3
19.9 14.95 +9 +6 0 -3 - 6 - 9 13 - 3 -39 117
9 12 0 -12 - 6 -27
20.0- 2 5 1 2 3 3
29.9 24.95 +6 +4 +2 0 -2 -4 16 - 2 -32 64
12 20 2 0 - 6 -12
30.0- 2 5 5 7 3
39.9 34.95 +3 +1 0 -1 - 2 22 -1 -22 22
6 5 0 -7 -6
40.0- 4 6 6 7 1
49.9 44.95 0 0 0 0 0 24 0 0 0
0 0 0 0 0
50.0- 3 10 9 6 2
59.9 54.95 - 3 - 2 -1 0 +1 30 1 30 30
- 9 -20 —9 0 2
60.0- 2 4 3 7 4
69.9 64.95 -6 - 4 - 2 0 +2 20 2 40 80
-12 -16 - 6 0 8
70.0- 2 3 4 1
79.9 74.95 —9 - 6 - 3 0 10 3 30 90
-18 -18 -12 0
80.0- 1 1
89.9 84.95 -12 -4 2 4 8 32
-12 —4
U 17 30 29 31 29 11 3 N= -37 643
150
d'v -3 -2 -1 0 1 2 3
h,d'v -51 -60 -29 0 29 22 9 -80 a y
= --200
u * v y* 153 120 29 0 29 44 27 402
* Esta forma de cálculo se ha tomado, con ligeras adaptaciones, de [1], cuadro
XIX.4 de la p. 476, con la amable autorización del editor.
del cu ad ro se em plean p a r a o b ten er f ? , d ’x< f x d ' x y f x ( d ' x ) 2 , las su­
m as de las dos últim as de estas cantidades utilizándose d irecta­
m ente en la fórm ula de r. O bsérvese que al calcu lar los valores
n um éricos de estas cu a tro colum nas prescindim os p o r com pleto
de los valores de Y. Así, pues, si dejam os to talm e n te de lado el
área encerrad a, tenem os exactam ente la m ism a clase d e tab la de
la que n o s servim os al calcular la m edia y la desviación están d a r
de datos agrupados. Y en fo rm a análoga, las cu a tro hileras infe­
rio res pu ed en em plearse p a ra o b ten er sum as correspondientes
en relación con la variable Y . T odas las cantidades necesitadas en
las fó rm ulas de r y b pueden po n erse ah o ra en las casillas infe­
riores d e la d erecha d e la ta b la m ayor.
O btenem os ah o ra los valores d e r y b com o sigue:

150(— 200) — ( — 3 7 )(— 80) - 3 2 960


r = -------------------------------------------------------------- —-------------= —.460
v t 150(643) - ( - 37)»][ 150(402) - ( - 80)*] 71 590

150( — 200) — ( — 37)(— 80) 5.0 -3 2 9 6 0 1


b = -----------------------;------------------------ = —:------------- = — .1733
1 5 0 ( 6 4 3 ) - ( ~ 37)2 10.0 95 081 2

Como q u iera q u e los valores de X y Y son 42.48 y 24.78, respectiva­


m ente, obten em os:

a = Y — b X = 24.78 - ( - ,1733)(42.48) = 32.14

y la ecuación de los m ínim os cu ad rad o s puede escribirse c o m o :

Y P = 32.14 - .1733X

Interpretación del coeficiente de correlación. Con objeto de ob­


ten er u n a in terp retació n de r que tenga sentido cuando r no es
ni cero ni 1 .0, volvam os al concepto d e variabilidad a propósito
de la ecuación de regresión. H em os definido la variancia respec­
to de la m edia de Y com o:

, 2 ( 7 - ji,)*

en donde M re p resen ta la m agnitud d e la población (fre n te al


tam año de la m u e stra N ) y donde nos servim os de los subíndices
p a ra recalcar el hecho de que tenem os ah o ra dos variables que
h an de distinguirse. Así, pues, el concepto co rrien te de la varian­
cia co m p o rta desviaciones resp ecto de u n a m edida fija d e ten ­
dencia central, o sea la m edia co n ju n ta. P ero podem os ob ten er
tam b ién la m ed ia de las Y p a ra u n a X fija, y estam os suponien­
do q ue estos valores v arían con X d e m a n e ra que p roduzcan u n a
reg resió n lineal. Podem os generalizar en esta fo rm a el concepto
d e la m edia, ob teniendo u n a especie de m edia condicional de Y
p a ra u n a X dada, que podem os sim bolizar com o iiy\x o com o
E(Y\X).
Si generalizam os el concepto de v arian cia en fo rm a sim ilar,
podem os o b ten er u n a m ed id a d e disp ersió n i-especto de la ecua­
ción d e regresión ta l com o:

_ -------- ------- - ( X V II.ll)


M

en d o n d e el sím bolo ay \m se em plea p a ra señ a la r el hecho d e que


la m ag n itu d d e la v ariab ilid ad re sp ecto d e la ecuación d e regre­
sión, lo m ism o q u e la m ed ia de Y, depende del valor de X . E n
o tro s térm in o s : p a ra cad a X se d an ta n to u n a m edia d e las Y
com o u n a v arian cia re sp ecto d e d icha m edia. L a ca n tid a d d e dis­
p ersió n alre d ed o r d e la línea n o n ecesita s e r siem pre la m ism a
p a ra cada X , pese a q u e vam os a su p o n er la p ro p ied ad d e hom os-
ced asticid ad o d e variancias iguales.
Tenem os ah o ra dos m ed id as de v ariab ilid ad p a ra Y . La p rim e­
r a m id e la disp ersión alred ed o r del v alor d e Y , la gran m ed ia |x„,
que sería el m e jo r v alo r anticipado d e Y si n o se conociera X .
E n o tro s térm in o s: si se nos p id iera a n tic ip a r Y n o conociendo
X , la m e jo r anticipación sería ix¡, (o Y, si sólo se d isp u siera de los
d ato s de la m u e s tra ). E n cam bio, si conociéram os X , an ticip a­
ríam o s el v alo r co rresp o n d ien te de Y que se sitú a en la ecuación
d e regresión. A m enos que no ex istiera relación e n tre X y Y, el
conocim iento de X nos ay u d ará a p re d e c ir el v alo r de Y. Si la re­
lación fu e ra p erfecta, po d ríam o s p re d ecir Y exactam ente, ya que
todos los p u n to s q u ed arían exactam ente so b re la línea. P o r lo
reg u lar, no estarem os en condiciones d e h ac erlo así, pero, com o
q u iera que estam os suponiendo u n a d istrib u ció n n o rm al de las Y
y u n a desviación e stá n d a r av\x fija, podem os e m itir enunciados
de p ro b ab ilid ad acerca d e los riesgos y de la m agnitud del e rro r.
Y lo q ue es m ás im p o rta n te todavía desde el p u n to de vista de
n u estro s pro p ó sitos, podem os c o m p arar las dos desviaciones es­
tá n d a r (o v arian cias) y o b ten er u n a m ed id a acerca d e en qué
p ro p o rció n se h a m ejo ra d o la anticipación p o r el conocim iento
de X . Al p ro ced er e n esta form a, podem os servirnos de pro ced i­
m ientos con los que estam os ya fam iliarizados a p a r tir del análi­
sis de la variancia.
E n dicho análisis, en efecto, tom am os la variación to ta l o
su m a d e cu ad rad os y descom pusim os d ich a can tid ad en porcio­
nes explicadas e inexplicadas. V am os a serv im o s ah o ra exacta­
m ente del m ism o procedim iento, obteniendo casi a m an era de
2
p ro ducto accesorio los valores de ay \x y r2. Con lo que estarem os
en condiciones de d a r u n a in terp re tació n lógica del coeficiente
d e correlación. P rim ero, podem os expresar las desviaciones de
cada Y resp ecto de Y com o sum a de dos cantidades ( Y — Y p) +
(y „ — Y ) (véase la figura X V II.l 1). La p rim era de estas cantida-

x
Fig. X V II.11. R epresentación geom étrica que m uestra las desvia­
ciones respecto de la m edia Y com o una sum a de desviaciones
respecto de la recta de m ín im o s cuadrados y desviaciones de la
recta de m ínim os cuadrados respecto de la Y.
des re p resen ta la desviación del valor de Y respecto de la línea
de los m ínim os cuadrados e indica la cantidad de e r ro r que se
com ete cuando se em plea Y P p a ra p re d ecir Y . La segunda expre­
sión, en cam bio, indica la desviación de la línea de m ínim os cua­
drados (p a ra u n a X d ad a) respecto de Y . E n la m ayoría de los
casos, esta can tid ad re p re se n ta rá el m o n to en que se reduce el
e rro r al conocer Y P. Si elevam os al cuadrado ahora am bos m iem ­
bros de la ecuación y sum am os luego todos los casos, o b ten em o s:

2(7- y )2= 2 ( y - y,p + 22(Y - y ,)( y p - ? ) + 2 ( y p - yp


A fortunadam ente, el térm ino c e n tral vuelve a desaparecer, y nos
quedam os c o n :

2 ( y - y ) 2= 2( y - y pp + 2(yJ, - y )2 (xvii.12)
SC to tal = SC inexplicada + SC explicada
La p rim era cantidad de la derecha de la ecuación re p resen ta
la sum a de los cuadrados de las desviaciones de los valores re a­
les de Y respecto de la línea de los m ínim os cuadrados. E sta
can tid ad es inexplicada, ya que indica la m agnitud del e rro r en
la predicción. Y la cantidad re sta n te indica lo que hem os gana­
do al servim os de Y v con preferen cia a Y , pudiendo designarse
com o la sum a de cuadrados explicada. P or explicada n o enten­
dem os, p o r supuesto, u n a explicación causal, sino sim plem ente
u n a asociación e n tre las dos variables. Considerem os ah o ra m ás
de cerca cad a u n a de estas cantidades.
Si tom am os u n a sum a de cuadrados inexplicada y dividim os en­
tre el núm ero to tal de casos, obtenem os la variancia de la m ues­
tra Sy\x respecto de la línea de los m ínim os cuadrados. O sea:

= (X V II.13)

Si deseam os o b ten er u n a estim ación insesgada de la variancia


de la población <^y \x respecto de la regresión real, hem os d e divi­
d ir n o e n tre N sino e n tre los grados apropiados de lib ertad . E n
este caso hem os perdido 2 grados d e lib e rta d al calcular a y b
com o estim aciones de a y (3. P or consiguiente, si deseam os esti­
m a r Cy|» nos servirem os de:

A2 S Í F - F ,) 2 /VW TT14-V
o*\m = ----- — ~----- (X V II.14)
Ai — 2

E n esta form a, la sum a d e cuadrados inexplicada p u ed e con­


v ertirse fácilm ente en u n a estim ación d e la variancia resp ecto
de la ecuación de regresión. El lecto r h a rá bien en convencerse
p o r sí m ism o de que lo que hem os hecho es d irectam en te p a ra ­
lelo a n u estro tra ta m ie n to a n te rio r del análisis de la variancia.
La v ariab ilid ad resp ecto de la ecuación d e m ínim os cu adrados
h a su stitu id o la noción d e variabilidad en el interior d e las ca­
tegorías de X .
Volviendo ah o ra a la sum a de cuadrados explicada 2 ( F P — F ) 2,
podem os m o s tra r fácilm ente que esta can tid ad es equivalente a
r® [S(F — F ) 2], o r 2Ey2. Como quiera que Y p = a + b X y F = a +
bX , te n e m o s:

(Yp- Y ) = b ( X - X )

P o r consiguiente:
(2 x2)2 2*2
( 2 xy)2
7 • ( 2 y2) = r22y2
2x22y2

= r22 ( y - y )2
Hem os dem o strado así que:

•2 — .
2 (yp- Y )2 SC explicada

2(y — Y ) s SC to tal
P o r m edio de u n razonam iento sim ilar pudim os h a b e r dem os­
tra d o q ue f 2 re p re se n ta la razón d e la variación explicada en X
a la variación to ta l en X. P or lo tan to , el cu ad rad o del coeficien­
te de correlación p u ed e in te rp re ta rse com o la p ro p o rció n de
variación to tal en u n a de las variables explicada p o r la o tra. La
can tid ad de \ / \ — r2, designada a m enudo com o coeficiente de
alienación, re p re se n ta la raíz c u a d ra d a de la pro p o rció n d e la
sum a to tal de cu ad rad o s que perm an ece sin explicar p o r la varia­
ble independiente.
Cabe o b serv ar que no se d a in terp re tació n d ire c ta y sim ple
alguna de la r m ism a. De hecho, es posible d ejarse d eso rie n ta r
p o r los valores d e r, ya que estos valores serán n u m éricam ente
m ayores que los d e r2 (a m enos que r sea 0 o ± 1 .0 ). Así, p o r
ejem plo, p o d ría p arece r que u n a r d e .5 sea la m ita d de buena
q ue u n a correlación perfecta, en ta n to que vem os que, en este
caso, sólo explicam os u n 25 p o r ciento de la variación. Una co­
rrelación d e .7 indica que algo m enos de la m ita d d e la variación
re su lta explicada. Vemos asim ism o que correlaciones d e .3 o m e­
nores significan que sólo u n a fracción m uy pequeña de la varia­
ción es explicada. E l cu ad ro XVI 1.4 indica las relaciones e n tre
las diversas cantidades.
Como q u iera que 1 — r 2 re p re se n ta la pro p o rció n d e variación
inexplicada, ten em o s:

<i - r2)[2(y - y)2] = 2(y - ypp


P or consiguiente:

2 ( y - y )2 2 ( y - y p)»
N N
o bien :
(l-r* )V = 4 .
De d o n d e :
= V 1 - r 2 Sí-

E ste re su ltad o nos p ro p o rcio n a u n a indicación acerca de en qué


m edida podem os re d u c ir la desviación e stá n d a r conociendo X.

C uadro XVII.4. Relaciones num éricas entre r, r2, 1 — r2 y \ / l — r‘~

r i® 1 - /-2 V 1 " ’’2


.90 .81 .19 .44
.80 .64 .36 .60
.70 .49 .51 .71
.60 .36 .64 .80
.50 .25 .75 .87
.40 .16 .84 .92
.30 .09 .91 .95
.20 .04 .96 .98
.10 .01 .99 .995

(Véase la ú ltim a colum na del cu ad ro X V II.4.) Si r es cero, las


dos desviaciones e stá n d a r son iguales. E ste hecho es obvio, p o r
supuesto, si nos percatam o s de que la línea de los m ínim os cua­
d rados será en tal caso u n a re cta ho rizo n tal de ecuación Y — Y.
Si r2 es igual a la unidad, s,,], será cero, p o r supuesto, y a que to­
dos los p u ntos q u ed arán exactam ente so b re la recta. Del cua­
d ro XVII.4 se desp ren d e que la m ag n itu d de r h a de se r gran­
de p a ra que obtengam os u n a reducción sustancial de las des­
viaciones están d a r. P a ra u n a r d e .80, la desviación e stá n d a r
resp ecto de la línea de los m ínim os cuadrados es d e .60 d e la
desviación e stán d a r c o rrie n te ; pero, con u n a r de .40, vem os que
no h em os ganado m ucho e n cuanto a a p reciar Y a p a r tir de X ,

Glosario
Distribución normal bivariada
Coeficiente de alienación
Coeficiente de correlación
Covariancia
Intercepción
Ecuación de los mínimos cuadrados
Regresión de Y sobre X
Declive.
E jercicios
1. Los siguientes datos relativos a 29 ciudades de 100 mil o m ás habi­
tantes de regiones fuera del Sur están tomados del estudio de R. C.
.Angelí sobre la integración m oral de las ciudades norteamericanas.
El índice de integración m oral se ha derivado combinando los índi­
ces de tasas de criminalidad con los de la labor de mejoramiento.
La heterogeneidad se midió en térm inos de los números relativos de
los no blancos y los blancos nacidos en el extranjero contenidos en la
población. Y se calculó asimismo, a título de segunda variable inde­
pendiente, un índice de movilidad, que mide los números relativos
de las personas que se establecen o dejan la ciudad.

Ciudad Indice de Indice de Indice de


integración heterogeneidad movilidad

Rochester 19.0 20.6 15.0


Syracuse 17.0 15.6 202
Worcester 16.4 22.1 13.6
Erie 16.2 14.0 14.8
Milwaukee 15.8 17.4 17.6
Bridgeport 15.3 27.9 17.5
Buffalo 15.2 22.3 14.7
Dayton 14.3 23.7 23.8
Reading 14.2 10.6 19.4
Des Moines 14.1 12.7 31.9
Cleveland 14.0 39.7 18.6
Denver 13.9 13.0 34.5
Peoría 13.8 10.7 35.1
Wichita 13.6 11.9 42.7
Trenton 13.0 32.5 15.8
Grand Rapids 12.8 15.7 24.2
Toledo 12.7 19.2 21.6
San Diego 12.5 15.9 49.8
Baltimore 12.0 45.8 12.1
South Bend 11.8 17.9 27.4
Akron 11.3 20.4 22.1
Detroit 11.1 38.3 19.5
Tacoma 10.9 17.8 31.2
Flint 9.8 19.3 32.2
Spokane 9.6 12.3 38.9
Seattle 9.0 23.9 34.2
Indianapolis 8.8 29.2 23.1
Columbus 8.0 27.4 25.0
Portland (Ore.) 7.2 16.4 35.8

Fuente: R. C. Angelí, "The Moral Integration of American Cities" ("La in­


tegración moral de las ciudades norteamericanas"), American Journal of
Sociology, vol. 57, 2? parte, p. 17, julio de 1951, con la amable autorización
del autor y el editor. (Copyright 1951 de 1a Universidad de Chicago).
a) Trácese un diagrama de dispersión que relacione la integración
moral con la heterogeneidad.
b) Calcúlense r, a y b para las mismas variables, y trácese en el dia­
gram a de dispersión la línea de mínimos cuadrados, tomando
la integración m oral como Y. Respuesta, r = — .156; a =13.9;
b = — .049.
c) ¿De cuánto es la desviación estándar respecto de la línea de los
mínimos cuadrados comparada con la desviación estándar res­
pecto de Y?

2. Con objeto de resolver los ejercicios del capítulo xix, se necesi­


tará obtener las correlaciones entre la integración moral y la movili­
dad, así como entre la heterogeneidad y la movilidad. Calcúlense las
dos r. Respuesta, r = — .456; r = — .513.
3. Agrúpense los índices de integración moral y heterogeneidad en
intervalos y calcúlense r, a y b sirviéndose de las fórmulas de datos
agrupados. Compárense los resultados con los datos sin agrupar.

B ibliografía
1. Blalock, H. M.: Causal Inferenees in Nonexperimental Research.
University of North Carolina Press, Chapel Hill, 1964, caps. 2 y 3.
2. Christ, Cari: Econometric Modets and Methods, John Wiley &
Sons, Inc., Nueva York, 1966, Parte III.
3. Croxton, F. E„ y D. J. Cowden: Applied General Statistics, 3- ed.,
Prentice-Hall, Inc.: Englewood Cliffs, N. J. 1967, caps. 19 y 20.
4. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company Inc., Nueva York, 1952, cap. 23.
5. Hays, W. L.: Statistics, Holt, Rinehart and Winston. Inc., Nueva
York, 1963, cap. 15.
6. Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963, Parte II.
7. McCollough, C., y L. Van A tta: Introduction to Descriptive Sta-
tistics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, caps. 5-8.
8. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reason-
ing in Sociology, 2? ed., Houghton Mifflin Company, Boston, 1970,
cap. 1 1 .
9. Wallis, W. A., y H. V. Roberts: Statistics: a New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 17.
10. Weinberg, G. H., y J. A. Schum aker: Statistics: An intuitive Appro­
ach, Wadsworth Publishing Company, Inc., Belmont, Cal., 1962,
caps. 16-18.
E n el p resen te capítulo proseguim os el exam en de la correlación
y la regresión. Se tra ta rá n p rim e ro algunas pru eb as de signifi­
cación, a continuación de lo cual pasarem os a las relaciones no
lineales, tem a que se exam inará asim ism o brevem ente en el ca­
p ítu lo xix. A continuación estudiarem os los efectos d e los erro ­
res de m edición en las pendientes y las correlaciones. F inalm en­
te, se exam inará el tem a de la correlación grado-orden.

X V III.l. P rueba de significación e intervalos de confianza


Prueba de significación de r y b. Como q uiera que r y los coefi­
cientes d e m ínim os cuadrados a y b sólo describen los datos de
las m u estras, n u e stro interés se c e n tra p o r lo re g u la r en los p a­
rám etro s co rresp ondientes d e las poblaciones, q, a y (3. E n p a r­
ticu lar, desearíam os p ro b a r la hipótesis n ula de que n o hay rela­
ció n (lin eal) alguna en la población, o podem os q u e re r o b ten er
intervalos de confianza p a ra q o p a ra los coeficientes de regre­
sión. E xam inarem os p rim ero la p ru e b a de la hipótesis n u la en
el sen tid o de que n o se d a relación en la población. Según vere­
m os, si podem os su p o n er u n a d istribución n orm al d e Y acerca
d e X y hom oscedasticidad, podem os tam bién servirnos del an á­
lisis de la v arian cia p a ra verificar la h ip ó tesis de que q = (5 = 0.
Sirvám onos del hecho de que, to d a ve/, que r v b (y, p o r con­
siguiente, tam b ién o v (3) tien en los m ism os, n u m eradores, u n a
verificación de la hipótesis d e que q = (Tío es asim ism o de la
h ipótesis p = 0 y viceversa. E n o tros té rm in o s : si n o se d a aso­
ciación lineal en la población, la pen d ien te de la ecuación de
regresión será cero y, p o r tan to , la línea será horizontal". ' R ecor­
d an d o q ue la ecuación de regresión re p resen ta el cam inó de las
m ed ias de las Y p a ra valores fijos de X , vem os in m ediatam ente
q u e siem pre q u e (3 = 0, las m edias d e las Y h an d e se r las m is­
m as p a ra todos los valores de X (véase fig u ra X V III.l). E sto
im plica, p o r su puesto, que la ecuación d e regresión sea realm ente
d e fo rm a lineal. E n p artic u la r, si dividiéram os el e je de las X
en cierto n ú m ero de categorías, en co n traríam o s que las m edias de
las categorías d e la población son exactam ente iguales. Así, pues,
p odem os tra d u c ir la hipótesis d e q u e p = q = 0 en el enunciado
de que las m edias de Y serán iguales p a ra cada u n a de las cate­
gorías de X . Si nos im aginam os u n a población in finita, com o
h ab rá que h acerlo p a ra satisfacer el supuesto de norm alidad,
podem os concebir el eje de las X com o dividido en u n núm ero
indefinido de categorías, cad a u n a d e las cuales tenga m edias
idénticas en Y . E n esta form a, n u e stra hipótesis cero se con-
414
v ierte en u„i = u,,z = u„3 = . . . . en donde nos servim os del subín­
dice doble p a ra recalcar que son las m edias de las Y las q u e nos
in tere sa n y que tenem os u n nú m ero indefinidam ente grande de
categ o rías X .
El cu rso del razonam iento a n te rio r sugiere obviam ente u n a
ex tensión d e la p ru e b a de análisis de variancia p a ra a b a rc a r un

Fig. X V III.l. R epresentación geom étrica del hecho de que la hipó­


tesis de p = 0 es equivalente a la hipótesis fxx = ¡j,2 = . . . =

n ú m ero indefin idam ente grande de categorías de la v ariab le de


escala nom inal (a h o ra X ) . R ecordem os los supuestos requeridos
e n el análisis de variancia. Además de la h ipótesis n u la y del su­
p u esto de que los casos se h an m u estread o alea to ria e indepen­
d ien tem en te de cada u n a de las categorías, hem os d e suponer
tam b ién poblaciones norm ales y variancias iguales den tro d e cada
categoría. A condición, pues, d e que podam os su p o n er tam bién
m u estreo aleatorio, vem os que to d o s esto s supuestos pueden
cu m p lirse si suponem os que la d istrib u ció n co n ju n ta de X y Y
sea n o rm al bivariable. E l lecto r re c o rd a rá que este ú ltim o su­
p u esto no s asegura sim ultáneam ente u n a ecuación d e regresión
lineal, n o rm alid ad de las Y p a ra cad a v alor fijo de X e iguales
v ariancias p a ra todos los valores d e e s ta variable. De hecho,
pues, los su p u esto s de m u estreo al az ar y de n o rm alid ad biva­
ria b le nos capacitan p a ra servim os del análisis de variancia con
o b je to de v erificar la hipótesis de que q = p = 0, au n cuando no
se re q u ie re la n o rm alid ad de las X en ta n to las e¿ tengan una
d istrib u ció n ap roxim adam ente norm al.
A n terio rm en te encontram os que e ra necesario o b ten er las su­
m as to tales de cuadrados y la de e n tre clases y re sta rlas, con
o b jeto de o b ten er la su m a de cuadrados d en tro . Sin em bargo,
al v erificar la hipótesis d e que q = 0, el proceso se sim plifica con­
siderablem ente. Ya vimos, en efecto, que la proporción de k.
sum a de cu ad rados to tal de la J L£XPHcada..nQr. X nos es dada por
r^T^Y en fo rm a análoga, la p ro p o rción que de ia m o s'm explicada
ñ o r X será 1 — r 2. Como q u iera que la sum a to tal de cuadrados
puede sim bolizarse con 2 y2, las sum as de cuadrados explicada e
inexplicada se convierten en r22 y2 y (1 — r 2)2 y2 respectivam ente.
Los grados de lib ertad asociados a la sum a to tal de cuadrados
son, p o r supuesto, N — 1. Al calcular la sum a inexplicada de cua-

Cuadro X V III. 1. Prueba de análisis de variancia de la hipótesis


o= 0

Suma de Grados de Apreciaciones F


cuadrados libertad de la variancia

Total 2 y2 N -l
fV2y2
Explicada r't'S.y2 1
1 r2(N - 2)
(1 — r2)2 y2 ( 1 - r 2)
Inexplicada (1 — r2)2 y2 N -2
N -2

drados, to m am os la sum a de las desviaciones al cuadrado res­


pecto de la lín ea de m ínim os cuadrados, y no resp ecto de la gran
m edia de las Y . Pero, con o b jeto de o b ten er la línea de los m í­
nim os cuadrados, hem os de serv im o s de los dos coeficientes a y
b. P o r consiguiente, hem os p erd id o 2 grados de lib ertad , o sea uno
m ás de los que perdim os al to m a r las desviaciones resp ecto del
valor p a rtic u la r de Y. Podem os, pues, asociar N — 2 grados con
la sum a inexplicada de cu adrados y, restando, vem os que hay que
aso ciar u n grado de lib ertad a la sum a de cuadrados explicada.
Los re su ltad o s pueden resu m irse ah o ra com o en el cuadro
X V III.1. La v en taja de in s e rta r sím bolos en lu g ar de núm eros
en tab la está en que vem os inm ediatam ente que la cantidad 2 y2
desaparece cu an d o form am os la razón de las apreciaciones ex­
plicadas a las inexplicadas. E n o tro s térm in o s: la sum a total de
cuadrados se elim ina, y podem os escrib ir u n a fórm ula de F en
térm in o s de las proporciones de las sum as de cuadrados expli­
cada e inexplicada. De este m odo, la fó rm u la de F sólo com porta
las cantidades r2 y 1 — r 2, ju n to con los prados de lib ertad de
Af — 2 y 1. Podem os, p o r consiguiente, servim os de la fórm ula:

F I,Jf_ 2 = - 1r —
^ r2 (iV - 2) (X V III.l)

sin ten er q ue o cupam os en co n stru ir u n a ta b la de análisis de


variancia, com o fue el caso en el capítulo an terio r. Como los cua­
dros p a ra F sólo ad m iten pru eb as a los niveles de .05, .01 y .001,
puede re su lta r preferib le to m a r la raíz cu a d rad a positiva de
(X V III.l) y u tiliza r la distribución t, con N — 2 grados de li­
b ertad.
Podem os ilu s tra r el em pleo de esta p ru e b a de análisis de va­
riancia p a ra la significancia d e r con los datos del cuadro X V II.l.
Obtuvim os allí u n a correlación d e r = .301 én tre el p o rc en taje
do negros y n u estro índice de discrim inación. Al verificar en
relación con el significado de r hacem os en realid ad la im p o r­
tan te p re g u n ta : "¿Con qué p ro b ab ilid ad ob ten d ríam o s u n a r de
.301 o m ayor (e n valor ab so lu to ) si no h u b iera efectivam ente aso­
ciación lineal alguna en la población?’’ Con o bjeto de efectu ar
In pru eb a F, calculam os sim plem ente r 2 y 1 — r2 y nos servim os
de la ecuación X V III.l. Así, pues, ya que r se b asab a en 13 casos,
leñem os:
(.301)2 .0906
F, = ----------- ------ 11 = ----------1 1 = 1.10
’ [ 1 - (.301)2] .9094

R efiriéndonos a la tab la F, vem os que p a ra 1 y 11 grados de li­


b erta d neoesitam os u n a F de 4.84 o m ayor p a ra d e sc a rta r al nivel
de .05 suponiendo que la dirección no hubiese sido establecida con
anticipación. D ecidim os, p o r consiguiente, no d e sc a rta r la hipó­
le-ais nula de que q = 0. A parentem ente podríam os h a b e r obteni­
do una r de .301 o m ayor, sim plem ente p o r casualidad, a u n si no
se d iera asociación alguna en la población.
Una vez m ás, es n ecesario in sistir en la diferencia en tre una
prueba de significación y u n a m edida del grado de relación. Si
hubiéram os obtenido u n a r de .301 con u n tam año de m u estra
de 50, hab ríam os tenido :
.0906
^ 1 « m 48 = 4-78

0 sea un valor significativo al nivel de .05. En am bos casos hem os


explicado ap ro x im adam ente el 9 p o r ciento de la variación total
de lit m uestra, p e ro en el ú ltim o de ellos tenem os m ás confian-
/«, iiiinque ligeram ente, de que se d a u n a relación en la población.
íHiérvalos de confianza. S iem pre que p u ed a p resu p o n erse o
ap reciarse ap ro xim adam ente u n a población n orm al bivariable,
m posible c o n s tru ir intervalos de confianza p a ra o y (j, así com o
In línea de regresión. El e rro r está n d a r de r nos está dado p o r la
1 Virulilla.
P o r desgracia, la distribución de m u estreo de r no será p o r lo
reg u lar sim étrica, excepto en el caso especial en que o = 0. En
efecto, la d istribución de selección se distorsiona m ás y m ás a
m edida que el valor absoluto de q se aproxim a a la unidad. Ade­
m ás, observam os que, p a ra p o d er servim os de la fó rm u la an terio r
del e rro r e stá n d a r de r, necesitaríam os conocer o p o d er ap reciar
el valor d e q. E stas dos com plicaciones h acen que sea difícil
o b ten er in tervalos de confianza p a ra 9 en fo rm a abreviada.
Al calcular u n intervalo de confianza resp ecto de r, converti­
m os p rim ero r en u n a nueva estad ística z que tiene u n a d istribu­
ción de m uestreo aproxim adam ente norm al. Ponem os luego un
in terv alo de confianza alred ed o r d e z en la fo rm a habitual. Final­
m ente, u n a vez anotados los lím ites su p erio r e in ferio r de con­
fianza de z, reconvertim os estos valores p articu lares d e z en r,
con lo que obtenem os los lím ites de confianza de esta últim a.
T ransform am os r en z p o r m edio de la fó rm u la:

1 -j- Y
z = 1.151 log — —
1 —r

en donde z p u ed e to m ar valores d e cero al infinito. Conviene


llam ar la atención del lecto r acerca del hecho de que el valor z
calculado m ed ian te la fó rm u la a n te rio r n o tiene en absoluto
conexión alguna con los valores d e Z que utilizam os con la curva
norm al están d ar. Los valores de z pueden o b ten erse directam en­
te del cu ad ro K , Apéndice 2, en lu g ar de servirse de los logarit­
mos. Los dos p rim ero s dígitos d e r se buscan de a rrib a abajo en
el m argen izquierdo, en ta n to que el terc ero se localiza horizon­
talm en te en la p a rte superior. Los valores de z correspondientes
están dados e n el cuerpo del cuadro. Así, p o r ejem plo, u n a z de
0.3228 co rresp onde a u n a r de .312; u n a z de 1.3892 corresponde
a una r de .883. Al servirnos del cu ad ro K, prescindim os del sig­
no de r, asignando a z el signo correspondiente u n a vez hallado
su valor num érico. O bsérvese que los valores de z sólo son lige­
ram en te m ayores que r cuando \r\ < .40, p ero a m edida que r
crece, z em pieza a to m ar valores m ayores que la unidad.
Podem os servim os ah o ra de la transform ación de z e n u n p ro ­
blem a de in terv alo d e confianza. La distribución de selección
de z es ap roxim ada a la norm al, au n p a ra N pequeñas y desvia­
ciones m oderadas de la n orm alidad bivariada. Su e rro r están d ar
nos está d ad o p o r :
1
= ------------ (X V IlI.2)
V ^ -3

Y esto n o sólo p erm ite servirse de la tab la norm al, sino que he-
iiion elim inado adem ás la necesidad d e h a b e r estim ado q, y a que
i<| e rro r están d a r d e z sólo depende d e N . Tom ando com o ejem ­
plo num érico la correlación d e .301 e n tre el p o rc en taje de negros
y In ilIncrim inación, hallam o s que el v alo r co rresp o n d ien te d e z
t*s ilc* 0.3106. Como q u ie ra que no h a b ía m ás que 13 casos, te­
nemos :

a0 = ----- i----- = — = 0.3162


y i3 - 3 v io

Ht ¡póngase que deseam os o b ten er p a r a @ u n intervalo de con­


fluí ia» de l 95 p o r ciento. P rim ero calculam os dicho in terv alo en
térm inos de valores de z. Así, pues, to m aríam o s:

z ± 1.96a* = 0.3106 ± 1.96(0.3162)


= 0.3106 ±0.6198

l'o r consiguiente, el in terv alo de confianza alre d ed o r de z va de


,3092 a + .9304. O bsérvese que p a ra o b ten er el lím ite in ferio r
tuvim os que re s ta r u n n ú m ero m ayor, num éricam ente, q u e 0.3106.
Kslo da u n re su ltad o negativo, lo cual significa a su vez que el
vitlor de r co rresp o n d ien te a dicho lím ite in ferio r h a de to m arse
tam bién com o negativo. B uscando los valores d e r correspon-
illente.s a los dos lím ites de confianza d e z, obtenem os los valo­
ren ile — .300 y .731 p a r a los lím ites in fe rio r y su p erio r resp ec­
tivam ente.
O bsérvese que el intervalo n o es to talm e n te sim étrico en re la ­
ción con el v alo r de .301 obten id o p a ra r. E n este caso, el lím ite
su p erio r está algo m ás cerca de r que el lím ite inferior. Si hu-
bit'rnm os h allad o u n a r de .80, el in terv alo re su lta n te h a b ría es-
Ittilo todavía m ás d isto rsio n ad o en la m ism a dirección. Puede
co m prenderse in tu itiv am en te que esto sea así si tenem os p re ­
sente t|uo, siem pre q u e em pezam os a acerc am o s al lím ite su­
p erio r de la unidad, ponem os tam b ién u n a restricció n al lím ite
su p erio r del in tervalo d e confianza. E n e sta form a, re su lta ría
Im posible, p o r ejem plo, o b ten er u n in terv alo de confianza de
,H(> i .16. Si o cu rre que r sea negativa, la dirección de la d isto r­
sión será opuesta, p o r supuesto, a la a n terio r. El in terv alo sola­
m ente llegará a ser sim étrico en relación con r cuando é sta sea
I|ri i¡11 a cero.
Piulemos in te rp re ta r este in terv alo de confianza en la fo rm a
luihlitial. N u estro p ro ced im ien to es tal q u e a la larg a podem os
esp ern r o b ten er intervalos que incluyan el valor (fijo ) de o el
OS p o r ciento de las veces. P odem os tam b ién u tilizar tales in te r­
valos de confianza com o verificaciones im plícitas de hipótesis.
I'n el problem a an terio r, en efecto, y a hem os observado que el
lím ite in ferio r del intervalo es negativo. Y com o q uiera que cero
e stá incluido en el intervalo, sabem os inm ediatam ente que no
descartaríam os la hipótesis n u la de que q = 0. Y si quisiéram os
v erificar algún o tro valor supuesto de q, procederíam os igual.
Si p o r ejem plo hubiéram os anticipado que q = .80, habríam os
d escartad o al nivel de .05, y a que este valor cae fu e ra del lím ite
su p erio r de .731.
S ería conveniente tam bién calcular intervalos de confianza a
p ro p ó sito de o tras m edidas de grados de relación. P or desgracia,
se conoce dem asiado poco acerca de las distribuciones de m ues­
treo de la m ayoría de las m edidas de asociación en m ateria de
problem as de contingencia p a ra p o d er c o n stru ir intervalos de con­
fianza en relación con ellas. H aggard [11] sugiere u n m étodo
p a ra co m p u tar intervalos de confianza acerca de r» o correlación
interclase, y G oodm an y K ruskal [10] discuten la distribución
de m u estras de varias m edidas nom inales y ordinales.
O casionalm ente se q uiere p o d e r p o n er u n intervalo de con­
fianza con referencia a b, o se puede ten er necesidad de encon­
tr a r u n cin tu ró n a cuyo in te rio r pu ed a esperarse que la verdade­
ra ecuación de regresión se encuentre. E n am bos casos podem os
servirnos d e la distribución t en fo rm a relativam ente directa. La
apreciación del e rro r e stán d a r de b está d ad a p o r :
A
A
<*!>= (X V III.3)

en donde se re co rd a rá q ue:

Con fines de cálculo puede d em o strarse algebraicam ente q u e :

/ S (Y t-Y ^-b 2 (X* - X ) { Y i - Y ) (X V III.4)


A \ <—1 i=l
' N -2

Podem os servirnos ahora de los cálculos num éricos obtenidos


ya p ara los datos de discrim inación del cu ad ro X V II.l, con lo
que o b te n e m o s:

560 0 2 4 - 1 9 .9 3 1 ( 2 553.77)
= V 46 284 = 215.1
, 6= _ j m _ = _2m =1900
V128.131 11.32

Si deseam os calcular el intervalo de confianza del 99 p o r ciento,


i tu tirrim os d irectam ente a la tab la t y nos servim os de N — 2
ii 11 grudos de lib ertad. O btenem os en esta fo rm a:
b ± (3.106)(19.00) = 19.931 ± 59.014
* Al ap reciar la ecuación de regresión, vem os que n u e stra me-
|o r « p red ació n singular (d e “p u n to ” ) es la línea de los m ínim os
eimdrudos. Como q u iera que la cantidad que estam os aprecian­
do nliora ya no es u n valor singular, sino u n a línea entera, nues-
Inv apreciación del intervalo ya tam poco será u n intervalo, sino
miti hunda a am bos lados de la línea de m ínim os cuadrados. De
hurnns a prim eras po d ría esperarse que dicha ban d a consistiera
un dos líneas paralelas a la de los m ínim os cuadrados. S in em-
linrgo, sem ejante b an d a im plicaría que conocem os la verdadera
pendiente y que la ú nica fuente de e rro r está en la apreciación
de a. I-Ieinos de re co rd a r que se aprecian ah o ra dos cantidades
(u v |l), y, p o r lo tan to , tenem os dos fuentes de erro r. El lector
luí i le p ercatarse p o r sí m ism o de que to d a vez que la pendiente
puede habese apreciado asim ism o incorrectam ente, cu an to m ás
nos vamos alejando del p u n to (X , Y ), tan to m ayor re su lta la im ­
precisión. La ban d a de confianza ad o p ta la form a general de la
fljpiru XVIII.2.
* Para traz ar esta b an d a de confianza, será necesario calcular
el e rro r están d a r de Y v p a ra varios valores de X . La apreciación
del e rro r están d a r nos está d ad a p o r la fó rm u la:

V
I 1— —-----------------
(X-X)* ,(X
Y,,VnIII.5)
„v

N 2 (Xi-X)*
i= i
,en donde el valor p a rtic u la r de X a u tilizar en ( X — X ) 2 puede
ponerse en cu alq u ier lugar del eje de las X. Obsérvese, de paso,
que eunnto m ás lejos X queda de X, ta n to m ayor es el valor nu-
m áiieo del e rro r están d ar. Supóngase que deseam os o b ten er el
rm > r e stá n d a r estim ado cuando X = 10.0. Como q uiera que
V 4.837, obtenem os:

o„ - 215.1 J j L + — 4-837.)2 = 215.1 V-28496 = 114.86


" 113 128.131 V
* S irviéndonos nuevam ente d e la tab la t y d e u n intervalo del
99 p o r ciento resp ecto de Y p calculado para este valor f i j o de X,
o b te n d ría m o s:

Y p ± (3.106)( 114.86) = Y P ± 356.8

U na vez que hayam os obten id o o tro s in terv alo s sem ejantes de


Y p p a ra o tro s valores p artic u la res de X, podem os tra z a r la grá-

Fig. X V III.2. B anda de confianza con respecto de la recta de


m ín im o s cuadrados.

fíca de la b a n d a en tera. In ú til es decir que el procedim iento en


cuestión se h a ría m uy fastid io so si se d eseara o b ten er la banda
e n tera y n o se c o n ta ra con calculadoras.
Probando la diferencia entre dos correlaciones. Como se indicó
antes, tien e h ab itu alm en te m ás sen tid o teórico el c o m p arar dos
o m ás declives q u e el c o m p arar co rrelacio n es; ta l com paración
e n tre declives o cu p ará n u e stra atención en el cap ítu lo xx sobre
análisis d e covariancia. S in em bargo, o cu rre con frecuencia que
se h an o b ten id o v arias correlaciones y se desea estab lecer que u n a
de ellas es significativam ente m ás a lta que las dem ás. M ientras
nos co n ten tam os en d esc rib ir relaciones d en tro d e n u e s tra m ues­
tr a p artic u la r, podem os c o m p a ra r sim plem ente las m agnitudes
relativas d e las dos r y re g is tra r la m agnitud d e la diferencia.
Sin em bargo, si deseam os generalizar a u n a población m ayor,
p lan téase la cuestión d e si la diferencia o b ten id a p u ed a o no de­
b erse acaso al azar. Supóngase, p o r ejem plo, q u e se h a n o bte­
nido u n a r de .50 y o tra de .30. Puede desearse verificar la hipó­
tesis n u la de que las dos correlaciones de las poblaciones son
idénticas, esto es, pt = q2.
Cabe im aginar dos situaciones d istin tas en las que podrían
hacerse verificaciones de esta clase. P rim ero, pueden acaso te­
nerse dos m uestras independientes y desearse co m p arar los gra­
dos de relación e n tre X y Y y d en tro de cada u n a de las m u estras.
Así, p o r ejem plo, la relación e n tre el p o rc en taje de negros y la
discrim inación puede acaso no ser la m ism a en los estados del
S ur que en los del N orte. P odría en este caso establecerse la hipó­
tesis de investigación de que Qxy es m ás a lta en el S u r que e n el
Norte, verificando la hipótesis nula de que las dos correlaciones
son iguales. Un segundo tipo de situación, fácil de confundir con
el prim ero, puede p re sen tarse cuando se dispone de una sota
m uestra. P uede h ab e r en este caso u n a sola variable dependien­
te (p o r ejem plo, la discrim inación) y dos variables independientes
(p o r ejem plo, el p o rc en taje de negros y el p o rcen taje de m ano
de o b ra em pleada en la in d u stria). P uede acaso desearse esta­
blecer que u n a de estas variables independientes está m ás direc­
tam ente relacionada con la variable dependiente que la otra. Si
designam os la segunda variable independiente com o Z, podem os
Icncr in terés e n verificar la hipótesis n u la de que qxv — q¡,v. Vea­
mos p rim eram en te cóm o trata m o s el p rim e r tipo de situación,
p a ra p a sa r luego a la p ru e b a de u n a sola m uestra.
Si las dos correlaciones se basan en m u estras independientes,
podernos co n v ertir cad a u n a de las r e n z y servirnos de la fó rm u ­
la del e rro r está n d a r de la diferencia e n tre las z, que es análoga
a la del e rro r está n d a r d e u n a diferencia e n tre m edias y se p ré­
senla com o sigue:

(X V III.6)

Podem os a continuación ya sea estab lecer u n intervalo de con­


fianza relativo a (zx — z2) o b u sca r el valor d e :

( Z i — Zb ) - 0
Z=

en la tab la norm al. El cero figura en la fó rm u la a n terio r debido


ni hecho de que n u e stra hipótesis n u la ad o p ta la form a oj = p2.
S upóngase que p a ra 17 ciudades del S u r la correlación e n tre el
p o rc en taje de negros y la discrim inación re su lta ser de .567, fre n ­
te1 a la d e .301 de las ciudades del N orte. Así, p u es:

= .301 ro = .567
Z t= 0.3106 za = 0.6431
= V l/ i o + V i 4 = + -0714 = .414

P o r lo ta n to :

.3106 - .6431 -.3 3 2 5


Z = ------------------ = -------------= -.8 0 3
.414 .414

y vem os que e sta d iferencia de las r no es significativa al nivel


de .05. Así, pues, pese a que la correlación sea m ayor p o r lo que
se refiere a las ciudades del S ur, esta diferencia p u ed e deberse
sim plem ente al azar.
E n el segundo tipo de situación m encionado, no disponem os
de dos m u estras independientes y n o podem os, p o r consiguiente,
serv im o s de la m ism a fó rm u la del e rro r e stá n d a r de zx — z2- Se
dispone de u n m éto d o p a ra tr a ta r este tipo de problem a, a condi­
ción que sólo tengam os in teré s en generalizar a subpoblaciones
de to d as las m u estras posibles p a ra los que X y Z (las dos varia­
bles in d ep en d ien tes) tienen las m ism as com binaciones d e valo­
res que las de la m u estra p a rtic u la r que hem os obtenido. E n la
m ayoría de los casos prácticos puede p rescin d irse im punem ente
de esta restricció n , a m enos que ex ista alguna razón p a ra supo­
n e r que el m argen de variación es m ucho m ayor en la población
q u e en la m u e stra estudiada, en cuyo caso deberem os de todos
m odos g u ard arn o s de generalizar en u n sen tid o o e n otro.
Si verificam os la hipótesis n u la de que qxv = form am os
t de la m an era siguiente:

t - (r _ r } (W -3 )(l + r„ )
*• — \ * x y r zy f '
2(1 1xy“ r X !? 2 r x y r x z V zy )

(X V III.7)

Podem os b u sc a r luego el valor de t en el cuadro, sirviéndonos


de N — 3 grados de lib ertad . E n n u e stro ejem plo num érico, su­
póngase que la correlación e n tre X y Z p a ra las ciudades del
N orte re s u lta se r de .172 y que la correlación en tre Y y Z es de
.749. T endríam os en esta fo rm a :

(.301 = .749 ) J ______ 10(1 + .172)


y¡ 2[1
711 -— .3012 — .1722 — ,7492 + 2( .301)(.172)(.749) 3
= -1.72.

Como tenem os 10 grados d e lib ertad , vem os que no podem os


d esc artar la hipótesis n ula d e que n o hay d iferencia e n tre las
correlaciones de las poblaciones de cada u n a de las variables in­
dependientes con discrim inación.

XVIII.2. Correlación no lineal y regresión


H asta aquí hem os venido suponiendo que la ecuación d e regre­
sión e ra de fo rm a lineal. E n m uchos problem as sociológicos
prácticos, el m odelo lineal, aunque ta l vez n o exacto, d a con todo
u n a aproxim ación b a sta n te cercana a la form a v erdadera de la
ecuación, de m odo que n o necesitam os ocuparnos de m odelos
altern ativ o s m ás com plicados. E sto es así, en p artic u la r, en re la­
ción con los estudios d e exploración en los que el grado de adap­
tación no es excesivam ente exacto. H ay casos, sin em bargo, en
los que la inspección del diagram a de dispersión p o d rá indicar
claram en te u n a relación no lineal, o en los que n u e stra teoría
h a an ticip ad o u n a relación de esta clase. S iem pre que se dé u n a
relación no lineal sem ejante, el coeficiente m om ento-producto
d a rá obviam ente u n a subestim ación del grado verdadero de re la­
ción, ya que este coeficiente sólo m ide él grado de adaptación
de la m ejo r re c ta singular. Y a vim os que con u n a cu rv a en
fo rm a de U es posible te n e r u n a fu e rte relación con u n a r de ap ro ­
xim adam ente cero, y se advirtió al lecto r que era, p o r lo tanto,
in co rrecto sacar la conclusión de que dos variables son indepen­
dientes sim plem ente p o rq u e r sea cero. Si el diagram a de dis­
persión indica u n a d istrib u ció n de p u n to s m ás o m enos al azar,
podem os co n clu ir que n o existe relación, p ero hem os de e s ta r al
acecho al pro p io tiem po de las relaciones no lineales. É sta es,
p o r supuesto, u n a razón m ás en favor de que el lecto r debe acos­
tu m b ra rse a tra z a r siem pre diagram as de dispersión an tes de
seguir ad elan te con el análisis.
E l tem a general de la correlación y la regresión no lineales es
dem asiado com plejo p a ra p o d e r tra ta rlo adecuadam ente en este
texto. La razón de la com plejidad del análisis n o lineal está en
que, u n a vez que progresem os m ás allá de la ecuación de la recta,
hay n u m ero so s tipos de ecuaciones que re p re se n ta n las d istin tas
fo rm as posibles susceptibles de se r ad o p tad as p o r las relaciones
no lineales. Sólo las m ás sim ples d e estas ecuaciones pueden
tra ta rs e aquí. A fortunadam ente, estas ecuaciones relativam ente
sencillas suelen se r p o r lo re g u lar adecuadas p a ra la solución de
las clases de relaciones que se p lan tean en la investigación socio­
lógica. Un tipo general de función n o lineal puede re p resen ta rse
en térm in o s de polinom ios d e grado enésim o, que tienen ecua­
ciones de la fo rm a :

Y = a + b X + cX* + dX» + . . . + k X n

El exam en de las relaciones n o lineales d e este tipo general lo


d ejarem os h a s ta el próxim o capítulo, o sea h a sta el m om ento de
em p ren d er el estudio de los problem as de regresión m últiple.
E n efecto, u n a vez com prendidos estos problem as de regresión,
dispondrem os de un m étodo relativam ente sim ple p a ra el tra ta ­
m iento de aquellos tipos de relaciones no lineales que se dejan
d escrib ir ad ecuadam ente p o r m edio d e polinom ios.
Algún o tro tipo d e relaciones no lineales relativam ente sencillo
pued e tra ta rs e a m enudo' m ed ian te u n a transform ación de varia­
bles que p e rm ite el em pleo del m odelo lineal fam iliar. E ste p ro ­
ceso pu ed e ilu stra rse con el caso de las funciones logarítm icas
rep resen tad as p o r ecuaciones del tip o :

Y = a + b log X

que p re se n ta n la fo rm a general de la figura X V III.3. E n una


ecuación de este tipo, en efecto, Y es en realid ad u n a función
lineal no de la X m ism a, sino de su logaritm o. E sto sugiere que
si podem os tra n sfo rm a r cada u n a de las m arcas d e X en una
nueva variab le Z = log X , podem os esc rib ir Y com o función lineal
d e Z. Así, p o r ejem plo:

Y — a + b log X = a + bZ

Podem os ca lc u lar ah o ra la correlación e n tre Y y Z (o sea de y


y de log X ) en la fo rm a habitual. Si dam os a conocer la d istrib u ­
ción de las m arcas a los ejes d e las Y y las Z, el re su lta d o h ab rá
d e ser ap roxim adam ente de fo rm a lineal. Si querem os, podem os
co m p arar el grado de relación e n tre Y y Z con el q u e existe en­
tre Y y X . Si rvz es significativam ente m ayor que rX!1, entonces
el m odelo logarítm ico da u n a m e jo r aproxim ación que el m odelo
lineal e n tre X y Y .
Los m odelos logarítm icos del tip o a n te rio r se p re se n ta n a m e­
n u d o en casos en que la variable independiente X asum e u n gran
m argen de valores, p ero en los que, u n a vez alcanzado cierto
valor, los au m entos u lterio res p ro d u cen cada vez m enos efecto
sobre la v ariab le dependiente. La m agnitud de u n a ciudad es una
variable que p re se n ta con frecuencia esta clase de efecto. Es
posible, p o r tan to , que las ciudades d e m ás d e 500 m il h ab itan tes
p resen ten to d as ellas m arcas d e Y m uy parecidas. Pero, si se
incluye en la m u e stra a la ciudad de Nueva York, p o r ejem plo,
el v alo r de X p a ra esta ciudad será tan su p erio r al de las dem ás
ciudades, que el efecto n eto co n sistirá en in clin ar la relación en
fo rm a m uy p arecid a a la d e la fig u ra XVIII.3. E n tal caso podrá
re su lta r p referib le relacionar Y con log X , ya que el hecho de
to m ar el lo g aritm o de la m ag n itu d u rb an a p ro d u c irá el efecto
de a g ru p ar las m arcas extrem adam ente grandes y de dism inuir
el "efecto de c u rv a tu ra ” de estas ciudades m ayores.
E n c ierto n ú m ero de casos el investigador n o te n d rá ta l vez
in teré s e n h allar la fo rm a exacta d e la ecuación de predicción
q u e m e jo r se ad a p te a su s datos. Acaso sólo tra te , p o r ejem plo,
de d em o strar que la relación es de fo rm a n o lineal, o de o b ten er
u n a m ed id a p a ra el grad o de relación, independientem ente de su
form a. Cuando p u e d a efectu arse u n a tran sfo rm ació n sencilla

Fig. X V III.3. E cuación logarítm ica de m ín im o s cuadrados de la


fo rm a Y = a + b log X.

com o la logarítm ica, será indudablem ente ventajoso servirse de


dicho procedim iento. P ero a u n así, el investigador q u e rrá acaso
v erificar si la m ed id a q u e h a o b tenido co nstituye o n o u n a buena
aproxim ación del re su ltad o que h a b ría hallado si se h u b iera
en co n trad o la m e jo r adaptación posible. Con o b jeto d e tr a ta r
los p ro b lem as de e s ta índole, podem os servirnos de los principios
básicos del análisis d e variancia y de algunas de las m edidas de
los grados de asociación desarrolladas en el capítulo sobre aná­
lisis de variancia.
El lecto r re c o rd a rá que p a ra o b ten er la sum a de cu adrados
" d e n tro ” en el análisis d e variancia de u n a fo rm a tom am os la
su m a de las desviaciones al cu ad rad o de cad a u n a de las m edias
de las categorías. Supongam os ah o ra q u e las X se h an subdivi-
d ido en c ierto n ú m ero de categorías y que la sum a de los cua­
d rad o s en Y se analizaban e n la fo rm a habitual. Sabem os que
p a ra to d a categoría d ad a de X la su m a d e los cuadrados alrede­
d o r de la m edia d e la categoría p ro d u c irá u n re su ltad o num érico
in ferio r al de la su m a de los cu ad rad o s alred ed o r de cualquier
o tro n úm ero. Síguese, en p a rtic u la r, que la sum a in te rio r de
cu ad rad o s será m en o r q u e la su m a d e las desviaciones cu a d ra­
d as resp ecto d e aquellos p u n to s d e la línea de m ínim os cim
d rados que caen en los p u n to s m edios de los intervalos (véase
la figura X V III.4).
Si o cu rre que la ecuación sea de fo rm a lineal, podem os esp erar
que Y ,} caerá aproxim adam ente en la línea de los m ínim os cua­
drados, de m odo que cam biará poco que las desviaciones se to­
m en respecto de las m edias de las categorías o resp ecto de la lí-

Fig. XVIII.4. C om paración de las desviaciones respecto de la rec­


ta de m ín im o s cuadrados con las desviaciones respecto de las
m edias d e las categorías.

n ea en cuestión. P or o tra p arte , si la ecuación es realm en te no


lineal, entonces, p a ra algunas, al m enos, de las categorías, la sum a
de los cu ad rad o s referidos a la m edia de la categoría será consi­
derab lem en te m ás pequeña que la d e los cuadrados referidos a
la línea de los m ínim os cuadrados. E n otros té rm in o s : la sum a
in terio r o inexplicada d e cuadrados será m ínim a em pleando las
m edias de las categorías y, p o r consiguiente, la sum a de cu ad ra­
dos en tre categorías, o explicada, s e rá m áxim a. Así, pues, la
proporción de variación explicada p o r las categorías, m edida p o r
la razón de correlación JE2, será m ayor que la p roporción expli­
cada p o r la lín ea de m ínim os cuadrados, a m enos que la verda­
d era relación sea efectivam ente lineal.
Podem os sac ar u tilid ad de este hecho p ractican d o u n a p ru eb a
de no linealidad. Si form am os la can tid ad E 2 — r2, obtenem os la
proporción d e v ariación explicada en el su p u esto de u n a form a
cualquiera de relación n o explicada p o r u n a relación lineal. Es
obvio que p a ra o b ten er E 2 perm itim os que la relación adopte
cualquier fo rm a posible, ya que sólo hem os tom ado desviaciones
respecto de las m edias de las categorías, p rescindiendo de dónde
estas m edias acontezcan encontrarse. N os estam os p reg u n tan d o
fun d am en talm en te en cu án to podem os m e jo ra r n u e stra posi­
bilidad de p red ecir valores de Y no restringiéndonos al m odelo
lineal. Si la m ejo ra es m ayor de lo q u e esperaríam os del azar

Cuadro XV III.2. Prueba de análisis de variancia para el caso de


no linealidad

Sumas Grados Estimacio­


de de nes de la F
cuadrados libertad variancia

Total 2y2 N -l
Explicada por el mo­
delo lineal 1
Adicional, explicada
por el modelo no ( £ 2—r2)Sy2
lineal ( £ 2 _ r2)2y2 k -2
k -2 (E 2- r 2)(W -fc)
(1 —JB2)2y2 (1 — E 2) ( k — 2)
Inexplicada (1 - £ 2)2y2 N -k
N -k

en el supuesto de que la ecuación de regresión sea efectivam ente


lineal, entonces podem os concluir que la relación es no lineal.
La p ru eb a de análisis de variancia que em plearem os p a ra veri­
ficar la no linealidad asum e u n a fo rm a con la que no tard a rem o s
en fam iliarizarnos. H allam os p rim ero la ca n tid a d d e variación
que puede explicarse sirviéndonos del m odelo lineal. A lgebraica­
m ente, e s ta can tid ad p u ed e re p re se n ta rse com o r 22 y 2. De la va­
riación d ejad a sin explicar p o r el m odelo lineal, ( 1 — r 2)S y2,
vemos a continuación qué tan to p u ed a explicarse p o r m edio del
m odelo general. Como q u iera que £ 22 y 2 nos da la sum a de cua­
d rados que puede explicarse p o r Y cuando no pesa sobre la fo r­
m a de la relación restricció n alguna, la can tid ad ( £ 2 — r2)2 y2
re p resen ta el in crem ento explicado debido a la no linealidad. Su­
poniendo que n o haya erro res de redondeo, e s ta ca n tid ad h a b rá
de ser siem pre p ositiva.1 Y como q u iera que la ca n tid ad (1 —
í?2)2 y2 nos da la sum a de cu adrados que n o re su lta explicada ni
siquiera p o r el m odelo m e jo r adaptado, podem os e fectu ar una
p ru eb a F tal com o se indica en el cuadro X V III.2. Como de cos­
tu m b re, el den om inador de F es el térm in o d e e rro r y, com o
i Siempre que N sea pequeña y sólo pueda, por tanto, usarse un corto
número de categorías, resulta poco realista el supuesto de que las puntua­
ciones de X están agrupadas en los puntos medios de cada intervalo. Esto
puede llevar a agrupar los errores, dando un valor a & menor que r2.
q u iera que estam os verificando en relación con desviaciones res­
p ecto de la linealidad, tom am os com o n u m era d o r u n a aprecia­
ción de la v arian cia basada e n ( £ 2 — r2)2 y2, o sea la can tid ad
explicada p o r el m odelo general m ejo r, que no h a sido explicada
todavía p o r el m odelo lineal. Los grados de lib e rta d asociados
al n u m era d o r p u ed en o b ten erse p o r sustracción.
Una vez m ás observam os que la su m a to tal de cu ad rad o s se
elim ina, deján d o nos con la siguiente fó rm u la p a ra F :

( £ 2 — r2) ( N — k)
(XVIIL8)

en donde k re p re se n ta el n ú m ero d e categorías en las que se ha


descom puesto X.
Ilu strem o s la p ru e b a de n o linealidad con los d ato s que se
ag ru p aro n en el cu ad ro XVII.2. Según p u ed e com probarse fá­
cilm ente, las sum as to tal y e n tre categorías d e cu ad rad o s en Y
son com o s ig u e :

SC to ta l = 101 115.38 - 92 132.04 = 8 983.34


SC en tre categorías = 94 792.59 — 92 132.04 = 2 660.55

en donde hem os tra ta d o todas las m areas de Y com o si se encon­


tra ra n en los p u n to s m edios d e sus respectivos intervalos y en
donde nos hem os servido de los procedim ientos p a ra los datos
agrupados (véase sec. VI.4). P o r lo ta n to :

SC e n tre cu ad rad o s 2 660.55


£2 — ............. ................ = ________ — 2962
SC to tal 8 983.34

Toda vez que an terio rm en te encontram os u n a r de —.460 supo­


niendo u n a relación lineal, o b te n e m o s:

_ .2 9 6 2 - ( - .4 6 0 ) 2 150 - 9 _ .0846 141 _ 11.929


7,141 “ 1 — .2962 9-2 ~ .7038 7 4.927 “ M

y vem os que al nivel de .05 podem os d e sc a rta r la hipótesis nula


de u n a relación lineal e n tre el p o rc e n ta je de p erso n as clasifica­
d as com o tra b a ja d o ra s de g ran jas ru rales y el p o rc e n ta je d e m u­
jere s que tra b a ja n en la in d u stria.
Si u n a relación re su lta se r n o lineal e n cuanto a la form a, es
m uy posible que r no sea significativa estadísticam ente, en tan to
q ue E sí lo será. P or supuesto, la significación de E puede com ­
p ro b a rse p o r m edio de u n análisis directo* de variancia, tom ando
la razón de las estim aciones explicada e inexplicada de la va­
riancia. Son, pues, así tres las p ru e b as que pueden efectuarse,
a sab e r: 1) la de la significación de r; 2) la de la significación
de las desviaciones resp ecto de la linealidad (E 2 — r2), y 3) la de
la significación de E .
Si se en cu en tra u n a relación no lineal y se desea u n a estim a­
ción del grado de relación en la población, es preferible servirse
de la razón de correlación insesgada £, exam inada en el capítu­
lo xvi y d ad a p o r la fó rm u la:

y
t2 ! ------ ü .

ya que el valor num érico de E es función del nú m ero d e catego­


rías em pleadas y pro b ab lem en te so b restim ará ligeram ente p o r
lo regular la relación e n la población. Si y a se h a calculado E , el
valor de e pu ede tam b ién calcularse a p a r tir de la fó rm u la:

E H N -l)-(k-í)
E2 = — 1 1 -------------------------------------i (X V III.9)
N —k

XVI 11.3. E fectos de los errores de. m edición


.SI hay m ediciones d e e rro r en X o Y , bien sean al azar o siste-
inri ticas, puede esp erarse u n a alteración en n u estro s resultados.
l'.Mu se aplica p o r supuesto a todas las p ru e b as y m ediciones que
lin n o s exam inado h a s ta ahora, incluso los procedim ientos no
pm am étricos. E n realidad, u n o de los tipos de erro res d e medi-
t I i'iii m ás com unes en sociología, ciencia p o lítica y la m ayoría de
Ihn restantes ciencias sociales, p arece ría se r consecuencia del uso
i|e dicotom ías m ás bien b u rd as, tales com o alto y bajo o presante
y ausente. No se com prenden bien las consecuencias que se deri­
van d e los errores d e m edición, pero- la m ayor p a rte del tra b a jo
iIntem ático so bre el tem a se h a llevado a cabo en las escalas de
intervalo y en los problem as que im plican análisis de correlación
y regresión. El tem a es p o r desgracia dem asiado técnico p a ra ser
U n t a d o cu el p re sen te texto, p ero re su lta rá conveniente p ro n u n ­
ciar |m r lo m enos algunas p alab ras precau to rias.
SI hay una m edición de e rro r sistem ática, o n o aleatoria, cual­
quier tipo de distorsión re su lta posible, siendo así necesario ex-
pilcar cuáles son las fuentes del e rro r no aleatorio y la fo rm a en
•|i te actúan. Si se co m p aran p o r ejem plo las m edias de tres m ues-
Itici, v el e rro r de m edición es tal que coloque las m edias de las
tmienlras segunda y te rc e ra cercanas a la co rresp o n d ien te a la
pilm ei u, no so logrará significación estad ística cuando, con base
en m ediciones m ás exactas, p u ed a rechazarse fácilm ente la hipó-
IfttiM nula. P¡ero si los e rro res de m edición son estrictam en te al
ii/ h i , resu ltará posible te n e r u n a m ayor clarid ad acerca de los
efectos d e tales erro res. E n general, las m edidas d e asociación
re su ltarán aten u ad as p o r los e rro res aleatorios de m edición en
cu alq u ier variable. P or ejem plo, en el análisis de las situaciones
d e variancia, las m ediciones aleato rias de e rro r en la escala de
intervalos a u m en ta rán las variaciones dentro de las categorías,
p ero no afectarán sistem áticam ente las variaciones e n tre las cate­
gorías, lo que h a rá b a ja r tan to el v alo r de F com o la correlación
in terciases.
E n el caso de dos escalas de intervalo los erro res aleatorios de
m edición en cu alq u ier variable re d u cirán la m agnitud del coefi­
ciente d e correlación. E n algunos textos elem entales d e estadís­
tica se exam inan los procedim ientos correctivos de atenuación,
p ero se hace basándose en supuestos especiales, inapropiados
p ara u so en la investigación sociológica. (V éase [3 ].) E n general,
cuando se cu e n ta con dos o m ás m edidas de cada variable, resu lta
posible o b ten er estim aciones corregidas b a jo grupos variables de
supuestos. (V éanse [ 2 ], [ 6] y [14].)
Si hay e rro re s aleatorios de m edición en Y p e ro n o en X , po­
dem os co n ceb ir la situación com o u n a contribución q u e alcanza
sólo al fa c to r de e rro r en la ecuación Y t = a + (3Z { + g¡, pudiendo
d em o strarse que n o h a b rá efecto sistem ático en la estim ación bvm
del declive, salvo que el e rro r e stá n d a r en tal estim ación se verá
in crem en tad o debido al aum ento del e rro r en la variancia. Pero
si hay tam b ién e rro r aleatorio de m edición en X —lo que es m uy
posible en to d a investigación re alista—, la estim ación bym del de­
clive se verá asim ism o atenuada. E n el caso de m u estras grandes
puede aplicarse u n a fó rm u la aproxim ada p a ra d eterm in a r el va­
lo r esperado del declive bvo:

<V + o„a

en la que X ' re p re se n ta el valor m edido de X , tal com o se le re­


p resen ta en la ecuación X ' = X + u, en donde se supone a u com o
un com ponente estricta m e n te aleatorio, con valor esperado igual
a cero, y sin que haya correlación e n tre u y X . La razón de la
atenuación e strib a en que la variancia del valor m edido X ' será
m ayor que la v ariancia verd ad era de X , según la fó rm u la:

<V2 = oa +

Vemos así que la atenuación en la estim ación de u n desnivel


es función d e la variancia del e r ro r de m edición, relativa a la
variancia en X .
E ste hecho tien e consecuencias im p o rtan tes en la p ráctica. Sig­
nifica que en cuantos casos haya e rro r aleatorio de m edición en
una variable independiente, n o podem os c o n ta r con iguales decli­
ves estim ados, incluso en el caso de que los declives verdaderos
10 sean. Si varias poblaciones (o m u e stra s) difieren con resp ecto
11 la can tid ad de variación en X , incluso co n las m ism as varian-
riiis de e rro r de m edición, las atenuaciones d e los declives d iferi­
rán. Vale la p en a te n e r e sto p re sen te cuando se llevan a cabo
com paraciones de los re su ltad o s de diferen tes estudios. La difi­
cultad señalada se aplica tam b ién a to d as las m edidas de asocia­
ción, y no pu ed e ser considerado com o u n defecto privativo del
análisis de regresión.

XVIII.4. Escalas ordinales: correlación de rangos


Ñus hem os ocupado a h o ra de m edidas d e asociación que pueden
iillllznrse p a ra relacio n ar dos escalas nom inales (<¿>2, xh, e tc é te ra ),
mui escala nom inal y u n a d e intervalo (co rrelació n in trac la se), y¡
iltm escalas d e intervalo ( r ) . Las tre s m ed id as que vam os a exa­
m inar en esta sección, o sean la rs de S p earm an y la tau y la gam-
iiih d r K endall, pu ed en em p learse p a rp S I a c i o n a r e n tre sí d o s
cut iiliib o rd in ales. A condición que las dos variables pueden ali-
Hciu se, cu alquiera d e estas ú ltim as m edidas puede em plearse
jirtnt llar correlaciones q u e son algo parecid as a las del m om en­
to producto.
I,n* m edidas ordinales exam inadas en e s ta sección re su lta n
m|ii i vellidas cuando la relación e n tre X y Y es la q u e se denom ina
tm w nlónica en a um ento o bien m onotónica en dism inución. La
Itúni ile linealidad es desde luego in ap ro p ia d a en el caso de las
McnlitM ordinales, com o lo es tam bién la id ea de u n a distan cia
milit* vnlores de X (o d e Y ). Podem os, sin em bargo, h a b la r de
i#»tw limes que se en c u en tran en aum ento (o dism inución) cons­
tituir' línn función de au m en to m onotónico es aquella que o bien
«leinprc o p erm anece constante, a m ed id a que X aum enta.
|íii olí un palabras : cuando X aum enta, Y n o dism inuye. U na fun-
tílrtli lliienl constituye u n caso especial d e u n a función m onotó-
Mlt i« i~Ip Huiliento (o dism inución), p e ro tam b ién lo es u n a función
!m#hi lint leu tal com o Y = a + b lo g X . R econocem os dos clases
iIh i «Ilición no lineal, a sa b e r: las q u e son m onotónicas y las
t|M« in» lo No n . El ú ltim o tip o de relación n o lineal te n d rá p o r
*H|Mit'nlu mui o m ás c u rv atu ras o inversiones de dirección, com o
í»|i*ni|tliri( n una paráb o la o ecuación d e te rc e r grado.
I un fn v u e n e ia encontram os proposiciones teóricas de la for-
Htn ‘Vmtnln m nyor la X , m ayor la Y (o m en o r la Y )". E stas afir-
Mim Ihih 'i quieren d ecir q u e la relación e n tre l y F e s m onotóni-
M, («< i <i mi especifican en qué form a. Las m edidas ordinales
«propínelas cuando' se tra ta de proposiciones de esta na-
♦ Hería por supuesto p re ferib le re fin a r n u estra s teorías,
i4t> iiinilu que .se especificase si existe linealidad o alguna clase
p a rtic u la r d e no lin earid ad (p o r ejem plo, lo g arítm ica), pero si la
m edición no h a su p erad o el nivel ordinal, re s u lta rá im posible
d istin g u ir em p íricam en te e n tre altern ativ as lineales o n o lineales.
(V éase [22].)
/LarrB de Spearm an:< El p rin cip io q u e se halla en la base de la
m ed id a d e Spearrffanf es m uy sim ple. C om param os la o rdenación
d e dos gru p o s de m arcas to m an d o las diferencias d e los rangos,
c u ad rán d o las y luego adicionándolas, y tra ta n d o finalm en te dicha
m gdida. d e m odo' que su v alor sea.-fcLQ, siem pre que.Joa..6rdenes
estén p erfec ta m e n te de acuerdo, —1.0 si los órdenes discxgpan
to talm e n te, y cero si no se d a relación alguna. Si sim bolizam os
la d iferen cia e n tre dos lugares cualesquiera com o Dit hallam os el
N
v alo r de 2 D 42 y calculam os r, p o r m edio d e la fó rm u la :
<=i
y
6 2 D*
rs = i ---------íü L .------ ( X V III.10)
N ( N * ~ 1)

E sta fó rm u la p a ra r„ se obtiene to m an d o la fó rm u la p a ra una


co rrelació n m om ento-producto y aplicándola a rangos y no a
pu n tu acio n es b ru ta s, pudiendo así in te rp re ta r la m edida de
S p earm an com o la correlación m om ento-producto e n tre los ra n ­
gos d e X y los de Y.
Ilu strém o sla con algunos dato s reunidos p o r el au to r. Los
m iem b ro s d e u n cam p am en to d e tra b a jo fu e ro n ordenados de
su p e rio r a in ferio r desde los p u n to s de vista de la popularidad,
m ed id a p o r las am istades y d e la particip ació n en las discusiones
d e grupo. P a ra am bas variables el orden de clasificación de uno
significa u n a m arc a elevada. Los órdenes em patados se calculan
atrib u y en d o a cad a m arc a em p a ta d a la m edia aritm é tic a de la
p u n tu ació n q ue h a b ría recibido si no h u b iera em pates. Los v alo­
re s d e Di se calculan a continuación, tal com o se indica en el
cu a d ro X V III.3. Si el n ú m ero de em pates es pequeño, com o en
el p re se n te caso, no necesitam os in tro d u c ir m odificación en la
fó rm u la de rs. P ero si el n ú m e ro de em pates es considerable, en­
to n ces p u ed e calcu larse u n fa c to r de corrección (véase [19],
pp. 215-220). O btenem os, p u e s :

6(207.50)
r - i ------i--------- i- = 1 - .305 = .695
16(255)

O bsérvese que si las clasificaciones concuerdan perfectam ente,


x
2 D¡2 será cero, y el v alor d e rs se rá la unidad. Si bien la ins-
l i n t ¡ón directa de la fó rm u la no n o s d a inm ediatam ente los va­
loren de r, p a ra la independencia y la asociación perfectam ente
ueguliva, re su lta que p a ra la asociación negativa p erfec ta el valor
ili'l segundo térm in o será de —2.0 y, p o r lo tanto, r, será —1 .0.

C uaduo XVIII.3. Cálculo del coeficiente de Spearm an de la


correlación de rango

O r d e n de O r d e n de
l't'tsonas
popularidad participación

Ana 1 5.5 4.5 20.25


mu 2.5 5.5 3.0 9.00
Jim 2.5 1 — 1.5 2.25
iiiuis 4 2 —2.0 4.00
Mttrclu 5 3 —2.0 4.00
liiiui 6 9.5 3.5 12.25
Ruth 7 55 —1.5 2.25
Dorls 8 13.5 5,5 30.25
limitara 9 9.5 0.5 0.25
( ’ynlhiu 10 16 6.0 36.00
lUllo 11.5 5.5 —6.0 36.00
lio 11.5 11.5 0.0 0.00
Nniity 13.5 8 —5.5 30.25
Mnrl 13.5 15 1.5 2.25
Ni mi 15 11.5 —3.5 12J25
Nmuli 16 13.5 —2.5 6.25

Tolnl 0.0 207.50

I'hi ii In no asociación, el segundo fa c to r será exactam ente la


IHilttntl
N '• 10, la distribución d e selección de rs es aproxim adam en­
te uní-tiinl, ro n una desviación e stán d a r de l / y / N — 1. P or lo tanto,
♦»! i'Jrniplo que estam o s exam inando, el e rro r e stá n d a r será de
I A / 1 1 Como p ru e b a d e la hipótesis n u la de que n o se d a rela-
iwt* n i Im población, podem os calcular Z com o sigue:

Z = — r* ° = .695 y /Í 5 = 2.69
í/y w -i
•tilvMniiono* de la tab la n o rm al vem os que la relación es signi-
flrwllvt* «I nivel tle .0 1.
t a (>iu tfs K nutall. Al calcular la rs de S pearm an nos servim os
rft» lim i iimlindos de las diferencias en los rangos. La ta u de
fcwülrtl!, t'tt t timbio, que tam bién varía e n tre —1.0 y 1 .0, se b asa
•H utm (ípt'tiu lón algo d istin ta. E n efecto, calculam os p rim ero
u n a estad ística S buscando todos los pares posibles de casos y
observando si las puntuaciones están o n o en el m ism o orden.
Así, p o r ejem plo, supongam os que teníam os las siguientes com ­
binaciones de lugares:

a b c d

A 1 2 3 4
B 2 3 1 4

Como q u iera que las m arcas d e A se h an d ad o en orden ascen­


dente, podem os calcular S exam inando las clasificaciones d e B
u n a p o r u na. F ijándonos en el p rim e r valor de la h ilera B (indi­
viduo a), vem os que la m arc a d e B está en el orden apropiado
p a ra los p ares ( a ,b ) y (a,d). E n o tro s térm in o s: el individuo a
ocupa u n lu g ar in ferio r a b y d en am bas variables A y B. Por
o tra p arte , la m arca de B discrepa (con respecto a la m arca de
A ) p a ra el p a r (a,c), ya q u e a ocupa u n lugar in ferio r a c en cuan­
to a A, p ero inversam ente en c u a n to a B.
Sirvám onos de +1 cada vez que u n p a r determ in ad o se halla
ord en ad o igualm ente p a ra A y B (lo que se denom ina p a r “con­
co rd an te” ) y d e —1 cada vez que se h alla ordenado al revés (lo
que se denom ina p a r "d isc o rd an te” ). El valor de S se obtiene
sum ando dichos +1 y —1 p a ra todos los pares posibles. P or lo
tanto, 5 es igual al nú m ero d e pares concordantes C, m enos el
nú m ero de p ares discordantes D. P or lo tan to , la contribución
de los p a re s ( a,b), (a,c) y ( a,d ) e s: + 1 - 1 +1 = ( 2 - 1) = 1 . Con
objeto de te n e r en cuenta los dem ás pares, recorrem os la tabla
de izquierda a derecha. Vemos así que la contribución de los p a­
res ( b ,c ) y ( b,d) es de —1 + 1, o sea cero. Finalm ente, la co n tri­
bución del p a r (c,d ) es de + 1 . O bsérvese que de hecho podem os
o b ten er el v alo r to tal de S disponiendo p rim ero A en el orden
ap ropiado y exam inando luego sucesivam ente los lugares de la
h ilera B, co ntando cada vez el núm ero de lugares de la derecha
que están en el orden apro p iad o y sustrayendo los que están en
el orden co n trario. De este m odo, en este sencillo ejem plo ob­
tenem os :

S = C - D = ( 2 - l ) + ( l - l ) + ( l - 0) = 2

Si ah o ra dividim os S e n tre el v alo r m áxim o posible que podría


tener, esto e s : (N - 1) + (N - 2) + . . . + 2 + 1 = N (N — l)/2 , ob­
tenem os u n coeficiente que p u ed e v aria r de —1 a +1. Definimos
así el coeficiente tau 0 (según K endall [16]), adecuado cuando no
hay em pates, com o sigue :2
2 Este coeficiente, derivado de los datos de la muestra, se denomina a
veces t, en tanto que tau se reserva para la contrapartida de la pobla-
S C —D
(X V III .ll)
T° V i N i N - 1) lA N ( N - 1)

IU olí vio que si hay discrepancia perfecta en tre los dos sistem as
tlt» ni lim ación (esto es, si B estuviera ordenado com o 4, 3, 2, 1),
ni valor de S será —ViN^N — 1), y x será —1.0. Y asim ism o, si las
it'i'4 v¡iriubles no tienen relación alguna e n tre sí, las contribucio­
nes a .S positivas y negativas se invalidarán, y x será cero.
( un o b jeto de ilu s tra r el caso de los órdenes em patados, sir­
vámonos nuevam ente del ejem plo del cam pam ento de trab ajo .
iJUpongairios a los individuos en orden horizontal y reemplace*
iiiiih los nom bres p o r letras. N u estra disposición se p re sen ta en
i»i»l¡i turm a:
a I) cdef g h i j k l m n o p
A I 2.5 2.5 4 5 6 7 8 9 10 11.5 11.5 13.5 13.5 15 16
II V5 5.5 1 2 3 9.5 5.5 13.5 9.5 16 5.5 11.5 8 15 11.5 13.5

llm u m do seguir la regla de que siem p re que algún p a r com por-


it» un em pate, ya sea en la m arc a A o B , su contribución a S será
i »«i o, M irando p rim ero todos los pares que pueden fo rm arse con a,
VíMiion <iuc los pares (a ,b ), ( a,g) y (a.,k) no co n trib u irán con
mullí a S, ya que las m arcas de B p a ra todos dichos individuos
i*f»bin ligadas en 5.5. P o r lo tanto, la contribución de todos los
lienirtN pares será:
<»i,i ) (i/,*0 («,«) (a,f)(a,h ) (a,i) (a,j) (a,l) (a,m) (a,n) (a,o) (a,p)
I I -1 +1 +1 +1 +1 +1 +1 +1 +1 +1 = 9 —3 = 6

/V ron lin u ación com param os las m arcas de b con cada u n a de


In* m u irás a su derecha. Obsérvese, sin em bargo, que b y c están
IIUihIon con respecto a A. Como quiera, p o r lo tanto, que b y e
piirltr'ffin haberse dado lo m ism o en el o rd en inverso, hem os de
Hllnilmir r! p ar (b,c). Y en fo rm a análoga, los pares (b,g) y (b ,k )
i’Mfin tinados en B y, p o r consiguiente, no h arán contribución
iil|Mmu ¡i N. En e sta form a, p a ra los pares de b, obtenem os una
niinii» de () 2, o sea 7. R ecorriendo la ta b la de izquierda a dere-
t luí obtenem os finalm ente:
c /> - ( 9 - 3 ) + ( 9 - 2 ) + ( 1 3 - 0 ) + ( 1 2 - 0 ) + ( 1 1 - 0 )
■i ( 6 — 3 ) + ( 8 — 0 ) + ( 2 - 5 ) + ( 5 - 2 ) + ( 0 - 6 )
| (4-0) + (2 - 1 )+ (2-0)+ (0-2)+ (1-0)
60

ilini ■tcuiiiremos, sin embargo, el uso más convencional. La tau de Ken-


11,111 un ili-lir con Cundirse con las tau0 y tauft de Goodman y Kruskal,
lii-i i|in '.mi nproptadas para datos nominales,
Con o b jeto de corregir en relación con los em pates, hem os de
p ra cticar ah o ra u n a ju ste en el denom ina d o r d e tau. S em ejante
aju ste tiene el efecto de p ro d u c ir u n aum ento del v alo r num érico
de tau , si bien dicho aum ento será ligero, a m enos que el núm e­
r o de em pates sea m uy grande. L a fó rm u la de ta u (la que Ken-
dall designó com o t s ) puede generalizarse com o sigue:

Xh = --------------------------£ -------------------------- (X V III.12)


V '/ 2N(W - 1) - T y /V iN ( N — 1) - 17

en donde T = ,A 2 f i ( f i — 1), siendo t¡ el n ú m ero d e em pates en


cada g rupo d e em pates en A, y U = J4S «í(m í— 1), siendo u¡ el
nú m ero de em pates en cada grupo d e em pates en B . E n el ejem ­
p lo a n te rio r tenem os tre s em pates, de dos cada uno, en la varia­
ble A (p o p u larid a d ). P or lo ta n to :

T = M [2 (l) + 2(1) + 2 (1 )] = 3

Y en fo rm a análoga, hay tre s em pates, de dos cada uno, y una


m arca con c u a tro em pates en la variable B (p articip ació n ). Por
con sig u ien te:

U = 1/ 2[2(1) + 2(1) + 2(1) + 4 (3 )] = 9

De donde:

60 60 60
rh = ------------------------------------ ----------------------= ------- = .526
V [8 (1 5 )-3 ][8 (1 5 )-9 ] y/(U7)(lll) 114.0

Prueba de significación para tau. K endall [16] h a dem ostrado


que p a ra tam añ o s de m u estras de 10 o m ás, la d istribución de
m uestreo de S b a jo la hipótesis n u la será aproxim adam ente nor­
mal, con m ed ia de cero y variancia d ad a p o r:

o*2 = V is N ( N — 1 )(2 N + 5) (X V III.1 3 )

H ablando estrictam ente, la fó rm u la an terio r es aplicable sólo


cuando no h ay em pates, p e ro p u ed e se r usad a cuando el núm ero
de éstos es relativam ente pequeño. Si se d a u n gran nú m ero de
em pates, u n fa c to r d e corrección b a sta n te volum inoso h ab rá
de ser aplicado.
P ara p ro b a r la significancia d e ta u con los datos del cam po de
trab ajo , com enzam os p o r c o m p u tar as2 com o sigue:
O bteniendo la ra íz cu a d ra d a te n e m o s:

<r„ = 22.21

valor que p u ed e se r u sad o en el d enom inador de Z al p ro b a r la


hipótesis n u la d e que A y B no e stán relacionados. Así

S- 0 60.0
: 2.70
c3 22.21

y vemos q ue u n v alor d e ta u de .526 es significativo al nivel de .01.


M edidas ordinales para datos agrupados: tauc, gam m a, d yx y
d ,y. Una de las v en tajas de ta u resp ecto d e rs es que aquélla p u e­
do u tilizarse fácilm ente cuando se d a u n n ú m ero gran d e d e em ­
pates. Pese a q ue el cálculo de ru tin a q u e se acab a de d esc rib ir
resu ltaría sum am ente fastidioso en tales casos, podem os sim pli­
ficar m ucho el p rocedim iento cuando am bas categorías se h an
agrupado en categorías algo toscas. Así, p o r ejem plo, p u ed e
haberse colocado a perso n as e n cinco clases sociales, co n sid erán ­
dolas com o em p atadas co n resp ecto a la posición. Si la segunda
variable se h a categorizado en la m ism a form a, podem os serv ir­
nos de u n a fó rm u la de ta u m odificada, aprovechando con ello la
Inform ación d e q u e los d ato s h an sido efectivam ente o rdenados,
y rio sim plem ente p u esto s en categorías.
Podem os calcular S = C — D m ed ian te u n pro ced im ien to que
np d escribe m ás abajo. S irviéndonos de las fó rm u las que se aca­
ban de d ar, en co ntrarem os que el lím ite su p erio r de tauj, sólo
xcrá la u n id ad cuando el n ú m ero de h ilera s y d e colum nas sea el
mismo. Con o b jeto de co rreg ir p a ra el caso en que r¥=c, form a-
moN la razó n :

c —l)/m ]
(X V III.14)
ilomle m = M in (r,c )

Ai|u( seguim os a K endall en el em pleo del sím bolo xc, con o b jeto
ile distin g u ir la ecuación (X V III.14) de las fórm ulas p reced en tes.
Veamos ah o ra cóm o se calcula rc.
l , o s dato s del cu adro X V III.4 re p re se n ta n los lugares asignados
(i *17 estu d ian tes de in troducción a la sociología en la U niversi­
d a d de Michigan. La v ariab le B co m p o rta el in terés general del
■oillidiante en cuanto a a d o p ta r las fo rm as "ap ro p iad a s” o "co-
m v l a s ” de com p ortam iento en los m edios convencionales. E n
l a n í o que la v ariable A co m p o rta el deseo de fo rm a r p a rte de or-
H¡uii/:adones ú n icam ente con o b jeto de m e jo ra r la posición social.
Toda vez que la m edición de am bas variables fue m ás b ien tosca,
se decidió d iv id ir cada u n a de ellas en c u a tro c a te g o ría s : interés
alto, m o d erad am en te alto, m o d erad am en te b a jo y bajo. De este
m odo, si b ien cada variable c o m p o rta u n a escala o rd in al con u n
C uadro X V III.4. Datos com parados para el cálculo de la tau de
K endall a p a rtir de datos agrupados

Interés en la conducta adecuada (B)


Grado del deseo de formar
parte de organizaciones (A) Modera­ Modera­ Total
Alto damente damente Bajo
alto bajo

Alto 18 19 12 8 57
M oderadamente alto 16 16 12 10 54
Moderadamente bajo 11 14 18 16 59
Bajo 5 5 15 22 47
Total 50 54 57 56 217

g ran n ú m ero de em pates, los re su ltad o s pueden con todo re u n ir­


se en fo rm a de u n a ta b la d e contingencia.
Al ca lc u lar S será conveniente o b te n e r sep arad am en te C y D,
ya que dichas cantidades serán utilizadas tam b ién p a ra o tras
m ediciones d iscu tid as en esta sección. O bservam os en p rim e r
térm in o q ue las m arcas de A se h a n ord en ad o nuevam ente de
altas a b ajas, con la diferencia de q u e ah o ra tenem os 57 indivi­
duos “em p ata d o s” en cuanto a las m arcas altas, 54 en cu an to a
las m o d erad am en te altas, 59 en cu an to a las m o d erad am en te b a ­
ja s y 47 en cu an to a las b ajas. C onsiderando p rim e ro a los de
m arcas altas en cuanto a A, vem os que 18 las tien en tam b ién altas
e n S ; 19 m o d erad am en te altas, etcétera. P ara o b ten er las co n tri­
buciones a C y D (y p o r lo ta n to a S ) observam os que, com o
qu iera que todos los individuos de la categoría a lta d e A están
em patados, ninguno de estos p a re s co n trib u irá a C o D. Y en fo r­
m a análoga, n inguno de los p a re s de la m ism a co lum na co n tri­
b u irá a C o D, debido al hecho de que todos ellos están em patados
con resp ecto a B . Si nos fijam o s en u n a casilla d eterm in a d a cual­
quiera, to d as las m arcas q u e se h allan p o r debajo y a la derecha
d e la m ism a c o n trib u irá n al n ú m e ro de p ares C concordantes, en
tan to que to d as las que se en c u e n tra n p o r d eb ajo y a la izquierda
co n trib u irá n a D. Así, p o r ejem plo, cad a u n o de los 18 individuos
de la casilla p ro d u c irá p ares concordantes con cada u n a de las
m arcas
16 + 14 + 5 + 12 + 18 + 15 + 10 + 16 + 22
que quedan p o r deb ajo y a la d erecha de dicha casilla. E n total,
pues, la co n tribución de la casilla en cuestión a C será d e :
18(16 -|-14 -{" 5 + 12 + 18 + 1 5 + 10 + 16 -f- 22) — 18(128)

A continuación nos fijam os en los 16 casos inm ediatam ente de­


b ajo del ángulo izquierdo superior. C ada uno de estos indivi­
duos tien e tam bién m arcas altas de B. Con o bjeto de c o n ta r los
pares de contribuciones a C, volvem os a adicionar las cantidades
que fig u ran d ebajo y a la derecha. M ultiplicando luego p o r el
núm ero de casos te n e m o s :

16(14 + 5 + 18 + 15 + 16 + 22) = 16(90)

Al p asa r a las colum nas segunda y siguientes, em pezam os a


e n c o n trar contribuciones a C y D, ya que las colum nas de la iz­
qu ierd a tienen m arcas superiores de B . Así, p a ra la p rim e ra casi­
lla de la segunda colum na obtenem os com o contribución a C :

19(12 + 18 + 15 + 10 + 16 + 22) = 19(93)

y com o contribución a D la can tid ad 19(16 + 11 + 5) = 19(32).


R ecorriendo la tab la h acia ab ajo y h acia la derecha en fo rm a se­
m ejante, podem os o b ten er S h a sta cierto p u n to con facilidad,
com o sigue:

C = 18(128) + 16(90) + 11(42) + 19(93) + 16(71) + 14(37)


+ 1 2 (4 8 )+ 1 2 (3 8 )+ 18(22)
= 9055
D = 19(32) + 1 6 (1 6 )+ 14(5) + 12(67) + 12(35) + 18(10)
+ 8 (1 1 2 )+ 1 0 (6 8 )+ 16(25)
= 4314

l'ui1 ta n to : S = 9055 - 4314 = 4741

Asi pues:

4741
x0 = ------------------------------ = .268
]/ i( 2 1 7 ) 2 [ ( 4 - l ) / 4 ]

O bsérvese que el d enom inador de xc depende sólo del núm ero


de hileras y colum nas, y no de las distribuciones m arginales, las
<|tir* p or supuesto d eterm in an el n ú m ero d e em pates. E sto
liiu c que x0 sea difícil de in te rp re ta r, y, en este sentido, m enos
in lU fn clo ria que t s . 3 H ay tam b ién o tras varias m edidas que d i ­
11 l’iii'dc! demostrarse que en el caso k x k, en el que todos los totales mar-
Hinulfi .son exactamente N /k, Xb y t» serán iguales. De otra forma, en el
i mu k • le, t„ será generalmente menor que x¡, en valor numérico, aun cuan-
il»i ihii'iIn ser mayor que ts en el caso r x c.
fieren en relación con el m an ejo de los em pates en el denom ina­
dor. La m ás conocida de dichas m edidas es gam m a (y), la que
excluye p o r com pleto los em pates en el denom inador, y puede
adem ás se r ap licada a datos n o agrupados. La fó rm u la p a ra
gam m a es la sig u ien te:
C -D
y~ C+D

E n el ejem plo q u e estam os co nsiderando o b ten em o s:

9055 - 4314
« = ------------------ = .3 5 4
r 9055 + 4314

Se indicó en el capítulo xv que la Q de Yule, igual a (ad — b e ) /


(ad + be) es u n caso especial d e gam m a. Podem os p o r ello espe­
r a r que g am m a se conduzca esencialm ente igual e n los casos en
que las d istribuciones m arginales son m uy desiguales, debiendo
ob serv arse las m ism as precauciones que se aplicaron a Q. Como
ta n to gam m a corno t 0 y t 6 tienen to d as los m ism os n um eradores
y p u esto que el denom inador d e gam m a excluye to d o s los em pa­
tes, puede verse fácilm ente q u e | y | > | | > | xa | . E n general,
h asta el g rad o en que los totales m arginales p a ra A y B son m uy
diferentes, gam m a puede exceder a p o r u n a ca n tid ad aprecia-
ble. P o r ejem plo, en el caso del siguiente cu ad ro h ip o té tic o :

B
A Alta Media Baja Total
Alta 100 80 0 180
Media 0 20 80 100
Baja 0 0 20 20
Total 100 100 100 300

observam os q ue no hay p ares discordantes, de m odo que y = 1 .0.


Sin em bargo, xt = .77 y x0 = -68. El que u n o desee o n o referirse
a la a n te rio r asociación considerándola "p erfecta", dep en d erá de
los supuestos en relación con la causa de que las distribuciones
m arginales n o sean idénticas.
Además de las tau s y gam m a, tenem os dos m edidas asim étri­
cas, dy„ y d^y, ideadas p o r S om m ers [20] y definidas com o sigue:
C -D
y d u yu = --------------------------
" C + D + T»

en donde Tw es el nú m ero de pares que están em patados en X


pero no en Y , y Tv es el nú m ero de pares em patados en Y p ero ■
no en X . Si hacem os que se refiera al nú m ero de pares em ­
patados tan to en X com o en Y , y volviendo a la ecuación (X V III.
12) p a ra xb, verem os que T = TW+ T ^ , y V = Tv + Tav, y p o r tanto,
ya que el núm ero to tal de pares lá N iN — í ) = C + D + Tw + Ty +
tendrem os C + D + Tv = ViN (N - l ) - (T a + Txv) = ViN (N -
1) —T. De m anera análoga, el denom inador de dx¡/ es C + D + Tx
: lA N (N — 1) — U. Así, el p ro d u cto dvxdxy = t¡,2. E n este sentido
puede pensarse en las m ed idas asim étricas com o análogos decti-
ih ' s . Sin em bargo, como su asim etría es función del n ú m ero de
em pates, los que hab itu alm en te dependen de los procedim ientos
de clasificación, la analogía con los declives bvx y bxu es, en el
m ejor d e los casos, m uy tenue.
C ostner [5 ] h a señalado que p uede d arse a gam m a u n a in ter­
pretación de reducción proporcional en el e rro r sem ejante a la
dada a las t s o A¡> de Goodm an y K ruskal. Supongam os que de­
seamos pred ecir el orden de u n p a r de casos con respecto a B.
SI prescindim os de em pates, n u e stra probabilidad de in c u rrir en
error, no conociendo n ad a m ás, sería de .5. P ero si conocem os
rl orden con respecto a A , re su lta que el valor absoluto de gam m a
es igual al núm ero de erro res esperados conociendo A , m enos el
núm ero esperado no conociendo A, dividido en tre el nú m ero espe­
dido no conociendo A .
Tenem os así disponible u n núm ero de m edidas ordinales que
difieren sólo en relación con el trata m ien to de los em pates en el
denom inador. P or desgracia, no tenem os de o rdin ario reglas cla-
i un de decisión p a ra elegir en tre dichas m edidas, ya que las ra-
wiiics p ara los em pates perm anecen frecuentem ente en la oscuri­
dad. W ilson [23] h a dem ostrado que la p ropiedad de gam m a, de
i educción proporcional en el erro r, desaparece si se ad m ite que
luí errores pueden com eterse cuando se predice u n ord en con
it'npeelo a B si, en realidad, el p a r está em patado con respecto
ti II 1 Parece como si este p roblem a del m an ejo de los em pates
m» tuviera solución sencilla. Tal vez la m ejo r regla em pírica con-
nlMn en hacer uso de tan tas categorías de cada variable como
m posible, reduciendo así el nú m ero d e em pates, a la vez que
l.i’i diferencias e n tre las d istin tas m edidas.
• WII-hmi [231 hace observar que tales empates no están excluidos del
MiirtlIiiN iln los modelos de regresión. Así, si dos casos se encuentran suma-
dimito inóximos en relación con sus puntuaciones de X, predeciríamos que
mm iMiiiiunciones de Y también lo estarían. En este sentido, si hay un par
mii|'«Utiln con respecto a X, podemos esperar que lo esté también con res-
imi lu n V', y cometeríamos un error si así no fuera. ¿Cuál es la importan-
K ru sk al [17] h a d em o strad o que la m edida d e la r 8 de Spear-
m an pued e ser in te rp re ta d a en función de tríos de observaciones
en lugar de p ares, preguntándose cuál es la pro b ab ilid ad de que,
p o r lo m enos, u n a de las tre s observaciones sea concordante con
las o tras dos a la vez. Tal in terp re tació n tien e u n a m ucho m e­
n o r atracció n in tu itiv a que las in terp retacio n es m ed ian te pares,
a p a rte del h echo de que son m ayores n u estro s conocim ientos
acerca de los erro res d e m u estreo de ta u y gam m a. P or estas
razones p re fie re K ruskal la ta u a la r¡¡. Sin em bargo, si la d istri­
bución b ásica de las dos variables es realm ente b iv ariad a norm al,
el v alor ab soluto d e rs será m ayor que el de tau, y su com porta­
m iento p u ed e re su lta r m ucho m ás sem ejan te al de la correlación
m om ento-producto. T rabajos previos no publicados m u estran
q u e el co m p o rtam iento de las rs parciales ( después de corregidos
los em p ates) es m uy singular al d e las correlaciones parciales
cuando las relaciones verdaderas son norm ales m ultivariadas (véa­
se la definición e n el próxim o capítulo), p o r lo que sigue sin acla­
ra rse cuál de las m edidas es preferible. A nte tal situación, el
investigador d eb erá ap licar varias m edidas diferentes p a ra com ­
p ro b a r si se com portan de m an era sem ejante al aplicarse a los
datos q ue se exam in an.
Finalm ente, debem os to m a r n o ta de u n argum ento de W ilson
[ 22], quien afirm a que ninguna m edida o rdinal que im plique la
idea de p ares (o trío s) p u ed e te n e r propiedades plenam ente de­
seables. E l p u n to básico de W ilson está en que el razonam iento
teórico se fu n d a norm alm ente en leyes que son apropiadas p ara
un caso único, com o cuando especificam os p o r ejem plo que el
cam bio de u n a un id ad en X debe p ro d u c ir en Y el cam bio de byx
u nidades. Con b ase en tales teorías, no tiene sentido p en sa r en
función de p ares ordenados, los que p o r necesidad nos fuerzan
a realizar com paraciones a través de los casos. Si, p o r ejem plo,
la p ro p ia teo ría especifica q u e u n cam bio en el p o rc en taje de
negros p ro d u c irá u n cam bio en los niveles de discrim inación,
u n o se está refirien d o tal vez a u n a “ley” que o p era en el interior
de u n a sim ple localidad (u o tra s unidades de observación). No
se aplica d irectam en te a com paraciones a través de pares de ob­
servaciones. P or supuesto que, en tan to u n o defina su ta re a com o
u n a sim ple generalización de poblaciones fijas, n o se p lan teará
este tip o de dificultad conceptual. El lector d eberá co n su ltar a
W ilson si d esea u n análisis m ás com pleto. E stá bien claro que él
cía de este "error” al predecir incorrectamente los empates, comparada con
la del error de hacer predicciones equivocadas en los casos no empatados?
Como puede verse, toda esta cuestión de la exclusión de empates, procedi­
miento que tiende a favorecer a gamma en relación con las demás medi­
das, no resulta cosa sencilla. Por ello, cuanto mayor sea el número de em­
pates debidos a la crudeza de la medición, tanto más ambigua será la
elección entre las medidas y mayor la sensibilidad de los resultados de
tal elección.
em pleo de m edidas ordinales tra e consigo cierto núm ero de difi­
cultades que h a sta el m om ento no h a n sido resueltas adecuada­
m ente.
E jercicios
I. En los ejercicios 1 y 2 del capítulo xvii se calcularon tres coef¡cíen­
les de correlación.
a) Para cada uno de dichos coeficientes, empléese el análisis de va­
riancia para verificar la hipótesis nula de que o = 0. Respuesta,
F = .67; F = 7.09; F = 9.6.
h) Coloqúense intervalos de confianza del 99.9 por ciento con res­
pecto a las tres r.
c) Verifiqúese la relación entre la integración moral y la heteroge­
neidad en el caso de no linealidad.
d) Conviértanse los mismos datos en órdenes y obténganse la tau
de Kendall y la rs de Spearman para las tres correlaciones.
e) Verifiqúese cada uno de estos coeficientes de rango ordenados
en cuanto a significación.
2. En el ejercicio 3 del capítulo xvii se agruparon los índices de
integración moral y de heterogeneidad. Calcúlense para estos datos
agrupados la tau„ y la gamma de Kendall y compárese el resultado
con el que se acaba de obtener antes en el ejercicio Id de esta sección.

B ibliografía
1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2‘
ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, caps. 7 y 8.
2, Blalock, H. M .: "Estim ating Measurement E rror Using Múltiple
índicators and Several Points in Time”, American Sociological
Review, vol. 35, pp. 101-111, 1970.
Bohmstedt, G. W .: “Observations on the Measurement of Change”,
en Edgar Borgatta (ed.), Sociological Methodology 1969, Jossey-
Bass Inc., Publishers, San Francisco, 1969, cap. 4.
4. Christ, Cari: Econometric Models and Methods, John Wiley &
Sons, Inc., Nueva York, 1966, Parte III.
V Costner, H. L .: "Criteria for Measures of Association”, American
Sociological Review, vol. 30, pp. 341-353, 1965.
(>. Costner, H. L.: "Theory, Deduction and Rules of Correspondence”,
American Journal of Sociology, vol. 75, pp. 245-263, 1969.
/. Croxton, F. E., y D. J. Cowden: Applied General Statistics 3’ ed.,
Prentice-Hall, Inc., Englewood Cliffs, N. J., 1967, cap. 20.
H, Goodman, L. A., y W. H. Kruskal: "Measures of Association for
Cross Clasifications”, Journal of the American Statistical Associa­
tion, vol. 49, pp. 732-764, 1954.
V. Goodman, L. A., y W. H. Kruskal: “Measures of Association for
Cross Classifications, II: Further Discussion and References”,
Journal of the American Statistical Association, vol. 54, pp. 123-
163, 1959.
10, Goodman, L. A., y W. H. Kruskal: "Measures of Association for
Cross Classifications, III: Aproxímate Sampling Theory", Journal
of the American Statistical Association, vol. 58, pp. 310-364, 1963.
11. Haggard, E. A.: Intraciass Correlation and the Analysis of Va-
riance, The Dryden Press, Inc., Nueva York, 1958, pp. 22-26.
12. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 23.
13. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 16.
14. Heise, D. R .: "Separating Reliability and Stability in Test-Retest
Correlation”, American Socialogicat Review, vol. 34, pp, 93-101,
1969.
15. Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963, Parte II.
16. Kendall, M. G.: Rank Correlation Methods, Hafner Publishing
Company, Inc., Nueva York, 1955, caps. 1, 3 y 4.
17. Kruskal, W. H.: "Ordinal Measures of Association”, Journal of
the American Statistical Association, vol. 53, pp. 814-861, 1958.
18. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reason-
ing in Sodology, 2‘ ed., Houghton Mifflin Company, Boston, 1970,
cap. 10.
19. Siegel, Sidney: Nanparametric Statistics for the Behaviorál Scien­
ces, McGraw-Hill Book Company, Nueva York, 1956, cap. 9.
20. Somers, R. H.: “A New Asymmetric Measure of Association for
Ordinal Variables”, American Socialogicat Review, vol. TI, pp. 799-
811, 1962.
21. Wallis, W. A-, y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 17.
22. Wilson, T. P .: "A Critique of Ordinal Variables”, Social Forces,
vol. 49, pp. 432-444, 1971.
23. Wilson, T. P.: "A Proportional-Reduction-in-Error Inteipretation
for KendaH's tau-b”, Social Forces, vol. 47, pp. 340-342, 1969.
E n los dos ú ltim o s capítulos nos hem os ocupado de la relación
e n tre dos escalas d e intervalo, en tre u n a variable dependiente
y u n a sola v ariable independiente. Los análisis de correlación y
reg resió n pu ed en extenderse fácilm ente p a ra com p ren d er cual­
q u ie r n ú m ero d e escalas de intervalo, u n a d e las cuales puede
to m arse com o dependiente, y las dem ás com o independientes. El
p ro b lem a se p u ed e concebir com o u n p ro b lem a de predicción en
el q u e tra ta m o s d e p re d e c ir u n a v ariab le dependiente Y a p a r tir
de las variables X x, X 2, . . . , X k. H abrem os de servirnos d e nue­
vo de u n m odelo m uy sencillo, que será directam en te análogo a
la reg resió n lineal, excepto en cuanto al hecho d e que h a b rá m ás
de dos dim ensiones.
El concepto d e correlación se generalizará en dos form as. E m ­
plearem os el térm in o d e correlación parcial p a ra designar la co­
rrelació n e n tre dos variables cualesquiera cuando los efectos de
o tra s variables se h a n controlado. El de correlación m últiple,
en cam bio, serv irá p a ra in d icar qué ta n to de la variación to ta l de
la variab le dep en d iente p u ed e explicarse p o r to d as las variables
in d ep en d ien tes actu an d o co n ju n tam en te. V erem os que los m ate­
riales exam inados en el p re sen te capítulo co m p o rtan en su m ayor
p a rte extensiones d irectas d e razonam ientos p resentados a n te­
rio rm en te . U na vez que hayam os am pliado las nociones de co rre­
lación y regresión, estarem o s en condiciones, en el cap ítu lo si­
guiente, d e e m p re n d er el análisis d e covariancia, que com porta
u n a com binación de las técnicas d e regresión con el análisis de
la variancia.

X IX .l. R egresión m ú ltip le y m ínim os cuadrados


E n la reg resió n m ú ltip le tra ta m o s d e p re d e c ir u n a sola variable
dep en d ien te a p a r tir d e cu alq u ier n ú m ero d e variables indepen­
dientes. Si se d a u n g ra n n ú m ero d e variables de escala de in te r­
valo que d eb an relacio n arse e n tre sí, se rá posible, p o r supuesto,
p re d ecir cu alq u ier variable p a rtic u la r a p a r tir de cualquier
com binación de las dem ás. P o r lo re g u la r re su lta rá claro del
contexto cuáles variables h a n d e co n sid erarse com o indepen­
dientes y cuáles com o dep en d ien tes.1 Así, p o r ejem plo, puede que­
r e r p re d ecirse el éxito en la universidad a p a r tir d e u n a serie de
m arcas de a p titu d y del éxito en la escuela secundaria. O puede
re s u lta r posible p re d e c ir la ta sa de crecim iento de u n a ciudad
1 Cuando se crea que existe una causación recíproca, o retroalimentación,
de la variable "dependiente" hacia alguna de las demás, deberán emplearse
ecuaciones simultáneas en lugar de mínimos cuadrados. Véanse [4] y [12],
conociendo factores com o la m ag n itu d actual, los p o rc en tajes de
m ano d e o b ra en las diversas ocupaciones, o la m agnitud y la
distancia del g ra n cen tro u rb a n o m ás próxim o.
E n el análisis d e regresión m ú ltip le definim os la ecuación de
regresión com o el cu rso de la m ed ia de la variab le dependiente
Y p a ra to d as las com binaciones de X r, X 2, . . . , X k. E n o tro s té r­
m inos : p a ra cad a com binación d e X fijas h a b rá u n a distribución
d e las Y. C ada d istrib u ció n te n d rá u n a m edia |j,y|x1, x 2, ..., x ;. y
u n a desviación e stá n d a r oy[x 1( x2, .. ..x*, y habrem os d e supo­
n e r u n a vez m ás que todas estas distribuciones son norm ales y
que las desviaciones e stá n d a r son iguales (hom oscedasticidad).
El re co rrid o d e las m edias ya n o seguirá siendo u n a cu rv a en el
espacio bidim ensional, sino que será, a n tes bien, u n a especie de
h ip ersu p erficie e n u n espacio d e ( k + 1) dim ensiones. Es obvio
que ya n o estarem os en condiciones de re p re se n ta r u n cu rso se­
m ejante, excepto en el caso* en que sólo tengam os dos variables
in d ep en d ien tes y X 2.
E n el ca p ítu lo a n te rio r supusim os u n a ecuación de regresión
lineal de la fo rm a F = a + (5X. Y habrem os de volver a suponer
u n a fo rm a sencilla de la ecuación d e regresión. Supongam os, pues,
que el curso d e las m edias de Y ad o p ta la f o r m a :

Y = a + PíXj + p2X 2 + . . . + pjX* ( X IX .l)

en donde a, J3j, |32, . . . , p* son constantes. É sta es la ecuación m ás


sencilla posible d e regresión m últiple, y es directam en te análoga
a la regresión lineal en el caso de dos variables. E n efecto, si
to d as las (3, excepto una, son cero, el problem a se red u ce al caso
bidim ensional.
Si podem os su p o n er u n a población “n orm al m u ltiv ariab le” en
la que cada v ariable esté d istrib u id a n o rm alm en te a lre d ed o r de
todas las dem ás, entonces podem os satisfacer los tre s supues­
tos requeridos. E n otros térm inos, u n a d istrib u ció n n o rm al mul-
tívariable nos asegura que las ecuaciones de regresión serán de
la fo rm a a n terio r, que las distribuciones de las Y p a ra X d eter­
m inadas serán to d as norm ales, y que las v ariancias serán tam ­
bién iguales. E sto constituye u n a generalización obvia d e las
propiedades de la d istribución n o rm al bivariable. S obra decir que
la distribución n orm al m ultivariable n o puede re p re se n ta rse geo­
m étricam en te ( pese a que tiene u n a ecuación algebraica perfecta­
m en te d efin id a), to d a vez que tuvim os ya necesidad de tres di­
m ensiones p a ra re p re se n ta r el caso bivariable.
Con o b jeto d e p ro p o rcio n ar u n a m e jo r com prensión intuitiva
de la n atu raleza de las extensiones im plicadas, será conveniente
exam inar el caso en que no hay m ás que dos variables indepen­
dientes (véase la fig u ra X IX .l). La ecuación d e regresión Y = a +
¡üt-Xj + p2X 2 pu ede re p resen ta rse en este caso p o r m edio d e u n
plano en u n espacio tridim ensional. Si dejam os que X a = Xi2 = 0,
obtenem os Y = a, lo que in d ica que el p lan o de regresión c o rta
el eje d e las Y a u n a a ltu ra a. Con objeto de o b ten er u n a in te r­
p retació n de las p, tom am os las intersecciones del plano de re ­
gresión con planos p erp en d icu lares a los ejes de X x y X 2. Así,
p o r ejem plo, si tom am os u n plano p erp en d icu lar al eje d e X 2,

Fig. X IX .l. In terp retación geom étrica de la regresión m ú ltip le de


Y sobre X x y X^.

m antenem os de h echo a X 2 constante, ya q u e todos los p u n to s


situados en este p lan o te n d rá n el m ism o v alo r d e X 2. E ste plano
c o rta el p lan o de regresión en u n a recta, y la pen d ien te de esta
re cta será |3i- E n o tro s térm inos, si m antenem os X 2 en u n valor
fijo, Pi re p re se n ta la pen d ien te de la línea de reg resió n de Y a X j.
Y en fo rm a análoga, el hecho de m an ten e r co n stan te a X t nos
da u n p lan o q ue in te rse c ta el plano de regresión en u n a línea de
p en d ien te j}2.
Conviene o b serv ar que las {3 em pleadas en la regresión m ú ltip le
no serán p o r lo re g u la r las m ism as que las que se obtuvieron en
el caso de dos v ariables. D esignando el caso de dos variables
com o reg resió n total, vem os que la (3 em pleada en la regresión
to tal se o b tiene prescindiendo de las dem ás variables indepen­
dientes, y n o m anteniéndolas constantes. Las ¡3 obtenidas en las
ecuaciones de reg resión m ú ltip le se designan com o coeficientes
parciales, p o rq u e co m portan pendientes que se o b ten d rían eli­
m in an d o o m an ten ien d o co n stan tes cada u n a de las dem ás v aria­
bles in dependientes consideradas en la ecuación d e regresión.
El concepto de los m ínim os cuadrados p u ed e am pliarse e n una
fo rm a sem ejante. Como q u iera que es casi siem pre necesario
a p reciar u n a ecuación d e regresión ad a p ta n d o u n a a los datos
em píricos, h ab rem o s de re q u e rir u n a vez m ás q u e la ecuación de
Cross Classiftcations, III: Aproxímate Sampling Theory", Journal
of the American Statistical Association, vol. 58, pp. 310-364, 1963.
11. Haggard, E, A.: Intraclass Correlation and the Analysis of Va-
riance, The Dryden Press, Inc., Nueva York, 1958, pp. 22-26.
12. Hagood, M. J., y D. O. Price: Statistics for Sociotogists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 23.
13. Hays, W. L .: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 16.
14. Heise, D. R.: "Separating Reliabílity and Stability in Test-Retest
Correlation", American Sociological Review, vol. 34, pp. 93-101,
1969.
15. Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963, Parte II.
16. Kendall, M. G.: Rank Correlation Methods, Hafner Publishing
Company, Inc., Nueva York, 1955, caps. 1, 3 y 4.
17. Kruskal, W. H.: ‘‘Ordinal Measures of Association”, Journal o/
the American Statistical Association, vol. 53, pp. 814-861, 1958.
18. Mueller, J. H., K. Sehuessler, y H. L. Costner: Statistical Reason-
ing in Sociology, 2? ed., Houghton Mifflin Company, Boston, 1970,
cap. 10.
19. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien­
ces, McGraw-Hill Book Company, Nueva York, 1956, cap. 9.
20. Somers, R. H,: "A New Asymxnetric Measure of Association for
Ordinal Variables", American Sociological Review, vol. 27, pp. 799-
811, 1962.
21. Wallis, W. A., y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 17.
22. Wilson, T. P.: “A Critique of Ordinal Variables”, Social Forces,
vol. 49, pp. 432-444, 1971.
23. Wilson, T. P.: "A Proportional-Reduction-in-Error Interpretation
for K endairs tau-b", Social Forces, vol. 47, pp. 340-342, 1969.
E n los dos ú ltim os capítulos nos hem os ocupado de la relación
e n tre dos escalas de intervalo, e n tre u n a variable dependiente
y u n a sola v ariable independiente. Los análisis de correlación y
reg resió n pu ed en extenderse fácilm ente p a ra co m p ren d er cual­
q u ier n ú m ero de escalas de intervalo, u n a de las cuales puede
to m arse com o dependiente, y las dem ás com o independientes. El
p ro b lem a se pued e concebir com o u n p ro b lem a de predicción en
el q u e trata m o s de p re d ecir u n a variab le dependiente Y a p a rtir
de las variables X lr X 2, . . . , X k. H abrem os de servirnos de n u e­
vo de u n m odelo m uy sencillo, que será directam en te análogo a
la reg resió n lineal, excepto en cu an to al hecho de que h a b rá m ás
de dos dim ensiones.
El concepto d e correlación se generalizará en dos form as. E m ­
plearem os el térm ino1 d e correlación parcial p a ra designar la co­
rrelació n e n tre dos variables cualesquiera cuando los efectos de
o tra s variables se h an controlado. El d e correlación m últiple,
en cam bio, serv irá p a ra in d icar qué ta n to d e la variación to ta l de
la variab le dep en diente p u ed e explicarse p o r todas las variables
in d ep en d ien tes actu an d o co n ju n tam en te. V erem os q u e los m ate­
riales exam inados e n el p re se n te capítulo co m portan en su m ayor
p a rte extensiones d irectas de razonam ientos presen tad o s an te­
rio rm en te. Una vez que hayam os am pliado las nociones de co rre­
lación y regresión, estarem o s en condiciones, en el ca p ítu lo si­
guiente, de e m p re n d er el análisis d e covariancia, que com porta
u n a com binación d e las técnicas de regresión con el análisis de
la variancia.

X IX .l. R egresión m ú ltip le y m ín im o s cuadrados


E n la reg resió n m ú ltip le tra ta m o s d e p re d e c ir u n a sola variable
d ep en d ien te a p a r tir d e cu alq u ier n ú m ero d e variables indepen­
dientes. Si se d a u n gran n ú m ero de variables de escala d e in te r­
valo que deban relacio n arse e n tre sí, será posible, p o r supuesto,
p re d ecir cu alq u ier variable p a rtic u la r a p a r tir de cualquier
com binación de las dem ás. P o r lo re g u la r re su lta rá claro del
co n tex to cuáles variables h an d e co n sid erarse com o indepen­
d ien tes y cuáles com o d ep endientes.1 Así, p o r ejem plo, p u ed e que­
r e r p re d ecirse el éxito e n la universidad a p a r tir de u n a serie de
m arcas de a p titu d y del éxito en la escuela secundaria. O puede
re s u lta r posible p re d e c ir la ta s a de crecim iento de u n a ciudad
1 Cuando se crea que existe una causación recíproca, o retroalimentación,
de la variable "dependiente” hacia alguna de las demás, deberán emplear.se
ecuaciones simultáneas en lugar de mínimos cuadrados. Véanse [4] y [121.
conociendo facto res com o la m ag n itu d actual, los p o rcen tajes de
m ano de o b ra en las diversas ocupaciones, o la m agnitud y la
d istan cia del gran cen tro u rb a n o m ás próxim o.
E n el análisis de regresión m ú ltip le definim os la ecuación de
regresión com o el curso de la m edia de la variable dependiente
Y p a ra to d as las com binaciones de X lr X 2, . . . , X k. E n o tro s tér­
m inos : p a ra cad a com binación d e X fijas h a b rá u n a distribución
de las Y . C ada d istrib u ció n te n d rá u n a m edia u,y|x1( x2, . . . , x fc y
u n a desviación e stá n d a r gy|Xj, x2, . . . , xfc, y habrem os de supo­
n e r u n a vez m ás que to d as estas distribuciones son norm ales y
q u e las desviaciones e stá n d a r son iguales (hom oscedasticidad).
E l re c o rrid o d e las m edias y a n o seguirá siendo u n a curva en el
espacio bidim ensional, sino q u e será, antes bien, u n a especie de
h ip ersu p erficie en u n espacio de (fc + 1) dim ensiones. Es obvio
que y a n o estarem os en condiciones de re p re se n ta r u n curso se­
m ejan te, excepto en el caso en que sólo tengam os dos variables
in d ependientes X x y X 2.
E n el ca p ítu lo a n te rio r supusim os u n a ecuación de regresión
lineal d e la fo rm a Y = a + fiX. Y habrem os de volver a suponer
u na fo rm a sencilla d e la ecuación de regresión. Supongam os, pues,
que el curso d e las m edias de Y ad o p ta la f o r m a :

Y = a + frX i + p2X2 + . . . + % X lc ( X IX .l)

en donde a, |31; p2, . . . , son constantes. É sta es la ecuación m ás


sencilla posible d e regresión m últiple, y es d irectam ente análoga
a la reg resió n lineal en el caso d e dos variables. E n efecto, si
todas las p, excepto una, son cero, el problem a se reduce al caso
bidim ensional.
Si podem os su p o n er u n a población "norm al m u ltiv ariab le" en
la que cad a variable esté d istrib u id a no rm alm e n te alrededor de
todas las dem ás, entonces podem os satisfacer los tres supues­
tos req u erid o s. E n otros térm inos, u n a d istrib u ció n n orm al m ul­
tivariable nos asegura que las ecuaciones d e regresión serán de
la fo rm a a n terio r, que las distribuciones de las Y p a ra X d eter­
m inadas serán todas norm ales, y que las variancias serán tam ­
bién iguales. E sto constituye u n a generalización obvia de las
p ro piedades de la distribución n o rm al bivariable. S obra decir que
la distrib u ció n n o rm al m u ltiv ariab le n o puede re p resen ta rse geo­
m étricam en te (p ese a que tien e u n a ecuación algebraica perfecta­
m en te d efin ida), to d a vez que tuvim os ya necesidad de tres di­
m ensiones p a ra re p re se n ta r el caso bivariable.
Con o b jeto d e p ro p o rcio n ar u n a m ejo r com prensión intuitiva
de la n atu raleza d e las extensiones im plicadas, será conveniente
exam inar el caso en que n o hay m ás que dos variables indepen­
dientes (véase la figura X IX .l). La ecuación d e regresión Y = a +
P A + P2Y 0 p u ed e re p resen ta rse en este caso p o r m edio de u n
plano en u n espacio tridim ensional. Si dejam os que Xx = X :2 — 0,
obtenem os Y = a, lo que indica que el plano d e regresión co rta
el eje d e las Y a u n a a ltu ra a. Con o b jeto de o b ten er tina in te r­
p re ta ció n de las p, tom am os las intersecciones del plano de re­
gresión con planos p erpendiculares a los ejes de y X 2. Así,
p o r ejem plo, si tom am os u n plano p erp en d icu lar al eje de X 2,

Fig. X IX .l. In terp reta ció n geom étrica de la regresión m ú ltip le de


Y sobre X x y X ^

m an ten em o s de h echo a X 2 constante, ya q u e todos los p u n to s


situados en este p lan o te n d rá n el m ism o v alor d e X 2. E ste plano
c o rta el plano de regresión en u n a recta, y la pen d ien te de esta
re c ta será {3i. E n o tro s térm inos, si m antenem os X 2 en u n valor
fijo, re p re se n ta la p endiente de la línea de regresión de Y a X x.
Y en fo rm a análoga, el hecho de m a n te n e r co n stan te a X t nos
da u n p lan o q ue in te rse c ta el plano d e regresión en u n a línea de
p en d ien te |32.
Conviene o b serv ar que las |3 em pleadas en la regresión m ú ltip le
n o serán p o r lo re g u la r las m ism as q u e las que se obtuvieron en
el caso de dos v ariables. D esignando el caso de dos variables
com o reg resió n total, vem os que la |3 em pleada en la regresión
to tal se o b tien e prescindiendo de las dem ás variables indepen­
d ientes, y n o m an teniéndolas constantes. Las ¡3 obtenidas en las
ecuaciones d e reg resión m últiple se designan com o coeficientes
parciales, p o rq u e co m p o rtan pendientes que se o b ten d rían eli­
m inando' o m an ten iendo constantes cada u n a de las dem ás v aria­
bles in d ep en d ien tes consideradas en la ecuación d e regresión.
E l concepto de los m ínim os cu ad rad o s p u ed e am pliarse en u n a
fo rm a sem ejante. Como q uiera que es casi siem pre necesario
a p reciar tm a ecuación d e regresión ad a p ta n d o u n a a los datos
em píricos, h ab rem os de re q u e rir u n a vez m ás que la ecuación de
estim ació n re v ista u n a fo rm a p a rtic u la r y se sirva del criterio
de los m ínim os cuadrados p a ra conseguir el " m e jo r" ajuste. Nos
servirem os de u n a ecuación de m ínim os cu ad rad o s de la f o r m a :

(X IX .2)
y volverá a re s u lta r que, a condición que la ecuación d e reg re­
sión sea efectivam ente de la m ism a form a, la ecuación de los m í­
nim os cu ad rad o s re p re se n ta la m e jo r estim ación de la ecuación
de regresión. E n otros térm inos, si nos servim os d e a p a ra esti­
m a r a, y de fe¿ p a ra estim a r |3¡, estas estim aciones serán insesga-
das y, al p ro p io tiem po, d e eficiencia m áxim a. P o r consiguiente,
n u e stra aten ció n p u ed e fija rs e en el análisis d e los m ín im a
cu ad rad o s com o m étodo p ráctico d e estim a r u n a ecuación teó­
ric a que se aplica a la población. Si sólo h ay dos variables inde­
pend ien tes, aju stare m o s u n a serie de p u n to s en el espacio trid i­
m ensional con u n plan o d e m e jo r aju ste. E n u n espacio de (k +
1 ) dim ensiones, p o r su p a rte , aju stare m o s p u n to s con u n hiper-
p lan o de k dim ensiones, si es que sem ejan te fig u ra se puede
concebir.
T om ando el caso tridim ensional, reducirem os al m ínim o la can­
tid ad 2 ( F - Y pp, que re p re se n ta la sum a de las desviaciones al
cu a d rad o resp ecto del plano
d e m ínim os cu ad rad o s en la
dim ensión v ertical de Y (véa­
se la fig u ra X IX .2). El re ­
su ltad o será u n plan o único
d e m ejo r aju ste, determ inado
p o r valores específicos de a,
bx y b2. Según verem os, p u e­
de u tilizarse luego u n coefi­
ciente de correlación m ú lti­
ple p a ra m e d ir la b o n d ad de
a ju ste de los p u n to s al plano
de m ínim os cuadrados. Se­
ría tam b ién "posible, p o r su­
puesto, m e d ir el grad o de
a ju s te m ed ian te u n a desvia­
ción e s tá n d a r re fe rid a al pla­
no, y p o d ríam os co m p arar
esta desviación con la des­
viación e s tá n d a r en relación
con la Y fija (rep rese n tad a Fig. XIX.2. Plano d e m ínim os
ah o ra com o plano p erp en d i­ cuadrados, que reduce al m ínim o
c u la r al eje d e las Y ). Alge­ las sum as de las desviaciones al
b raicam en te, el caso m ás ge­ cuadrado en ta dim ensión
n eral es u n a am pliación di­ vertical Y.
re c ta del caso de tre s variables. La cantidad 2 (Y — Y p)2 se m ini­
m iza, y h a b rá q ue calcular ( k + 1) coeficientes, esto es, a, bít b2,
. . . bk. El cálculo efectivo de estos coeficientes será posible exa­
m in arlo m ás adelante, cuando hayam os efectuado el estudio de
la correlación parcial.

XIX.2. Correlación parcial


Podem os servirnos de este m odelo de regresión m ú ltip le p a ra
o b ten er m edidas del grado d e relación e n tre u n a variable depen­
d iente Y y cualquiera de las variables independientes, contro­
lando u n a o m ás d e ellas. El térm ino d e correlación parcial se
em plea p a ra d esignar este tipo de procedim iento de control, el
cual, según verem os, es básicam ente m uy sim ilar al re fere n te al
análisis de la variancia p o r dos m étodos. E n la correlación p a r­
cial co n tro lam o s aju stan d o valores de las variables dependientes
e in d ependientes con o b jeto d e to m ar en cu en ta las puntuaciones
de las variables de control. P ara com prender la n aturaleza de
la correlación p arcial y el procedim iento de ajuste, lim itarem os
p o r ah o ra n u e stra atención a los problem as m ás sencillos, en los
q ue fig u ran sólo tres varia­
bles, y supondrem os m ode­
los de regresión lineal en tre
las tres com binaciones de va­
riables tom adas de dos en
dos.
Supongam os que querem os
m ed ir el grado de relación
en tre u n a variable depen­
d ien te Y y u n a variable inde­
p endiente X lt controlando en
relación con o tra variable in­
dependiente X<¡. P ara servir­
nos de u n ejem plo concreto,
podem os ten er interés en
p re d ecir la ta sa d e discrim i­
nación económ ica c o n tra los
negros, m edida p o r las dife­
rencias de ingreso e n tre los
blancos y los negros, y el
grado de urbanización, según
re su lta del p o rc en taje de u n
[b)
d istrito designado com o u r­
Fig. XIX.3. R ectas de m ínim os bano. Se esp era con seguri­
cuadrados indicando los residuos d ad que el p o rcen taje de ne­
en tre: a) Y y X 2, y b) entre gros en el d istrito afectará
X, y X2 . . . asim ism o la tasa de discrim i­
nación, y se decide en consecuencia u tilizar el p o rc en taje de ne­
gros com o variable de control.
S upóngase q u e las líneas de m ínim os cuadrados e n tre la dis­
crim inación Y y el p o rc en taje d e negros X 2 y e n tre el p o rc en taje
u rb an o X 1 y el p o rc en taje de negros son com o las que se indi­
can en la fig u ra XIX.3. La relación en tre la discrim inación y el
p o rcen taje de negros es positiva, lo que indica q u e tasas elevadas
de discrim inación se hallan asociadas a p o rc en tajes elevados de
la m in o ría en cuestión. P o r o tra p arte , la relación e n tre el índice
de urbanización y el p o rc en taje de negros es negativa. Sobre la
base de la sola inform ación, anticiparíam os u n a relación negativa
e n tre las tasas d e discrim inación y la urbanización. E n otros
térm in o s: las áreas u rb a n as p o d rían ten er tasas b ajas, debido
sim plem ente al hecho de que en prom edio cuentan con relativa­
m ente m enos negros. Supóngase, sin em bargo, que estuviéram os
en condiciones, en alguna form a, d e "fo rzar" todos los d istrito s
a ten er los m ism os p o rcen tajes de la m inoría. Podríam os elim i­
n a r en esta fo rm a el efecto p e rtu rb a d o r d e esta te rc e ra variable.
E n realidad, p o r supuesto, no podem os h ac er efectivam ente to­
dos los p o rc en tajes de la m in o ría iguales, p ero podem os p o r lo
m enos e fectu ar aju stes en relación con el hecho d e que difieren.
Como q u iera que sabem os (o podem os ap reciarla) la relación
e n tre la variable de control y cada u n a de las o tras dos variables,
podem os p re d ecir cóm o se co m p o rtarían éstas resp ecto de cam ­
bios en la v ariable de co n tro l.2 De hecho, las ecuaciones de m í­
nim os cuad rad os rep resen tad as en la figura XIX.3 constituyen
n u estras ecuaciones de predicción y pueden em plearse en el p ro ­
ceso de ajuste.
Al relacio n ar la discrim inación Y al p o rc en taje de negros X 2,
podem os concebir la variación de las tasas de discrim inación
com o resu ltad o de dos com ponentes, siendo la p rim e ra de ellas
el p o rcen taje d e negros y, la segunda, debiéndose a o tro s factores,
un o de los cuales puede ser la urbanización. Como ya vimos, esta
segunda com ponente puede re p resen ta rse com o desviaciones res­
pecto de la ecuación de m ínim os cuadrados que com porta Y y X 2,
E n térm inos d e X 2, estas desviaciones o residuos rep resen tan
erro r. Aun si X & se m an tu v iera constante, subsistirían. En es­
tos residuos, p o r consiguiente, son en los que estam os en verdad
interesados, ya que rep resen tan la cantidad d e variación en la
discrim inación que subsiste u n a vez que el p o rc en taje de negros
h a explicado to d o lo que po d ía de la variación.
Y en fo rm a análoga, nos interesarem os tam bién en los residuos
o desviaciones respecto de la ecuación em pleada p a ra p redecir
el p o rcen taje u rb an o a p a rtir del p o rc en taje de negros. E n otros
2 Debe insistirse de nuevo en que la justificación para interpretar resulta­
dos de tal ajuste, hecho con lápiz y papel, implica el supuesto causal de que
la variable de control puede afectar a las otras dos variables.
térm in o s: dejam os que el p o rcen taje de negros explique la va­
riació n en las o tras dos variables to d o lo que pueda. Y si ahora
ponem os los residuos en relación de unos con otros, obtenem os
u n a m ed id a de la relación e n tre Y y X t que es independiente de
los efectos de X l2. La correlación parcial entre Y y Xx controlan­
do X2, puede definirse com o la correlación entre los residuos de
las regresiones de Y sobre X 2 y de X x sobre X 2. E n cierto sen­
tido, pues, la correlación parcial re p resen ta la correlación en tre
"e rro re s’' respecto de la variable de control.
El que tenga algún sentido co n tro lar en relación con X 2 corre­
lacionando residuos p o d rá parecer oscuro aún. Quizá la explica­
ción sea m ás aceptable si exam inam os m ás de cerca u n a relación
h ip o tética en tre dichos residuos. Supongam os, p o r ejem plo, que
p a ra el d istrito A encontram os u n gran residuo negativo al co rre­
lacionar Y con X 2. E sto significa que el d istrito A p re sen ta con­
sid erablem ente m enos discrim inación de lo que se esp eraría
conociendo solam ente su porcentaje d e m inoría. El p u n to que re ­
p re se n ta ra dicho d istrito p a rtic u la r se situ a ría en algún lu g ar p o r
d eb ajo de la línea de m ínim os cuadrados. Supóngase, asim ism o,
que el resid u o p a ra este m ism o d istrito fu e ra positivo al corre­
lacio n ar X i con X 2. E n tal caso sabem os que el d istrito en cues­
tión está m ás u rb anizado de lo que se esp e raría conociendo so­
lam en te su p o rc en taje de m inoría. Tenem os, p o r lo tanto, u n
d istrito relativam ente urbanizado con tasas b ajas de discrim ina­
ción, y sabem os, adem ás, que dichos valores son altos y bajo s
respectivam ente en com paración con o tro s d istrito s del m ism o
p o rcen taje de m inoría. No podem os, p o r consiguiente, a trib u ir
la relación negativa e n tre los residuos al hecho de que la cifra
del p o rc en taje de negros acontezca ser a lta o b aja. Y en fo rm a
análoga, el d istrito B puede ten er grandes residuos positivos
p a ra Y, p e ro negativos p a ra X t . P or consiguiente, este d istrito
ten d ría m ayores tasas de discrim inación d e lo que se esperaba,
p ero e sta ría al propio tiem po m enos urbanizado que o tro s d istri­
tos del m ism o p o rc en taje d e m inoría. Es obvio que si m uchos
d istrito s son sim ilares a A o B, obtendrem os u n a correlación ne­
gativa, e n tre los residuos, indicando u n a correlación negativa
e n tre la discrim inación y la urbanización, a ju sta n d o en relación
con el p o rc en taje de negros.
La correlación p arcial da u n a sola m edida que resum e el grado
de relación e n tre dos variables al co n tro la r en relación con otra.
Según verem os al exam inar los procedim ientos de cálculo, el ra ­
zonam iento pued e extenderse fácilm ente a variables de control
adicionales. Podem os concebir varias ecuaciones de regresión
m últiple, u n a de las cuales com porte Y y to d as las variables de
control, y la o tra relacionando X í con estas m ism as variables.
Pueden obten erse los residuos de cada u n a d e esas ecuaciones
de regresión m ú ltip le y relacionarlos luego. A justarem os en esta
fo rm a en relación con to d as las variables d e co n tro l al m ism o
tiem po. El p u n to im p o rtan te, aquí, es que sólo obtenem os una
correlación parcial, en ta n to que al co n tro la r con las tablas de
contingencia (con concesiones p a ra la in teracció n ) obteníam os
u n a m ed id a sep arad a p a ra cad a u n a de las categorías de las va­
riables de control.
E n el capítulo xv vim os q u e el grado de relación e n tre dos va­
riables p o d ía v a ria r de u n a categoría de la variable de co n tro l
a otra. Así, p o r ejem plo, si el p o rc en taje de negros se hu b iera
categorizado, es perfectam ente posible que hubiéram os obtenido
u n a elevada correlación negativa e n tre la discrim inación y la u r­
banización p a ra d istrito s de p o rcen tajes de m in o ría m uy bajos,
pero con u n a correlación positiva, de todos m odos, en el extrem o
opuesto del continuo p o rc en taje de negros. P o r lo tanto, el
hecho de que en la correlación p arcial hayam os obtenido una
sola m edida de resum en p u ed e acaso oscurecer cierta inform a­
ción acerca de la interacción.
R esulta que el coeficiente de correlación p arcial puede ser tam ­
bién in terp re tad o com o u n prom edio ponderado d e los coeficien­
tes de correlación que se h u b iera n obtenido si la variable de
co n tro l h u b iera sido dividida en m uy pequeños intervalos y calcu­
lando correlaciones separadas d en tro de cada u n a de estas cate­
gorías. La n atu raleza exacta de este procedim iento de pondera­
ción carece de im portancia, ya que n u n ca se hace uso de él en la
p ráctica. N o tendría, p o r tanto, sentido p en sa r que las correla­
ciones p arciales relacionan dos variables que "m antienen cons­
ta n te ” a u n a tercera, ya que la fuerza de su relación puede variar
d e acuerdo con el valor p a rtic u la r en que se m an tien e constante
la variable de control.
E n el caso d e la d istrib u ció n n orm al m ultivariable, sabem os
que todas las ecuaciones de regresión ten d rá n la fo rm a especial
d escrita p o r la ecuación (X IX .l). P ero la d istribución norm al
m u ltivariable posee adem ás o tra propiedad notable. Y es que
la fuerza de la relación en tre dos variables será la m ism a inde­
p en dientem ente de los valores de las variables d e control. En
otros té rm in o s : si se seleccionara u n gran n ú m ero d e categorías
de u n a v ariable de control y se obtuvieran correlaciones d en tro de
cada u n a d e dichas categorías, todas las correlaciones ten d rían
el m ism o valor. P or lo ta n to , la correlación p arcial ten d ría el
m ism o v alo r que cada u n a d e esas correlaciones d en tro de las
categorías. E n este caso especial, te n d ría así cierto objeto pen­
sa r en térm inos del m antenim iento constante de la terc era va­
riab le de control. Sin em bargo, com o quiera que en el m ejo r de
los casos sólo podem os aproxim am os a la distribución norm al
m ultivariable con datos reales, es m ás seguro p e n sa r en la corre­
lación parcial com o prom edio ponderado, o com o si co m p o rtara
un a ju ste e n relación con la variable d e control.
Cálculo de los coeficientes de correlación parcial. E l cálculo
de las correlaciones parciales es su m am ente sencillo, a m enos
que se desee co n tro la r en relación con tre s o m ás variables a la
vez. Antes de p re se n ta r la fó rm u la de la correlación parcial, he­
m os d e in tro d u c ir u n cam bio de notación. P o r desgracia, lo que
constitu y e u n a n o tación conveniente p a ra u n o b jeto no lo es p a ra
o tro , n i es el u so convencional to talm en te concordante. H em os
venido re p resen ta n d o la variable dependiente p o r Y y las v aria­
bles in dependientes p o r X ly X 2, . . . , X k. E n reconocim iento del
h echo de que la elección de la variable dependiente es a m enudo
m ás o m enos a rb itra ria y que, p o r consiguiente, podem os q u erer
calcu lar correlaciones parciales en tre varias com binaciones de va­
riables, convendrá re m u n e ra r sim plem ente las variables d e 1 a
k + 1 y re p re se n ta r la correlación e n tre las variables 1 y 2, co n tro ­
lan d o en relación con 3 m ed ian te r 12.s. Y en fo rm a análoga, la
co rrelación e n tre las variables 2 y 3, co n trolando en relación con
1 , p o r m edio d e r2:,.j.
E sta notación puede extenderse fácilm ente a cualquier n ú m ero
de variables de control añadiendo m ás núm eros a la derech a del
p u n to cen tral del subíndice. Así, p o r ejem plo, la relación en tre
las variables 5 y 7, con control d e las variables 1, 2, 3, 4 y 6, nos
vendría d ad a p o r r67.i2346- El ord en de las dos variables a la iz­
q u ierd a del p u n to n o juega papel alguno, lo m ism o que el de la
derecha. P ara d istin g u ir e n tre p arciales con n úm eros diferen tes
de control, designam os el n ú m ero de controles com o el orden de
la correlación. Así, pues, u n p rim e r o rd en p arcial te n d rá u n con­
tro l; u n segundo orden, dos controles, y así sucesivam ente. E n
concordancia con esta term inología, la correlación sin controles
se designa a m en udo com o correlación de ord en cero. Según se
h a indicado1 m ás arrib a , el térm in o correlación total se em plea
tam b ién p a ra d esignar u n a correlación e n tre dos variables sin
controles.
Podem os d a r a h o ra la fó rm u la del p rim e r orden p arcial r

Uj ,y ty i \
ri}.k .......... ..... - .... — ( X IX .3)
V 1- V 1 _ rik2

O bsérvese que la p rim e ra correlación del n u m era d o r es la co rre­


lación to ta l e n tre las dos variables a re lacio n ar (i y /). La v aria­
ble d e co n tro l fig u ra en la segunda expresión del n u m era d o r, en
donde se la relaciona con cada u n a de las o tra s variables, así
com o e n am bos térm in o s del denom inador. C ualquier correlación
p arcial p a rtic u la r puede o b ten erse a p a r tir de esta fó rm u la ge­
n eral, su stitu y en do i, j y k p o r los n ú m ero s apropiados. Así, p o r
ejem p lo :
r 13 ( ^*12 ) ( ^ 2 3 )
r 13.2 — — z u m iZ — ""
V 1 ~ riz2 V 1 ~ r232

E n un estu d io de 150 d istrito s del S u r [3], la correlación e n tre


la d iscrim inación en los ingresos y el p o rc en taje d e negros fue
d e .536; aq u élla e n tre la discrim inación e n los ingresos y el p o r­
ce n ta je u rb a n o fu e de .139, y la correlación e n tre los p o rcen tajes
de negros y u rb a n o fu e d e —.248. Si llam am os al índice d e dis­
crim inación v ariab le 1 , al p o rc en taje de negros v ariab le 2 y al
p o rc e n ta je u rb a n o variable 3, podem os o b ten er la correlación
p arcial en tre la discrim inación y el p o rc en taje urb an o , controlado
en relación con el p o rc en taje de negros. Tenem os así:

.139 — (.536) ( —.248) .2719


ri3-2-----------------------------------------------------------= .332
V I - (.536)2 V I - (-.2 4 8 )2 ,8178

E ste re su ltad o p u ed e in te rp re ta rs e com o cori-elación e n tre la dis­


crim inación y el p o rc en taje u rb a n o u n a vez que se h a d ejad o que
el p o rc en taje d e negros explique to d o lo q u e p u ed e de am bas
variables.
Si bien no re su lta rá in m ed iatam en te evidente que la fórm ula
a n te rio r p u ed a derivarse de la definición de la correlación p a r­
cial en térm in o s d e u n a correlación d e residuos, la fó rm u la de
cálculo, p o r lo m enos, tiene u n sentido. E n efecto, en el n u m era­
d o r su straem o s esencialm ente u n fa c to r de corrección de la co­
rrelació n to tal. E n cu an to al denom inador, éste co n sta de dos
factores de corrección, ninguno de los cuales pu ed e se r m ayor
q u e la unid ad , que to m an en cu e n ta el hecho de q u e la variable
d e co n tro l explica cierta pro p o rció n d e la variación de las o tras
variables. Si elevam os al cu ad rad o el coeficiente de correlación
parcial, el n ú m ero re su lta n te re p re s e n ta rá la p ro p o rció n de varia­
ción de la v ariable 1 (d iscrim in ació n ), d ejad a inexplicada p o r 2
(p o rc e n ta je de n egros), p e ro que p u ed e explicarse1 p o r los valores
aju stad o s de X3 (p o rcen taje u rb a n o ).
E xam inem os la ecuación (X IX .3) con m ayor atención, p a ra ver
cóm o la co rrelació n p arcial se c o m p o rta en relación con las tres
correlaciones totales. Con fines de sim plificación, supongam os
p rim ero que ri} es positiva. Si rilc y rjk tienen am bas el m ism o
signo (ya sea p ositivo o negativo), su p ro d u c to será positivo, y
el n u m era d o r será o bien u n n ú m ero positivo m en o r que rijr
o será inclu so cero o negativo. P o r o tra p arte , el denom inador
será siem pre m en o r que la un id ad , a m enos que rilc = rjk = 0.
P o r consiguiente, la fracción re su lta n te p u ed e se r casi cualquier
n ú m ero e n tre —1.0 y + 1 .0, según sea la m agnitud d e las tre s co­
rrelaciones to tales. V erem os m ás ad elan te exactam ente lo que
p odem os y lo que n o podem os decir acerca del com portam iento
d e la p arcial en estas circunstancias.
Supongam os ah o ra que las correlaciones con la variable de
co n tro l son de signos opuestos. O btenem os en ta l caso u n p ro ­
d u cto negativo a s u s tra e r de u n nú m ero positivo, y el re su ltad o
será u n n ú m ero positivo m ayor. E sto significa que si em pezam os
con dos variables relacionadas positivam ente y si podem os en ­
c o n tra r u n a v ariable de control relacionada negativam ente con
u n a d e ellas p ero positivam ente con la o tra, la p arcial re su lta n te
será m ay o r q u e la correlación de orden cero. Si la correlación
d e la variable de control con u n a u o tra d e las o tras variables
acontece se r cero, el fa c to r de corrección del n u m era d o r será
cero. P ero si la variable de control se h alla correlacionada ya
sea p ositiva o n egativam ente con la variable restan te, el denom i­
n a d o r será m en o r q u e la unidad, y la correlación p arcial volverá
a ser m ay o r que la correlación total.
Si h u b iéram o s em pezado con u n a correlación to tal negativa,
u n a v ariab le de control relacionada con ca d a u n a de las o tras
dos en la m ism a dirección (y a sea positiva o negativa) p ro d u ciría
u n a co rrelación negativa m ayor. Sin em bargo, si se relacionara
con ellas en sen tido opuesto, el re su ltad o sería análogo al que
se h a d escrito en p rim e r térm in o (e n donde la correlación to tal
e ra p o sitiv a y el fa c to r de corrección positivo asim ism o). ¿P or
qué? E n cam bio, si la v ariab le de control n o se relacio n ara con
u n a d e las o tra s variables, el re su ltad o sería u n a correlación
p arcial con u n v alor ab so lu to m ayor que la total. Y si la variable
d e co n tro l no se re la cio n ara con ninguna de las o tra s variables,
la co rrelación p arcial sería exactam ente igual, p o r supuesto, a la
co rrelació n to tal. Una vez que hayam os exam inado la relación
e n tre la co rrelación p arcial y las in terp retacio n es causales, esta ­
rem os en condiciones de d a r u n a ju stificació n intuitiva del com ­
p o rtam ien to de las correlaciones p arciales en estas diversas con­
diciones.
Las fó rm ulas de las parciales de segundo orden o su p erio r son
d irectam en te análogas a las de la p arcial d e p rim e r orden. E n
efecto, vam os añ adiendo sim plem ente variab les de control suce­
sivas, em pezando cada vez con la p arcial d e ord en u n o m enos
que el deseado. Así, p o r ejem plo, las fórm ulas de r i m y ris.Um
serán :
r ij-k ~~ ( ril-Jc)(rfl-k)
(X IX .4)
V I V *
y
O bsérvese que en la ecuación (X IX .4) suponem os q u e ya hem os
co ntrolado en relación con la variable X k. P or lo tan to , la k apa­
rece a la d erech a del p u n to en las tre s p arciales de p rim e r orden.
Y en fo rm a análoga, en la ecuación (X IX .5) hem os controlado
previam ente en relación con X k y X u y de aquí que estas can tid a­
des figuren en cada u n a de las parciales de segundo orden.
Las p arciales d e cu a rto y q u in to ord en p o d rían o b ten erse en
fo rm a análoga, y re su lta rá in stru ctiv o tr a ta r d e esc rib ir las fórm u­
las de estas p arciales de orden superior. De m odo que la m anera
de calcular estas ú ltim as es id én tica a la que em pleam os en el
caso del p rim e r orden. P ero el tra b a jo que supone se hace p ro n ­
tam en te ab u rrid o . Así, p o r ejem plo, con o b jeto de o b ten er u n a
parcial de te rc e r o rd e n con este m étodo, h an de h a b e rse obte­
n ido previam ente tre s parciales de segundo orden, cad a u n a de
las cuales h a de h ab e rse obtenido a su vez calculando parciales
de p rim e r ord en a p a r tir de correlaciones de orden cero. Si el
lecto r tra ta ra de expresar la fó rm u la de las parciales de tercer
orden d irectam en te en térm inos d e las correlaciones de o rd en
cero, se d aría cu en ta del tra b a jo que esto rep resen ta.
A fortunadam ente, en la investigación sociológica ra ra vez resul­
ta necesario ir m u ch o m ás allá d e las parciales de segundo o te r­
cer orden. P o r lo regular, la adición de controles m ás allá del
segundo o te rc e r control p ro p o rcio n a m uy pocos conocim ientos
nuevos. Si se h ace necesario servirse d e parciales d e ord en su­
p erio r, o de ecuaciones de regresión m ú ltip le de cu a tro o m ás
variables, existen ciertas ru tin a s d e cálculo que facilitan consi­
derab lem en te la labor. P ara tr a ta r tales problem as el lecto r po­
d rá re ferirse ya sea al m étodo abreviado de D oolittle o al de
Dwyer, de la raíz cu a d rad a (véanse [9 ] y [11]). De estos dos
m étodos, el p rim e ro tal vez sea m ás satisfactorio, p o r cu an to p e r­
m ite o b ten er d irectam en te las parciales sucesivas r12.3, r 12.34,
r 12-345, etcétera.
Correlación parcial de rangos ordenados. La teo ría d e las co­
rrelaciones p arciales de rangos ordenados está m enos bien des­
arro llad a. P uede extenderse al caso de las parciales d e p rim er
ord en la ta u d e K endall, aunque la in terp re tació n de la tau p ar­
cial no re su lta ta n aceptable in tu itiv am en te com o en el caso de
la correlación de producto-m om ento. Si n o hay em pates, resu lta
que la fó rm u la de la ta u parcial es id én tica a la que hem os estado
em pleando. (V éanse [13] y [19].) Así, p o r ejem plo:

(X IX .6)

En el caso que h ay a u n gran nú m ero de em pates p o d rá u sarse


u n procedim iento alternativo, sugerido p o r Davis [7 ] p a ra el caso
de gam m a, p ero su p rin cip io puede aplicarse a cualquiera de las
m edidas de ta u o a dvx y dxy. Si controlam os p a ra W, categoriza-
rem os sim plem ente W, com putando gam m as (u o tras m ed id as)
d en tro de las categorías de W, obteniendo u n prom edio ponde­
ra d o de dichas gam m as. P ero en lugar de p o n d e ra r según el n ú ­
m ero de casos en cada categoría, lo harem os según el nú m ero de
pares afectados. De esta m anera, en el caso de u n a gam m a p a r­
cial, estam os considerando ta n sólo aquellos pares que n o están
em patados, bien en X o en Y , p ero que lo están con respecto a
la categoría de la variable de control. Davis d em u estra que tal
p rom edio p o n d erado puede re cib ir u n a sim ple in terp retació n de
reducción p roporcional en el error. Q uade [16], ofrece u n proce­
dim iento análogo de prom edio ponderado p a ra el caso de ta u a, fa­
cilitando asim ism o u n a p ru e b a de significancia p a ra dicho parcial.
E n la investigación exploratoria puede te n e r sentido el utilizar
m ú ltip les variables de control, bien p o r am pliación de la fó rm u ­
la (X IX .6) o dividiendo las variables de control en m últiples sub-
categorías. Los cim ientos teóricos de tales procedim ientos no
son, sin em bargo, m uy firm es, p artic u la rm en te cuando se dan
num erosos em pates (véase [20]). Som ers [19] h a observado que
en el caso de las relaciones no m onotónicas m arcadas, el pro ce­
dim iento que Davis sugiere puede se r engañoso. Como n o rm a
general, en vista de n u e stra ignorancia acerca de las propiedades
y com p o rtam ien to de las m edidas ordinales parciales, puede re ­
su lta r p ru d e n te utilizarlas con precaución, com plem entándolas
con m edidas m om ento-producto aun allí donde las escalas legíti­
m as de in tervalo no estén plenam ente justificadas. E n u n te rre n o
ideal debe, p o r supuesto, in ten tarse m e jo ra r los procedim ientos
de m edición, ju stificando así el uso de p ru e b as y m edidas para-
m étricas m ás poderosas.
Como está im plícito en n u estra s an terio res consideraciones so­
b re los datos ordinales, u n a de las razones fundam entales p o r las
que re su lta difícil llegar a conclusiones definitivas en ord en a la
adecuación de m edidas altern ativ as está en que tales resp u estas
p arecen d ep ender del concepto que u n o tenga acerca d e la " re a ­
lid ad básica" que los datos reflejan. Ya hem os observado esto
en relación con la m anipulación de los em pates, y, en fo rm a im ­
plícita, con el proceso de categorización. Una m an era m uy p ro ­
m eted o ra de a ta c a r este difícil p roblem a supone la construcción
de u n a "realid ad ” cuyas propiedades sean conocidas, m ediante
el em pleo de datos originados en la com putadora, o de datos si­
m ulados. Pueden, p o r ejem plo, crearse variables con d istribucio­
nes de frecuencia norm ales, rectangulares o desviadas. Pueden
u sarse m odelos lineales o n o lineales, v a ria r las m agnitudes re la ­
tivas d e las variancias de e rro r y fo rm a r grupos de datos m ulti-
variados con e stru c tu ra s causales conocidas (p o r ejem plo, X y Y
con relación esp u ria debida a Z o varias Z¡). Los datos podrían
a continuación se r agrupados d e d istin ta s m aneras, utilizando di­
versos procedim ientos, com parando las diferentes m edidas o rd i­
nales en v ista de su conform idad con el com portam iento deseado.
P o r ejem p lo : ¿se reduce casi a cero la parcial e n tre X y Y cuan­
do se co n tro la p a ra Z, allí donde los datos h a n sido creados de
co nform idad con el m odelo X +-Z-* Y?
Reynolds [17] h a logrado algunos resu ltad o s esperanzadores
utilizando v ariedad d e m odelos, tip o s d e d istribución de frecuen­
cias y m odelos n o lineales, y m ed ian te la introducción de cierto
n ú m ero d e com plicaciones adicionales, hab ien d o en co n trad o que
si se utilizan p o r lo m enos cinco niveles de cada variable (aunque
p refere n tem en te deban se r h a s ta diez), pueden lo g rarse m uy
buenas aproxim aciones al com portam iento de las parciales m o­
m ento-producto, utilizando d iferen tes procedim ientos d e separa­
ción y cualesq uiera de las m ed id as xt, xc, d yx o r a, corregida p a ra
em pates. Si el n ú m ero de estos ú ltim o s es apreciable, los valores
num éricos d e las asociaciones to tales que utilicen xa (la que no
co rrig e p a ra em p ates) tien d en a s e r tan bajo s que re su lta difícil
d istin g u ir sus valores de los de las parciales. Si el to ta l xa es de
solam ente .20, el e rro r de m u estreo pu ed e se r suficiente p a ra que
resu lte difícil d eterm in a r si h u b o o n o u n a reducción suficiente­
m en te g ran d e en la parcial q u e p e rm ita apoyar la hipótesis de
que la relación es espuria.
T am bién h a en co n trad o R eynolds que la gam m a n o se com por­
ta tan bien b a jo el seccionam iento com o las o tra s m edidas, tal
vez p o r causa de su sensibilidad extrem ada an te m arginales des­
iguales. E n los casos en que el m odelo co rrec to im plica u n a re ­
lación esp u ria e n tre X y Y debida a W, los controles so b re W no
reducen la gam m a parcial a cero. Los datos d e Reynolds parecen
tam bién fav o recer el em pleo d e los procedim ientos de secciona­
m iento de prom edios ponderados p o r com paración con el uso de
la fó rm u la d e seccionam iento de la ecuación (X IX .6), aun cuan­
do debe ten erse p resen te la ad v erten cia d e S om ers re la tiv a a las
variables d e co ntrol n o m onotónicas. P o r últim o, y esto es im por­
tan te, R eynolds h a encontrado q u e el seccionam iento (usando
prom edios p o n d erad o s), con xh, xc y d m dio excelentes resultados
en el caso d e las relaciones m onotónicas, p ero n o lineales, en
ta n to que los p rocedim ientos m om ento-producto o p aram étricos
n o los daban. E n el ú ltim o caso, si se conocen las puntuaciones
reales, sería p re ferib le tra b a ja r con m odelos explícitos n o lineales
y procedim ientos param étrico s. E n ausencia d e ta l conocim iento,
el em pleo d e los procedim ientos p aram étrico s con puntuaciones
asignadas a rb itra ria m e n te (y conservando el o rd e n ) dio re su lta­
dos engañosos.
Debe observarse, p o r últim o, que el p roblem a de c re a r m edidas
d e correlación m últiple, usando técnicas ordinales, n o h a sido
estu d iad o sistem áticam ente. M orris [15] h a en co n trad o incluso
que ta n to la gam m a com o la dyx tienen la indeseable propiedad
d e que si se fo rm an m edidas d e correlación m últiple u san d o p ro ­
cedim ientos p lenam ente razonables, la agregación de m ás valo­
res explicativos puede trad u c irse realm en te e n la dism inución de
los valores de dichas dos m edidas. Sugiere u n a m edida a ltern a­
tiv a Yfc que es u n a generalización m u ltiv ariad a d e la d ^ (n o d e la
dyx) de Som ers, com o m ed id a asim étrica d e asociación m últiple
o rd in al m ás apropiada.

XIX.3. Correlación parcial e interpretaciones causales


Y a se señaló que el análisis d e correlación n o se puede em plear
d irectam en te p a ra estab lecer causalidad debido al hecho d e que
las correlaciones sólo m iden la covariación, o sea el grad o en
que diversas variables cam bian ju n ta s. Sin em bargo, u n o de los
objetivos básicos de to d a ciencia está en establecer relaciones
causales. In d ep endientem ente de las reservas filosóficas que se
p u ed an sen tir en cu an to a las nociones de causa y efecto, es su­
m am ente difícil p en sa r teóricam ente en cualesquiera otros térm i­
nos. E n el capítulo ix se señaló que existe u n a b rech a m uy real
e n tre el lenguaje teórico, que em pleam os p a ra pensar, y el len­
guaje operativo, del que nos servim os p a ra verificar las hipótesis.
E l p ro b lem a espinoso de la causalidad no es m ás que o tra indi­
cación de la existencia de dicha brecha. P ensam os a m enudo en
térm in o s de relaciones causales que co m portan secuencias tem ­
porales necesarias. Así, p o r ejem plo, si A es causa de B , enton­
ces B h a d e seguir necesariam ente a A, y si ^4 está ausente, B h a
de estarlo asim ism o. P o r supuesto, este concepto de la causali­
d ad está excesivam ente sim plificado. P o r lo pro n to , n o se han
tenido en cuenta o tra s variables, y sólo tien e sentido h a b la r de
causa y efecto cuando se pueden establecer ciertos supuestos a
p ro p ó sito de esos o tro s factores. P or o tra p arte , A y B pueden
v a ria r en grado, y no sim plem ente estan d o p resen tes o ausentes.
E m píricam ente, p o r supuesto, n u n ca podem os p ro b a r que la
conexión en tre dos variables sea necesaria. Podem os averiguar,
en cam bio, el grado en que varíen ju n ta s, y re su lta asim ism o po­
sible, e n ocasiones, re g istra r la secuencia tem p o ral im plicada. A
p a r tir de estos dos fragm entos de inform ación podem os fo rm u ­
la r deducciones causales si querem os. Si n u e stra te o ría puede
d e m o stra r u n a conexión lógica en tre dos variables, o> p red ecir
que B seguirá a A, n o necesitam os ato rm e n ta rn o s dem asiado por
el hecho de efectu ar el salto intelectual a la in terp re tació n cau­
sal. P o r o tra p arte , si no logram os h a lla r razón teó rica alguna
p a ra enlazar d irectam ente dos acontecim ientos, solem os, p o r lo
regular, sentirnos m ás vacilantes. Tenem os m ayor propensión, p o r
ejem plo, a co n siderar la relación com o espuria. P or desgracia,
n ad a hay en el análisis d e correlación que nos ayude a decidir
al respecto, a m enos que estem os dispuestos a a d m itir algunos
supuestos a p ro p ó sito de las variables p artic u la res consideradas
y a p ro p ó sito d e o tras, que acaso pu ed an p ro d u c ir tam bién sus
efectos. Veam os cóm o h a b rá n d e se r dichos supuestos.
Supóngase q u e estam os investigando la relación e n tre el con­
sum o p er capita de helados y las tasas de la delincuencia juvenil.
Es p ro b ab le q u e hallem os u n a relación negativa. U na d e las in­
terp retacio n es causales posibles sería la de p en sa r que los helados
son ta n buenos p a ra los niños que previenen la delincuencia. O tra
p o d ría ser la de que las tasas elevadas de delincuencia hacen que
los niños p ie rd a n su gusto p o r los dulces. P o r supuesto, descar­
taríam o s in m ed iatam en te dichas in terp retacio n es p o r absurdas,
pese a que o tra s n o m enos ab su rd as se hayan to m ad o en serio
en algún m o m ento u otro. Se razo n aría probablem ente en el sen­
tid o de que la relación h allad a e ra espuria, p o r cu an to una
te rc e ra variable, el ingreso, p o r ejem plo, era cau sa de que las dos
variables v aria ran d e tal m odo que re su lta ra d e ello u n a correla­
ción negativa.
Una p ru e b a del ca rác te r espurio, válida adem ás si se em plea
adecuadam ente, consiste en co n tro la r en relación con el nivel del
ingreso. Si la correlación parcial
e n tre el consum o de helados y la z
delincuencia se reduce a cero, o a
cerca d e cero, podem os ded u cir que
no se d a relació n causal e n tre las
dos variables. ¿Podem os, efectiva­
m ente? Tom em os o tro ejem plo m uy
parecido. S upóngase que e n c o n tra­
m os u n a relación negativa e n tre el
nivel del in g reso y la delincuencia,
y decidim os co n tro la r en relación
con el p o rc e n ta je de hogares des­
hechos en el á rea considerada. Po- Fig. XIX.4. Las seis flechas
dem os h a lla r d e nuevo que la par- causales posibles entre
cial se reduce a cero. ¿E s p o r ello X, Y y Z.
esta relación esp u ria? E sta vez ya
no estam os ta n seguros, p ese a que n o haya acaso absolutam ente
n ad a en la m ag n itu d de las correlaciones o en el com portam iento
de las p arciales que difiera en m odo alguno del p rim e r caso. Con
el p ro p ó sito de a ta c a r el p ro b lem a básico que aquí se nos plan­
tea, volvam os a trá s y considerém oslo en fo rm a u n poco m ás sis­
tem ática.
L im itando d e m om ento n u e s tra atención al caso de tres varia­
bles, observam os que se d an seis conexiones causales posibles
en tre éstas. Si designam os las variables com o X , Y y Z e indica­
m os la dirección d e la causalidad p o r m edio de flechas, podem os
tra z a r u n d iagram a de las conexiones posibles, com o en la figu­
ra XIX.4. E n to d o p ro b lem a determ inado, p o r supuesto, algunas
d e esas flechas h a b rá n de b o rrarse. D escartam os la posibilidad de
la causalidad de doble sen tid o razonando en el sentido de que, si
se seleccionan acontecim ientos discretos, la secuencia tem poral
h a b rá de se r en u n sentido o en otro, p ero n o en am bos a la vez.®
Así, p o r ejem plo, en lu g ar de sostener q u e el desem pleo produce
recesión económ ica y viceversa, digam os que el desem pleo d e Jo ­

ca) (el
•Z

X- *Y \
(</) (*) (f)

Fig. XIX.5. R elaciones causales posibles entre X, Y y Z, tom ando


a Y com o variable dependiente y excluyendo la causalidad
en dos direcciones.

nes es causa de que éste g aste m enos dinero, lo cual d eja a su vez
sin em pleo a S m ith, etcétera. Nos quedam os entonces con sólo
ciertas relaciones causales posibles, que se h an indicado en la fi­
g u ra XIX.5. Con o b jeto de re d u c ir el nú m ero de figuras de la figu­
ra XIX.5, se h a decidido* a rb itra ria m e n te escoger a Y com o varia­
ble dependiente, o sea com o aquella que h a d e o c u rrir com o ú ltim a
en cu a lq u ie r secuencia tem p o ral. De ahí q u e n o se hayan trazad o
flechas de Y a X o a Z. De to d as estas relaciones posibles, las
tres p rim era s n o rev isten in terés ni re q u ie ren com entario u lte­
rio r. Adem ás, con o b jeto d e sim plificar la cosa, lim item os nues­
tr a atención a aquellas figuras en las que sólo se h an trazado
dos flechas causales (d , e, /, g y h ).

3 La mayoría de las situaciones empíricas son, por supuesto, mucho más


complejas de lo que esta sencilla ilustración sugiere, requiriéndose técnicas
más avanzadas, procedimiento que se aplica cuando los supuestos adecua­
dos para las pruebas dé mínimos cuadrados no se reúnen. Véanse [21, [4] y
[12] para un examen más detallado de este problema.
¿Podem os d istin g u ir e n tre estos varios m odelos inspeccionando
las m agnitudes relativas de los coeficientes d e correlación? La
resp u esta es afirm ativ a si estam os dispuestos a h ac er dos clases
d e supuestos. S im ón [18] h a d em o strad o m atem áticam en te lo que
dichos su p u estos deban ser. Prim ero, hem os de e s ta r e n condi­
ciones de elim in a r algunos d e los m odelos, p o stu lan d o que p o r
lo m enos algunas d e las relaciones posibles son inconsistentes.
E sto ya se h a hecho h a s ta cierto pu n to , al elim in ar todas las
dobles flechas, así com o al to m a r a Y com o v ariab le dependiente,
o sea suponiendo que n o podía se r causa ni de X ni de Z. H abrán
de h acerse adem ás otros supuestos, p ero éstos los dejam os p a ra
m ás adelante.
El segundo tipo de supuesto general que hem os de establecer
se refiere a o tra s variables que p o d rían eventualm ente actuar.
Supongam os, siguiendo a Sim ón, q u e to d as las dem ás variables
que influyen so b re X n o están relacionadas con to d as las o tra s que
afectan a Y y Z, etcétera. E n o tro s térm in o s: podem os ad m itir
la existencia de o tra s variables incontroladas, p ero hem os de su­
p o n er que la influencia que ejercen so b re X , Y y Z es esencial­
m ente fo rtu ita . O bsérvese que esto im plica en re alid ad u n a com ­
binación d e su p uestos m ás débil que la que suele co m p o rta r el
m odelo del experim ento ideal, en el que se supone q u e to d as las
variables "relev an tes” h an sido controladas. R econocem os la in­
fluencia p e rtu rb a d o ra de o tras variables en que n o esperam os
que las correlaciones sean perfectas. P or o tra p a rte , hem os de
su p o n er que o p eran de ta l m odo que no p e rtu rb e n el patrón
de las relaciones e n tre X , Y y Z. E sta condición p u ed e realizarse
aproxim adam ente en la p rá ctica si a c tú a u n g ra n n ú m ero de
o tras variables, ninguna de las cuales ejerce gran efecto sobre
m ás de u n a de las variables consideradas.
Si existe u n a variable ex tern a d e efecto p e rtu rb a d o r, deberá
in tro d u cirse en el m odelo com o c u a rta variable. Sim ón argum en­
ta en el sen tid o d e que esto es lo que debem os h a c e r siem pre,
y que el hecho d e que n o nos satisfag a la explicación causal en
el caso de dos variables es la razón de que introduzcam os la no­
ción de u n a relación espuria. Así, p o r ejem plo, si estuviéram os
convencidos de que no existía v ariab le tal alguna que p e rtu rb a ra
la relación e n tre el consum o de helados y la delincuencia, y si
pudiéram os excluir la posibilidad de que la delincuencia p ro ­
duce una b a ja d e la venta de helados, entonces n a d a ten d ríam o s
que o poner a la explicación de que la flecha causal vaya en sen­
tido opuesto. E introducim os el fa c to r ingreso p recisam en te p o r­
que esperam os que esta ú ltim a variable afecte a la relación en tre
las dos p rim eras. Y en fo rm a análoga, añadiríam os al sistem a
u n a cu a rta o q u in ta variable, p e ro hem os de e sta r dispuestos a
detenernos en algún lugar. E n este punto, si hem os de fo rm u lar
en p rin cip io alguna deducción causal, cualquiera que sea, hem os
d e su p o n er que el sistem a está cerrado, en el sentido que aca­
b am os de describir.
O bsérvese que nos encontram os en la posición con la que esta­
m os ya fam iliarizados de te n e r que a d o p ta r algunos supuestos
q ue no se d ejan verificar em píricam ente m ed ian te el análisis es­
tadístico. N o será posible, p o r consiguiente, estab lecer el ca rác te r
co rrecto de u n m odelo causal p a rtic u la r cualquiera, p e ro pode­
m os p ro ced er p o r elim inación. Así, p o r ejem plo, uno de los m o­
delos indicados en la fig u ra XIX.5 p o d rá p a re c e r eficaz; sin
em bargo, el m odelo co rrecto p o d ría c o m p o rta r en realidad cu a tro
o m ás variables, y el cu ad ro p re se n ta rse en fo rm a totalm ente
d istin ta. Con todo, habiendo' adoptado' los supuestos en cuestión,
podem os servirnos del análisis m atem ático fo rm u lad o p o r Sim ón,
p a ra llegar a ciertas relaciones anticipadas que deberían verifi­
carse en tre las correlaciones si el m odelo p a rtic u la r es efectiva­
m en te correcto-. Según verem os, exactam ente las m ism as relacio­
nes em píricas se an ticip an p o r algunos de los m odelos anteriores,
obligándonos a escoger so b re o tras bases. Es aquí donde hem os
d e serv im o s del p rim e r tipo d e su p u esto exam inado m ás arrib a,
o sea de que algunas relaciones causales no se realizan. Con todo,
sin em bargo, exam inem os prim ero' las predicciones m atem áticas
relativas a las in terrelacio n es e n tre coeficientes de correlación.
Si nos fijam os en la fig u ra XIX.5g, vem os que las relaciones
e n tre X y Y y e n tre X y Z son directas, en ta n to q u e la relación en ­
tre Y y Z sólo es ind irecta. Lo propio' se aplica a la fig u ra h. E n
estos dos casos, el sentido' com ún su g eriría que, si todas las de­
m ás variables a c tu a ra n d e m odo esencialm ente fortuito, esp era­
ríam os en c o n trar que la correlación e n tre Y y Z es m en o r en
m ag n itu d que cu alq u iera de las o tras dos. Y en fo rm a análoga,
en las figuras X IX .5e y f esperaríam os que la relación e n tre X y
Y fu e ra la m ás pequeña de las tres, prescindiendo d e los signos.
Como ío revelan ¡as m atem áticas, podem os incluso' p ro n u n c ia r­
nos en fo rm a m ás categórica. Es posible, en efecto, d em o strar
tan to p a ra (g ) com o p a ra (h), en las que la relación en tre Y y Z
es in d irecta, q u e:
Qvz = Q xyQ xz

N os hem os servido de las p p a ra in d icar que estas relacionéis


exactas sólo pueden esp e rarse en la población, y que los valores
de las r de la m u e stra se a p a rta rá n p o r lo re g u la r de esa relación
estim ad a, a causa de las fluctuaciones de la m u estra. Y en fo r­
m a análoga puede d em o strarse que p a ra los casos (e) y ( / ) ten­
drem os :
Qx y — Q xzQ rz

T oda vez que los valores absolutos d e los coeficientes de co rre­


lación n o pueden se r m ayores que la unidad, está claro que en
el p rim e r caso el valor num érico d e qYz h a de se r m en o r q u e el
d e cu alesq u iera d e los o tro s coeficientes, a m enos que u n o de es­
tos valores acontezca se r la unidad. E n este caso especial, p o r
supuesto-, u n a d e las variables p u ed e p red ecirse exactam ente a
p a r tir de u n a d e las o tras, y tenem os así esencialm ente u n p ro ­
b lem a de sólo dos variables.
F ijándonos con. m ayor deten im ien to en la p rim e ra de estas
ecuaciones, q ue se aplica a las figuras XIX .5g y h, vem os inm e­
d iatam en te q u e si esta ecuación se verificara, la correlación p a r­
cial (e n la población) e n tre Y y Z, co n trolando e n relación con
X, d esap arecería, ya que el n u m e ra d o r de la fó rm u la d e la p a r­
cial sería en ta l caso cero. Así, pues, si (g ) o ( h ) se verificaran,
el v alo r de rTZ-x debería se r cero o m uy cerca de cero, habida
cu en ta d e los e rro re s d e m u estreo . Y en fo rm a sem ejante, puede
esp e rarse ta n to p a ra (e ) com o p a ra ( /) que la p arcial en tre X
y Y , co n tro lan d o respecto' de Z, sea aproxim adam ente cero. ¿Qué
indican estos hechos? Si lim itam os n u e s tra atención a u n a com ­
p aració n e n tre (e ) y (/), ya que la relación e n tre (g ) y (h ) puede
co m p ararse d irec tam en te si se in tercam b ian X y Z, vem os que
en ( /) in te rp re ta ría m o s la relación e n tre X y Y com o espuria,
to d a vez que Z a c tú a en el sen tid o d e p ro d u c ir variación tan to
en X com o en Y . E sta situación es exactam ente la m ism a que se
d escribió en el ejem plo del consum o d e helados X y las tasas de
delincuencia Y . D ebido a que sospecham os que la relación e n tre
estas dos variables se deba a o tra , o sea al nivel de ingreso Z,
controlam os en relación con ésta p a ra v er si la correlación e n tre
X y Y se red u ce a casi cero. Si ( / ) es de hecho el m odelo correcto,
acabam os d e v er m atem áticam en te que ta l será el caso.
Vimos tam bién, sin em bargo, que la p arcial h a b ría sido cero
si el m odelo c o rre c to fu e ra el de la fig u ra XIX.5 e. E n ( e ), en
efecto, tenem os que Z ac tú a com o variable in terv en to ra, en el
sentido de q u e X causa Z, la cual a su vez causa Y . Pero, ¿tiene
algún o b je to co n tro la r en relación con Z en estas condiciones?
P ro b ab lem en te no. P orque si X es efectivam ente causa d e Z,
¿cóm o podem os concebir q u e m antengam os a Z co n stan te m ien­
tra s X sigue variando? No tiene sen tid o ciertam en te p e n sa r ob­
ten er resid u ales tom ando aquella porció n de la variación d e X
que es "d eb id a a " Z cuando Z es u n efecto de X . Puede, sin em ­
bargo, te n e r sen tid o el co n tro la r p a ra Z si lo que tra ta m o s de de­
m o stra r es la ausencia de u n a conexión causal e n tre X y Y, ex­
cepto a trav és de la variable in terv e n to ra Z. La m anipulación
de fó rm ulas estad ísticas no co nstituye su stitu to alguno del co­
nocim iento de lo que se está haciendo. E n este caso, sab e r lo
que se e stá haciendo consiste en e s ta r en condiciones de elegir
e n tre los m odelos ( e ) y (/ ), yendo m ás allá de la inform ación
estad ística disponible y haciendo u n su puesto acerca de la direc­
ción de la flecha e n tre X y Z.
H a sta aquí hem os prescindido d e la situación ( d ) de la figu­
ra XIX.5, en la que las flechas van a Y tan to de X com o de Z,
p ero en la que no se da relación d irecta alguna en tre X y Z. ¿Qué
sucede en este caso si controlam os en relación con Z? O bserva­
m os en p rim e r lu gar que tiene o b jeto co n tro lar aquí en relación
con Z p o rq u e ésta se concibe com o variable totalm ente indepen­
dien te q ue afecta tam bién a Y . Desde el p u n to de vista de la
relación e n tre X y Y , o p era como influencia p ertu rb ad o ra . Es
u n a v ariable " ex trañ a” que produce esencialm ente en Y variacio­
n es fo rtu ita s con re sp ecto a las variaciones de X . P or lo tanto,
esp eraríam o s que, controlando en relación con Z, au m en tara la
m ag n itu d de la relación e n tre X y Y. P uede d em o strarse m ate­
m áticam en te que si establecem os los supuestos requeridos a p ro ­
pósito de o tras variables, la correlación en la población e n tre X
y Z será cero. Señalem os de paso que este hecho nos p e rm itirá
d istin g u ir (d ) em píricam ente de cada u n a de las situaciones que
hem os venido exam inando. É sta es, pues, la situación en la
q ue la variable de control no' se relaciona con u n a de las o tras
variables, y ya vim os que en tal caso la parcial será m ayor en va­
lo r ab soluto que la correlación total, lo que concuerda con el
sen tid o com ún. Es asim ism o la situación a la que nos en fren ta­
m os en el análisis p o r dos m étodos de la variancia, en la que la
condición de subceldillas iguales suponía u n a independencia
co m pleta e n tre las variables d e fila y d e colum na, y en la que
tam b ién vim os q ue un control p a ra u n a de las variables reducía
la su m a inexplicatda de los cuadrados, sin re d u cir la variación
explicada p o r la o tra v ariab le independiente.
H ay o tro tip o d e situación d e control que no se h a exam inado,
p e ro q u e p u ed e tra ta rs e brevem ente, ya que son pocos los casos,
si los hay, en que p odríam os vernos inducidos a servirnos d e u n
control.
Supóngase, en efecto, en u n a de las situaciones (e ) o ( h ), ’
que ib a a Relacionar las variables dependientes que intervie­
nen, con tro lan d o en relación con la variable independiente. En
( h), p o r ejem plo, ¿qué sucedería si fuéram os a o b ten er la parcial
e n tre X y Y co n tro lan d o en relación con Z? Puede d em o strarse
algebraicam ente que la p arcial re su ltan te sería m enor en m ag­
n itu d que la correlación total. E sto concuerda con la noción in tu i­
tiv a d e que, m anteniendo co nstante la variable independiente, se
red u ce necesariam ente la variación de la variable interferente,
con lo q ue se d eb ilita la relación con la variable dependiente.
U na vez m ás, ten d ría poco o b jeto llevar a cabo sem ejante opera­
ción. P o r lo regular, en efecto, n u estro interés se c e n trará en la
cuestión de sab er si existe o no u n a relación directa entre X y 7 ,
y n o en el p roblem a de las causas antecedentes de X. Puede de­
m o strarse, sin em bargo, que si hubiéram os controlado inadverti­
dam en te p a ra Z en ( h) , n o h ubiéram os afectado sistem áticam ente
el declive estim ado bm/, excepto en el sentido de q u e habríam os
au m en tad o el valor del e r ro r d e m uestreo.
Las extensiones a cu a tro o m ás variables son d irectas, con tal de
q ue nos restrin jam o s a u n a causación en sólo u n sentido. Pue­
de d em o strarse que en los casos en que no hay lazo directo en­
tre dos variables, se d a rá u n a parcial de orden m ás elevado e n tre
estas variables, la que será aproxim adam ente igual a cero, ex­
cepto p o r los erro res de m uestreo. En general, debem os co n tro lar
p a ra to d as las variables antecedentes e interven toras, con objeto
de h acer desaparecer la ap ro p iad a correlación parcial, p ero h a ­
brem os de ten er cuidado, evitando' c o n tro la r p a ra variables que
se supone son dependientes d e las dos que están siendo conside­
radas. P or ejem plo, en el m odelo

X i—
i i
X s—

será necesario controlar tanto p a ra X 2 com o p a ra X 3, con el fin


de re d u cir a cero la parcial r14.23. De m an era análoga, el m odelo
p redice p a ra r2s-i — 0 (excepto p o r erro res d e m u estreo ), pero
no deberem os e sp e rar que r23.H sea igual a cero, ni te n d ría sen­
tido alguno co n tro lar en este caso p a ra X 4. (V éase [2] p a ra m ás
am plia discusión.)
Son de nuevo necesarias varias advertencias. Como en el caso
de las tre s variables, h a b rá siem pre m odelos alternativos que
predigan exactam ente las m ism as in tercorrelaciones em píricas,
y h a b rá q u e confiar en el conocim iento de las secuencias tempos
rales, o supuestos a priori, cuando haya que escoger en tre tales
alternativas. P or o tra p arte , la existencia de erro res de m edición
aleatorios y no aleatorios invalidará las predicciones de cualquier
m odelo dado. Como observam os en el capítulo an terio r, el e rro r
aleatorio de m edición en u n a variable independiente aten u ará
las correlaciones en tre ésta y o tras variables. E n el caso de re ­
gresión m últiple, y cuando las variables independientes estén
altam ente intercorrelacionadas, los erro res aleatorios de m edición,
en algunas de ellas, ten d erá a aum entar los efectos visibles de
aquellas variables con las que estén m ás altam en te in terco rrela­
cionadas. Se ve de esta m an era que los erro res de m edición en
p resencia de u n a alta intercorrelación en tre variables indepen­
dientes se p re sta n a conducirnos a deducciones erróneas.
R esu ltará claro de las observaciones an terio res que si uno sum a
variables a u n a ecuación de regresión p o d rá e sp e ra r que las
correlaciones p arciales cam bien según sea la n atu raleza de las in­
tercorrelaciones en tre las variables independientes. E sto es apli­
cable a los declives parciales y estandarizados que se exam inan
en la sección siguiente. Suponem os que el erro r, o térm ino resi­
dual p a ra la ecuación de regresión, no está relacionado' con cada
una de las variables independientes de la p ro p ia ecuación. En
térm inos causales, esto hace suponer que los factores que son
causa m ayor de la variable dependiente n o están sistem áticam en­
te relacionados con las variables independientes.
Si som os capaces de localizar las variables que contribuyen a
este fa cto r de e rro r y si las hacem os fig u rar de m anera explícita
en la ecuación, tales variables deberán no e s ta r relacionadas con
las variables independientes originales, a p a rte los erro res de
m uestreo, no resu ltando afectados sistem áticam ente los declives
parciales. Las correlaciones parciales, p o r o tra parte, aum en tarán
en su v alor numérico', debido a que h a b rá sido elim inado algo de
la v ariancia no explicada. Sin em bargo, si las variables adiciona­
les llevadas a la ecuación están relacionadas sistem áticam ente
con las variables independientes originales, p o d rá d arse p o r se­
guro' que todos los coeficientes re su ltarán afectados.

XIX.4. M ínim os cuadrados m últiples y los coeficientes beta


Nos hem os servido de las correlaciones parciales p a ra indicar el
grado de relación en tre u n a variable dependiente y una variable in­
dependiente, con trolando en relación con u n a o varias variables
independientes m ás. Si tenem os u n núm ero grande de varia­
bles independientes, podem os o b ten er u n a indicación de su im por­
tan cia relativa asociando la variable dependiente con cada una
de las variables independientes sucesivam ente y controlando en
cada caso con las variables restantes. A nteriorm ente, en n u estro
exam en de la regresión m últiple y de los m ínim os cuadrados, ya
observam os tam bién que las b y las |3 que figuran en nu estras
ecuaciones y relacionan a Y con las variables independientes po­
d rían in te rp re ta rse en cierto sentido com o parciales. Se recor­
d a rá que re p resen tan las pendientes de las ecuaciones de regre­
sión o> de los m ínim os cuadrados en la dim ensión de la variable
independiente apropiada, esto es, con todas las dem ás variables
independientes m antenidas constantes. P or lo tanto, cada coefi­
ciente re p resen ta la cantidad de variación de Y que puede asociar­
se con u n cam bio determ inado de las X , m anteniendo1 fijas las
dem ás variables independientes. Teniendo en cuenta esta sim ili­
tu d con los coeficientes de la correlación parcial, no debería sor­
p re n d er que las fó rm ulas em pleadas en el cálculo de esas b p a r­
ciales re su ltaran m uy sem ejantes a las que se em plearon en
o b ten er las r parciales y que1, adem ás, esas pendientes pudieran
em plearse p a ra d a r u n a indicación de la im portancia relativa de
cada u n a de las variables independientes en la determ inación de la
variación de Y.
H em os de m odificar nuevam ente n u e s tra notación, con objeto
de d istin g u ir e n tre el gran núm ero de com binaciones posibles de
las pendientes. D esignando n u estra s variables sim plem ente com o
1, 2, 3, etcétera, nos servim os del sím bolo si anticipam os la
variable u n o a p a r tir d e las variables 2 y 3 con referen cia al coe­
ficiente de la segunda variable. El coeficiente bls-3 h a de distin­
guirse de &2i-3, que em plearíam os si la segunda variable se to m ara
com o variable dependiente. E n am bos casos, el hecho de que el
n ú m ero tre s se haya colocado a la derecha del p u n to indica que
se h a con tro lad o la terc era variable. Y en fo rm a análoga, b13.Si se
em plea p a ra in d icar el coeficiente de la segunda variable en una
ecuación de predicción en la que la p rim era variable se tom a
com o variable dependiente y que com porta dos variables de con­
trol. E n este ú ltim o caso, la ecuación de los m ínim os cuadrados
se d aría en la siguiente fo r m a :

X x— «1-234 + &l,2-34-^2 + ^13-24^3 + ^14-23^4

en donde el subíndice de a indica que estam os anticipando en


relación con la variable uno a p a r tir de las variables 2, 3 y 4. La
razón de que hayam os considerado conveniente ap a rtarn o s de
la p ráctica consistente en designar la variable dependiente con
Y está en servirnos de una com binación m ás sencilla de subín­
dices p a ra seguir la traz a de las d istin tas b.
Las fórm ulas de cálculo de y bi}.k son com o sigue:

(X IX .7)

y (X IX .8)

Obsérvese que si bien el denom inador de (X IX .8) difiere en cuan­


to a la fo rm a del de la fórm ula d e r^.*, el num erador, en cam bio,
es esencialm ente sim ilar en carácter.
En efecto, reco rd an d o que

vemos que incluso los denom inadores n o son dem asiado dispa­
res en cu an to a la form a. Con todo, al em plear esta fórm ula para
ob ten er las b parciales, hay que p o n e r cuidado en distin g u ir en­
tre bjk y bk¡, ya que los subíndices ya n o pueden intercam biarse.
La extensión a parciales de ord en superior es d ire c ta (véase
[5 ]). Las ecuaciones de ai.m y b inx pueden escrib irse:

a i ‘ j u — X t — b i j-M X ¡ — b ilc.n X k — b t j.,y X i (X IX .9)


CORRELACION MULTIPLE Y PARCIAL

bij-lc ~ (bil-k)(bij.ic)
y b im ~ i -hi-^Ku)
Ig ualm ente cierto en el cálculo de correlaciones parciales de o r­
d en su p erio r a m edida que el núm ero de variables aum enta, el
em pleo de estas fórm ulas p u ed e co m p o rtar acaso considerable­
m en te m ás tra b a jo que el que req u ieren los m étodos abreviados
d e D oolittle o d e la raíz c u a d rad a de Dwyer. N orm alm ente será,
p o r supuesto, m ás conveniente u tiliza r pro g ram as de com pu­
tación, cu an d o se tr a te d e o b ten er esto s coeficientes.
Se p u ed e in te rp re ta r u n declive p arcial com o el cam bio h ip o ­
tético q u e o c u rriría en la variable d ependiente si u n a de las va­
riab les in d ependientes h u b iera de cam b iar en u n a u n id ad y si las
dem ás variables perm an ecieran constantes. E sto p u ed e ser in ­
te rp re ta d o com o u n a m edida del efecto d irecto de la variable
in d ep en d ien te sobre la variable depen d ien te; si un declive p a r­
cial es igual a cero, ello n o im plicaría u n efecto directo. P ero no
hab ien d o especificado las conexiones causales e n tre las p ro p ias
variables in dependientes y teniendo e n cu e n ta únicam ente sus
in terco rrelacio n es, n o nos es posible d ecir n a d a en relación con
el efecto to ta l d e ca d a variable. Si, p o r ejem plo, la p rim era
variab le in d ep en d iente es u n a causa de la segunda, u n cam bio
en la p rim e ra v ariable p ro d u c iría u n cam bio tam b ién e n la se­
gunda, pro d u cién d ose efectos tan to directos com o indirectos. De
esta m an era no podem os v alo ra r la im p o rta n c ia re la tiv a de cada
variable, a m enos que conozcam os m ás acerca de la e stru c tu ra
causal del sistem a en su totalidad. E sto re q u e riría tra b a ja r con
to d o u n grupo d e ecuaciones, u n a p o r cada variable que sea to­
m ad a com o dep endiente d e cualesquiera d e las otras. P o r des­
gracia, los m ínim os cu adrados o rd in ario s no son en general ade­
cuados p a ra tal sistem a de ecuaciones (véanse [4 ] y [ 1 2 ]).
E n ta n to n o estem os interesados en generalizar m ás allá d e los
lím ites d e u n a sola población, en ocasiones es deseable ob ten er
u n a m ed id a asim étrica de los efectos directos de cada variable
in d ependiente, q ue n o dependa de las unidades d e m edida u tili­
zadas. O btenem os así, e n efecto, u n a m ed id a del efecto d irecto
real en el caso p a rtic u la r de la población que estudiam os, dado
que algunas variables independientes v arían m ás que o tras. U na
v ariable p u ed e se r m ed id a en dólares, o tra en años. C arecería de
sen tid o co m p arar la u n id ad de cam bio en u n a con la u n id ad
de cam bio en la o tra.
Si cad a v ariable es estandarizada, dividiéndola p o r su desvia­
ción están d a r, en la m ism a fo rm a que se aplicó p a ra o b ten er la
cu rva n o rm al está n d a r obtendrem os declives aju stad o s, com pa­
rables de u n a v ariab le a la siguiente. M edim os así los cam bios
en la v ariable dep endiente en función d e unidades d e desviación
e stá n d a r p a ra cada u n a d e las o tras variables, lo que nos asegura
una m ism a v ariabilidad en cad a u n a de estas variables. E stos
declives p arciales aju stad o s re su lta n así bes (b ) estandarizadas,
llam adas frecu en tem en te ponderaciones beta, siendo denom ina­
dos coeficientes d e curso en los m as sim ples m odelos causales,
en los que está im plicada u n a d e term in a n te de causa en u n a sola
dirección (véase [14]).
P or desgracia, u n a vez m as nos vem os envueltos en incongruen­
cias de notación. E n efecto, estas ponderaciones de b e ta n o son
las m ism as q u e las de las (3 en la ecuación d e regresión, que se
refieren a ca racterísticas de la población y no h an sido aju stad as
en relación con las diferencias d e variabilidad. Las p o n d eracio ­
nes de b eta se obtienen d e los dato s de la m uestra y son sim ples
funciones de las b parciales. Las fórm ulas generales de 13•• v
P .^ s o n : itrky

=&«•*— (X IX .11)
y
Pyw = — (X IX .12)
Si
Así, pues, la p o n d eració n de b e ta puede obtenerse m ultiplicando
la b co m p arab le p o r la razón de la desviación e stá n d a r de la
variable ind ep endiente (no co n tro la d a) a la de la variable de­
pendiente.
La co m p arab iíidad de las ponderaciones de b e ta y los coeficien­
tes de correlación parcial p u ed e verse en la fó rm u la :
o ’ r ilcrjJc .
P ií* = — ------- — (X íX .i3 )
1 —V
Las dos m edidas sólo difieren en los denom inadores. D'e hecho,
vemos in m ed iatam en te q u e :

^■ ^(P irfcX P ií-fc)


ya que (3^.*. sólo difiere de en que el denom inador de rjk2 será
rem plazado p o r rilc2. Ya que las ponderaciones de b e ta y las co­
rrelaciones p arciales re p resen ta n tipos de m edida de asociación
algo d istintos, no d arán exactam ente los m ism os resultados, au n ­
que p o r lo re g u la r com prendan variables del m ism o ord en de
im portancia. E n efecto, la correlación parcial es u n a m edida
d e la cantidad de variación explicada p o r u n a de las variables
independientes después que las o tras h a n explicado to d o lo que
podían. Las p onderaciones de b eta, en cam bio, indican cuánto
cam bio se p ro d u ce en la variable dependiente p o r u n cam bio
estandarizado en u n a de las variables independientes al co n tro lar
en relación con las otras.
X I X .5 . Correlación m últiple
C o m o q u ie r a q u e n u e s tr o in te r é s p u e d e acaso- r e s id ir e n e l p o d e r
e x p lic a tiv o d e c ie r to n ú m e r o d e v a ria b le s in d e p e n d ie n te s to m a ­
d a s ju n ta s m á s q u e e n la re la c ió n e n tr e la v a ria b le d e p e n d ie n te
y c a d a u n a d e la s v a r ia b le s in d e p e n d ie n te s to m a d a s s e p a ra d a ­
m e n t e , p r e f e r i r e m o s t a l v e z s e r v i m o s d e l coeficiente de correla­
ción m ú ltip le, q u e e s u n a m e d i d a d e l a b o n d a d d e a j u s t e d e l a
s u p e rf ic ie d e m ín im o s c u a d r a d o s a lo s d a to s . A l ig u a l q u e e l c u a ­
d r a d o d e l c o e fic ie n te d e la c o rre la c ió n d e o r d e n c e ro in d ic a b a e l
p o r c e n ta je d e v a ria c ió n e x p lic a d a p o r la r e c ta d e m e jo r a ju s te ,
el c u a d r a d o d e l c o e fic ie n te d e c o rre la c ió n m ú ltip le p u e d e e m ­
p le a r s e p a r a d a r el p o r c e n ta je d e v a ria c ió n e x p lic a d o p o r la e c u a ­
c ió n d e m e jo r a ju s te d e la f o r m a :

Y p = a + b iX i + b2X 2 + . . . + b¡¿Xk

O tr a m a n e r a d e c o n c e b ir la c o r re la c ió n m ú ltip le e s tá e n q u e
r e p r e s e n t a l a correlación d e orden cero é n t r e l o s valores reales
o b t e n i d o s p a r a l a v a r i a b l e d e p e n d i e n t e y l o s valores anticipados
a p a rtir de la ecuación de m ínim os cuadrados. S i to d o s lo s p u n ­
to s se e n c u e n tra n e x a c ta m e n te e n la s u p e rfic ie d e m ín im o s c u a ­
d r a d o s , lo s v a lo re s r e a l y a n tic ip a d o c o in c id ir á n , y la c o r re la c ió n
m ú ltip le s e r á la u n id a d . Y c u a n to m a y o r s e a la d is p e rs ió n a lr e ­
d e d o r d e la e c u a c ió n d e m ín im o s c u a d r a d o s ta n to m á s b a ja s e r á
la c o r re la c ió n e n tr e lo s v a lo r e s r e a l y p r e d ic h o .
L a f ó r m u la d e la c o r re la c ió n m ú ltip le p u e d e d e s a r r o lla r s e f á ­
c ilm e n te s irv ié n d o s e d e l h e c h o d e q u e e l c u a d r a d o d e l m ú ltip le
s e r á ig u a l a l p o r c e n ta je d e la v a r ia c ió n e x p lic a d a p o r to d a s la s
v a r ia b le s in d e p e n d ie n te s . C o n v ie n e r e c a lc a r u n a v e z m á s q u e s e
s u p o n e u n m o d e lo d e tip o lin e a l. A l e s c r ib ir la f ó r m u la d e la c o ­
r r e la c ió n m ú ltip le , d e ja m o s p r im e r o q u e u n a d e la s v a r ia b le s
in d e p e n d ie n te s e x p liq u e to d o lo q u e p u e d e . D e ja m o s lu e g o q u e la
s e g u n d a v a r ia b le in d e p e n d ie n te h a g a lo p r o p io e n r e la c ió n c o n
la p o r c ió n d e la v a r ia c ió n n o e x p lic a d a p o r la p r im e r a . S in e m ­
b a rg o , c o n o b je to d e e v ita r d u p lic a c ió n , h e m o s d e c o n tr o la r e n
r e la c ió n c o n e s ta p r im e r a v a ria b le in d e p e n d ie n te . D e ja m o s a c o n ­
ti n u a c i ó n q u e la t e r c e r a e x p liq u e to d o lo q u e p u e d e d e l r e s to ,
c o n tro la n d o ' a h o r a e n re la c ió n c o n la s d o s p r im e ra s v a ria b le s
in d e p e n d ie n te s . E l p r o c e d im ie n to p u e d e p r o lo n g a rs e d e m a n e r a
in d e f in id a .
D e m o m e n to , s in e m b a rg o , n o s lim ita m o s a l c a s o d e tr e s v a r ia ­
b le s , q u e s ó lo c o m p o r ta d o s v a r ia b le s in d e p e n d ie n te s . S i to m a ­
m o s ’la p r im e r a v a ria b le c o m o la v a ria b le d e p e n d ie n te , y d e s ig n a ­
m o s e l c o e fic ie n te d e c o r re la c ió n m ú ltip le p o r R ^ g , p o d r e m o s
e s c rib ir:
^1-23 — r12 + ^13-2 (1 ~ ^12)
Proporción\ /proporción \ / proporción \ / proporción \
( explicada I = I explicada I + / adicional \ I no explica- 1
por 2 y 3 / \ por 2 / I explicada I \ da por 2 /
\ P°r 3 / (X IX .14)

O bsérvese que las correlaciones m últiples sólo tienen u n a cifra


a la izq u ierd a del punto, cifra que indica la variable dependiente.
Los n ú m ero s de la derecha, en cam bio, indican aquellas varia­
bles in d ep en d ientes que se están em pleando p a ra explicar la va­
riación de la variable dependiente. Así, pues, la fó rm u la general
(p a ra tre s v ariab les) p u ed e esc rib irse com o sigue:

R^-jk — A } + Ah-¡ ( 1 ~ A j)
= 4 + 4 , (1 -4 ) (XIX .15)

No im p o rta, p o r supuesto, cuál de las dos variables independien­


tes se em plee p rim e ro en la fórm ula, a condición que dicha varia­
ble se co n tro le en los térm inos siguientes de la ecuación.
O peram os con los cuadrados ta n to d e la correlación to ta l com o
de las correlaciones p arciales, y a q u e obtenem os los p o rc en ta­
jes de la v ariación explicada. P o r lo tanto, no tenem os p o r qué
p reo cu p am o s p o r los signos d e estas correlaciones. Y de hecho,
la dirección d e la m últiple carece d e significado, y a q u e com ­
p o rta correlaciones con cierto n ú m ero de variables, algunas de
las cuales son positivas y o tra s posiblem ente negativas. P o r con­
vención, al designar el coeficiente de correlación m ú ltip le, tom a­
m os siem pre la raíz cu a d ra d a po sitiv a d e R 2.
Si resolvem os la ecuación (X IX .14) en relación con la parcial
rfs-2, o b ten em o s:
B2 — t-2
2 = ----
«1-23 '1 2 /VTV1¿\
ri3.2 ------ ------ (X IX .16)
1*■ — r212

E sto nos p erm ite v er la relación e n tre los coeficientes de las co­
rrelaciones m ú ltip les y parciales b a jo u n a p erspectiva algo dis­
tin ta. E n el n u m era d o r hem os su straíd o la pro p o rció n de la va­
riación de 1 explicada p o r la 2 sola, de la pro p o rció n explicada
p o r 2 y 3 actu an d o ju n ta s (R ? .^ ). E l re su ltad o es el increm ento
explicado p o r 3, después de h a b e r p erm itid o a c tu a r a 2. Si dicho
increm ento se divide en tre la pro p o rció n de variación d ejad a sin
explicar p o r 2, obtenem os la p arcial e n tre 1 y 3 co n trolando en
relación con 2. E sto concuerda con n u e stra in terp re tació n ante­
rio r del coeficiente de la correlación parcial.
De la ecuación (X IX .14) pueden derivarse diversas fórm ulas
altern ativ as p ero equivalentes d e üif.23. S ustrayendo am bos m iem ­
b ro s de dicha ecuación de la unidad, o b ten em o s:

1 — -Rl-23 = 1 — r12 ~~ ^13-2(1 ~ r is )

— (1 — í'iaX l ~ ri3-2) (X IX .17)

E sta ecuación indica que podem os esc rib ir la proporción d e va­


riación d ejad a sin explicar p o r 2 y 3 ju n ta s, com o p ro d u c to de
la p ro p o rció n inexplicada p o r 2 y de aquella inexplicada p o r 3,
controlando en relación con 2.
La fó rm u la de la m ú ltip le p u ed e escrib irse tam bién totalm ente
en térm in o s d e correlaciones de ord en cero. E n efecto, sirvién­
donos d e la ecuación ( X IX .3) de r13.2 en térm inos de coeficientes
d e o rd en cero y sim plificando la expresión algebraica resu ltan te,
o b ten em o s:
„2 _ r i2 + r w ~ 2r iar t3r 23
K x-2&—---------- :----- -------------

o bien, en g e n e ra l:

d 2 r i¡ + r iTc ~ 2f ifcí'jfc y iy 1o \
K i . f t — ------------ ------- ------------- ( A lA .i o ;
1 —P

E n p artic u la r, si la correlación e n tre las dos variables indepen­


dientes ; y k acontece se r cero, o b te n e m o s:

H2 — r 2 O- r 2

Pueden o b servarse ah o ra algunas relaciones e n tre la m ú ltip le


R y las diversas correlaciones totales. Es obvio que R n o puede
se r m en o r en m agnitud que cualesquiera de las correlaciones to­
tales, y a que es im posible explicar m enos variación añadiendo
m ás variables. N orm alm ente, p o r supuesto, la m últiple R será
m ayor que u n a cualquiera de las r totales. Su valor m áxim o en
relación con los coeficientes totales suele p ro d u cirse cuando las
in tercorrelaciones e n tre las variables independientes son todas
cero. Com o acabam os de ver, el cu ad rad o d e la correlación m úl­
tip le se rá en este caso igual a la sum a de los cuadrados de las
dem ás correlaciones. P or o tra p arte , si las intercorrelaciones en­
tre las variables independientes son m uy grandes en m agnitud,
la m ú ltip le R n o s e rá p o r lo r e g u la r m u c h o m a y o r q u e la c o ­
rre la c ió n to ta l m a y o r c o n la v a ria b le d e p e n d ie n te . E n o tro s
t é r m i n o s : s i d e s e a m o s e x p lic a r lo m á s p o s ib le d e l a v a r ia c ió n d e
la v a r ia b le d e p e n d ie n te , h e m o s d e b u s c a r v a r ia b le s in d e p e n d ie n ­
te s q u e te n g a n r e la tiv a m e n te p o c a r e la c ió n u n a s c o n o tr a s , p e ro
q u e te n g a n p o r lo m e n o s c o r r e la c io n e s m o d e r a d a m e n t e a lta s c o n
la v a ria b le d e p e n d ie n te . O e x p r e s a d o e n o tr a f o r m a : s i te n e m o s
d o s v a ria b le s in d e p e n d ie n te s d e in te r re la c ió n a lta , la s e g u n d a e x ­
p lic a rá e s e n c ia lm e n te la m is m a v a ria c ió n q u e la p r im e ra , y a q u e
la s d o s s e tr a s la p a r á n c o n s id e ra b le m e n te . Y s i n o e s tá n c o r r e ­
la c io n a d a s , e n to n c e s c a d a u n a e x p lic a r á u n a p o r c ió n d if e re n te
d e la v a ria c ió n to ta l.
H a y o tr a r a z ó n im p o r ta n te p a r a p r e f e r ir la s v a r ia b le s in d e p e n ­
d ie n te s q u e no' e s té n a lta m e n te in te r c o rr e la c io n a d a s . N o s ó lo
h a b r á m e n o s s u p e r p o s ic io n e s e n la v a r ia n c ia e x p lic a d a , y p o r e llo
m e n o s a m b ig ü e d a d en n u e s tra in te rp re ta c ió n causal de su s su ­
p u e s to s e fe c to s , s in o q u e e n la m e d id a e n q u e la s v a r ia b le s in d e ­
p e n d ie n te s e s té n a lta m e n te in te r c o rr e la c io n a d a s , ta n to la s c o r re ­
la c io n e s p a r c ia le s c o m o la s e s tim a c io n e s d e d e c liv e s s e h a r á n c a d a
v ez m á s s e n s ib le s a lo s e r r o r e s d e m u e s tr e o y m e d ic ió n . E s ta
d i f i c u l t a d s e d e n o m i n a m u ltic o lin e a r id a d e n l a b i b l i o g r a f í a e c o n o -
m é tr ic a (v é a n s e [4 ] y [1 2 ]). E l p ro b le m a r e s u lta e s p e c ia lm e n te
s e rio c u a n d o se u tiliz a n b lo q u e s d e v a ria b le s in d e p e n d ie n te s a lta ­
m e n te in te r c o r r e la c io n a d a s , y c u a n d o d ic h o s b lo q u e s d if ie re n e n
c u a n to a l n ú m e r o d e v a ria b le s q u e c o n tie n e n . (V é a s e [ 1 0 ]) . P u e d e
d e m o s tr a r s e , p o r e je m p lo , q u e c o n m u y p e q u e ñ a s d ife re n c ia s e n
la s c o r r e la c io n e s to ta le s c o n la v a r ia b le d e p e n d ie n te se p r o d u ­
c e n d if e re n c ia s c o n s id e ra b le s e n la s c o rre la c io n e s p a r c ia le s y e n
la e s tim a c ió n d e lo s d e c liv e s , d e ta l m a n e r a q u e s i s e c o n f ía
e n la s m a g n itu d e s r e la tiv a s d e e s to s c o e fic ie n te s p a r c ia le s , c a b e
e s p e r a r e n c o n t r a r d if e r e n c ia s c o n s id e r a b le s d e u n a m u e s tr a a ía
s ig u ie n te , o b ie n e n tr e r é p lic a s e n la s q u e se u tilic e n in s tr u m e n ­
to s d e m e d ic ió n a lg o d is tin to s . L a c o n c lu s ió n e s q u e e n c u a n ta s
o c a s io n e s la s v a r ia b le s in d e p e n d ie n te s e s té n a lta m e n te in te r c o ­
rre la c io n a d a s , r e s u lta r á n e c e s a r io c o n ta r ta n to con m u e s tr a s
g r a n d e s com o c o n la s m e d ic io n e s e x a c ta s .
A títu lo d e e je m p lo n u m é r ic o d e l c á lc u lo d e la m ú ltip le R, v e a ­
m o s c u á n ta v a r ia c ió n e n m a t e r i a d e d is c r im in a c ió n p u e d e e x p li­
c a rs e p o r el p o rc e n ta je d e n e g ro s y el p o rc e n ta je u rb an o . S ir­
v ié n d o n o s d e la e c u a c ió n ( X IX .1 4 ) o b te n e m o s :

&1-2Z = r¡2 + r ? 3 .2 ( 1 - r ? 2 ) = ( . 5 3 6 ) 2 + ( . 3 3 2 H 1 - ( . 5 3 6 ) 2 ]
= .2873 + (.1102) (.7127) = .3658

D e a h í: R 1.2S = .6 0 5
P or consiguiente, el p o rc en taje urbano explica m uy poca variación
p o r encim a y p o r debajo de aquella explicada p o r el p o rcen taje
de negros.
A títu lo de control de nu estro s cálculos, observam os que el
m ism o resu ltad o d eb erá obtenerse si dejam os que actúe p rim ero
el p o rcen taje urbano.
O btenem os en este c a s o :

r 12- r J3( r 23) .536 - ( . 1 3 9 ) ( - .248)


r 12*3 —------------------------- = ------------------------------------------“ -5^5
V l - ( - Í 3 9 ) 2 V 1 “ ( “ -248T2

Así pues, R l .a3 = r\ 3 + r?3.8( 1 - ria)


= (.139)2 + (.595)2[1 - (.139)2] - .3667

y p o r lo ta n to : # 1-23 = -605

Las fó rm u las del coeficiente de correlación m últiple pueden


extenderse fácilm ente asim ism o a u n n ú m ero cualquiera de va­
riables independientes. Al in tro d u cir u n a terc era variable inde­
pendiente1, designada com o X íf n o hacem os m ás que a ñ a d ir a la
fó rm u la de R ‘^ 23 u n térm in o que co m porta el producto' del cua­
drad o de la parcial en tre 1 y 4, controlando en relación con 2 y 3,
y la p ro p o rció n de variación queda inexplicada p o r 2 y 3. Así,
pues:

R l- 2 3 4 — r 12 + T 'lS - a O — r 1 2 ) + r 1 4 -2 s[l “ r 1 2 ~ r 1 3 '2 (^ ~ * 12 ) ]

(X IX .19)

Podem os, pues, ir añadiendo a la p roporción de la variación


explicada, siem pre que controlem os en relación con todas las va­
riables p reviam ente em pleadas y a condición que perm itam os
q u e la nueva p arcial sólo actúe sobre aquella porción de varia­
ción d ejad a inexplicada p o r las variables que la h an precedido.
Obsérvese, de paso, el paralelo' con lo que hicim os en el análisis
de la variancia. Según verem os a continuación, podem os servir­
nos de este hecho en las pru eb as d e significación tan to de la
correlación m ú ltip le com o de la parcial. Si procediéram os a
añ ad ir u n a q u in ta variable, ob ten d ríam o s:

^ 1 -2 3 4 5 = R l-2 8 4 + , 'l 5 - 2 3 4 ( I — ^ 1 - 2 3 4 )

Podem os resolver de nuevo estas ecuaciones en relación con los


coeficientes parciales. Así, p o r ejem plo, tenem os (d e X IX .19):

D 2 ___
*Vl'234 *Vl*2¡3
( X IX .20)
1 - i?2
1-23
indicando que la parcial e n tre 1 y 4, controlando en relación con
2 y 3, puede in te rp re ta rse com o la razón de la p roporción de
variación adicional explicada p o r 4, adem ás d e la explicada p o r
2 y 3, a la p ro p o rció n de variación d e ja d a sin explicar p o r estas
dos últim as variables. Podem os tam bién ex ten d er la ecuación
(X IX .17) p a ra com prender m ás variables. Así, p o r ejem plo:

1 ^ 1 -2 8 4 — ( 1 r1 2 )0 Í"l3- 2 )( 1 — ^"l4'23 )

y, en general,

= ••• (XIX.21)

E l coeficiente parcial-m últiple. E n ocasiones re su lta deseable


calcular u n a correlación m ú ltip le e n tre u n a variable dependiente
y algunas variables independientes, controlando en relación con
u n a o v arias de éstas. Supóngase, p o r ejem plo, que se está tra ­
tan d o de p re d ecir el tam año real d e la fam ilia a p a r tir de cierto
n ú m ero de variables independientes. Es obvio que ciertas varia­
bles com o la duración del m atrim o n io y la edad de la esposa en
el m om ento de celebrarlo h an d e to m arse en consideración. P or
o tra p arte, e sta s variables son ta n obvias, que el hecho de con­
ju n ta rla s al coeficiente general m últiple p o d ría oscurecer los
efectos de las variables re sta n te s. Así, pues, el in terés podría
fijarse en la variación del tam añ o d e la fam ilia después que di­
chas variables teóricam ente poco im p o rtan tes h an explicado de
la variación todo lo que podían. Siguiendo a C roxton y Cowden
[ 6], indicam os la parcial-m últiple e n tre la variable 1 (dependien­
te) y 2 y 3, co n trolando en relación con 4, p o r m edio de r1(2g 4.
La fó rm u la se convierte en ta l caso e n :

2 _ -^1-234 — rli
r i ( 2 8 ) .4 1 _ r 2
14

La fó rm u la a n te rio r de la parcial-m últiple es u n a sim ple exten­


sión de las fó rm ulas que hem os utilizado en las correlaciones
m ú ltip le y parcial. D ejam os p rim ero q u e la variable de control 4
explique todo lo que puede. O bservam os luego que # 1 -2,34 re p re­
sen ta la p ro p o rció n d e variación explicada p o r las tre s variables
in d ependientes to m adas ju n ta s. La diferencia, pues, h a de deber­
se a las variables 2 y 3. De este m odo, el n u m era d o r re p resen ta
la p ro p o rció n de variación explicada p o r 2 y 3, adem ás d e aquella
explicada p o r 4. Pero, com o q u iera que sólo hem os d e o p erar
con la variación n o explicada p o r la variable de control, dividi­
m os e n tre la can tid ad 1 — rf4. Sirviéndonos del principio consis­
te n te en d e ja r ac tu a r p rim e ro to d as la s variables de control, po­
dem os escrib ir la fó rm u la general de la parcial-m últiple com o:

r2 - (X IX .22)
1i(jk. 1 —R2
l.til-'-W
P o r e je m p lo :

■**3*12456 ~~ **3«124
3(5«).124 1 _í?2
L 3.124

La parcial-m últiple no parece h ab e rse utilizado con m ucha fre ­


cuencia en la investigación sociológica, debido ta l vez al hecho
d e q u e las perso n as del ra m o están poco fam iliarizadas con ella.
Sin em bargo, com o m edida que p erm ite tr a ta r problem as de co­
rrelació n m ú ltip le y p arcial sim ultáneam ente, su em pleo p oten­
cial p arece se r grande. E n la próxim a sección exam inarem os o tro
tip o de em pleo de e sta m edida.

XIX.6. R egresión m ú ltip le y no linealidad


H a sta aq u í to d a n u e s tra lab o r se h a basado en el su p u esto de
m odelos lineales. E n el ca p ítu lo a n te rio r vim os u n a p ru e b a de no
linealidad, p ero sólo pudim os d ecir m uy poco a p ro p ó sito d e la
fo rm a de la relación n o lineal, excepto en el caso d e tran sfo rm a­
ciones logarítm icas. E n o tro s térm in o s: n o hicim os m ás q u e
verificar en relación con la existencia d e u n a desviación resp ecto
d e la linealidad, p ero n o efectuam os p ru e b a alguna p o r lo q u e se
refiere a la fo rm a de la curva. Si b ien el p ro b lem a general d e la
no linealidad re b asa el objetivo de este texto, podem os, con todo,
ex am in ar b rev em en te d e q u é m odo las técnicas de la regresión
m ú ltip le y d e los m ínim os cu adrados se d ejan m odificar ligera­
m en te p a ra p erm itirn o s tr a ta r algunos tipos de problem as que
co m p o rtan no linealidad.
Como y a se señaló en el capítulo a n terio r, el n ú m ero d e form as
q ue la relación n o lineal p u ed e a d o p tar es sum am ente grande.
C onsiderem os ecuaciones del tipo :

Y = a + b1X + b 2X 2 + b3X a + . . . + bkX * ( X IX .23)


Si todos los coeficientes b2, b3, . . . , bk son cero, la ecuación se
reduce a la fo rm a lineal fam iliar. E n o tro s térm in o s: la recta
puede consid erarse com o caso p a rtic u la r de este tipo general de
curva, que se designa com o polinom ial. Y en form a análoga, si
todos los coeficientes, excepto a, y b2, son cero, obtenem os u n a

y=a+hX+hzXz y=et +b\X+b¿Xz+bi Xi Y*a*t\X+bíX2+b3X'¡+btX*

Fig. XIX.6. F orm as de polinom ios de segundo, tercero y


cuarto grados.

polinam ial de segundo grado. El grado de la polinom ial se refiere


al exponente m ás elevado de X que tenga u n coeficiente no cero.
Las polinom iales tienen u n a p ro p ied a d m uy im p o rtan te, la que
nos p erm ite d ecir cuál es el grado de la ecuación que puede re ­
su ltar m ás ap ro p iad a p a ra n u estro s datos. O bsérvese q u e una
polinom ial de p rim e r grado* es u n a línea re c ta sin desviaciones.
Sucede que u n a ecuación de segundo grado co n tará con u n a des­
viación, describiendo de hecho la cu rv a que llam am os parábola.
Una polinom ial de te rc e r grado te n d rá dos desviaciones; la de
cu arto grado, tres, y así sucesivam ente. Si ignoram os ciertos ca­
sos degenerados en los que las “desviaciones” no se com portan
adecuadam ente, p odrem os d ib u ja r las ecuaciones de segundo,
tercero y cuarto grados, com o se ve en la figura XIX.6. La direc­
ción en que la p a ráb o la o curva de m ás alto grado "se a b re ”, de­
p en d erá del signo de los coeficientes. Lo im p o rtan te es observar
que siem pre h a b rá u n a desviación m enos que lo que indica el
grado de la ecuación.
Algunas veces obtenem os curvas em píricas que se parecen a
u n a u o tra de esas polinom iales, au n q u e ra ra s veces, si es que
ttlguna, necesitam os ir m ás allá de u n a ecuación de te rc e r grado.
Ln parábola sim ple p ro p o rcio n a a m en u d o u n a adaptación razo­
nablem ente b u en a a los datos, sobre todo* si nos dam os cuenta
de que n u estra curva puede ser p erfectam en te p lana y que nues-
IroN tintos no necesitan extenderse lo' suficiente p a ra co m pletar
lu flexión. Así, p o r ejem plo, los datos p o d rían ser sim ilares a los
que* se indican en la figura XIX.7. Aquí, aunque n o exista acaso
razón lenrica alguna p a ra esp erar que las m arcas vuelvan a b a­
ja r una vez que hayam os avanzado cierta distan cia a lo largo del
eje de las X, la parábola puede c o n s titu ir con to d o u n a ad a p ta ­
ción razonable, dentro de los lím ite s d e variación dados en el
problema. Es, pues, perfectam en te p o sib le que u n a p aráb o la de
m ínim os cuad rad os se ad ap te a los datos m ucho m ejo r que la
recta.
Supóngase que sea efectivam ente así. ¿Cómo pu ed e tra ta rse el
pro b lem a? E l le c to r se h a b rá ya dado cuenta, sin duda, de la se­
m ejanza e n tre la fó rm u la d e la polinom ial general y la d e la ecua­
ción de los m ínim os cuadrados de m ás de u n a variable indepen-

Fig. XIX.7. Datos hipotéticos con una parábola de m ejo r ajuste.


diente. La ú n ica diferencia, en efecto, está en que hem os escrito
X 2 en lu g ar de X 2, etcétera. S upóngase ah o ra que hubiéram os de
re p resen ta rn o s X2 com o variab le sep arad a y d istin ta de X . Mien­
tra s nos servim os de sím bolos ab stra cto s esto es p erfectam ente
posible, aunque, adm itiéndolo, esta p rá ctica no te n d ría m ucho
sentido en térm in o s de u n a variable concreta. Con todo, las m a­
tem áticas del caso re su ltan se r idénticas. Así, p o r ejem plo, si
sospecham os que la relación e n tre la discrim inación y el porcen­
ta je de negros p u ed a re p resen ta rse acaso m ás adecuadam ente por
m edio de u n a cu rv a de segundo grado, tom am os el p o rc en taje de
negros com o u n a de las variables independientes X t y (el p o r­
cen ta je de n eg ro s)2 com o segunda variable independiente X 2.
P o r consiguiente, la ecuación de segundo g ra d o :

Y = a + b 1X + b2X 2

difícil de tr a ta r p o r m edio de los m ínim os cuadrados, se reduce


a la ecuación fa m ilia r:

y = a. H- b iX i + b2X 2

P ara o b ten er u n a m edida de b o n d ad de a ju ste a la parábola,


podem os servirnos ah o ra de la correlación m ú ltip le e n tre Y y
y X<¿. La d iferen cia e n tre el cu ad rad o d e esta correlación m ú lti­
ple y el cu a d rad o de la r to tal (suponiendo lin ealid ad ) nos dará
u n a m ed id a del g ra d o e n que hem os aum entado n u e s tra habilidad
en cu an to a p re d e c ir la discrim inación sirviéndonos, sin em bargo,
d e u n a ecuación d e segundo grado en lugar d e u n a recta.
E n p rin cip io , el procedim iento indicado p u ed e ex ten d erse de
v arios m odos. P o d rían em plearse ecuaciones de te rc e r grado y
m ayores con o b jeto de conseguir u n a adaptación algo m ejo r. Ade­
m ás, p u ed en añ a d irse al c u a d ro o tra s variables. R especto de
algunas d e estas variables independientes» puede suponerse un
m odelo n o lineal, y u n o lineal re sp ecto de o tras. Al an ticip ar
tasas de d iscrim inación a p a r tir d e cierto n ú m ero d e variables
in d ependientes, podrem os acaso e n c o n tra r que ca b ría ob ten er
ecuaciones de p redicción algo m ejo res suponiendo m odelos no
lineales p a ra algunas de las variables. E n p artic u la r, ta l vez la
relación e n tre la discrim inación y el p o rc en taje de negros pueda
s e r de fo rm a p arabólica, en ta n to q u e las variables independien­
tes re sta n te s se relacionan con la discrim inación en fo rm a lineal.
P o r lo tan to , la ecuación m ú ltip le de los m ínim os cuadrados
a d o p tará la siguiente fo rm a :

Y = a + ( b íX 1 + b2X 2) + b¿Xs + . . . + bkX k

en la que los dos térm in o s al in te rio r del p arén tesis se necesitan


p a ra d escrib ir la relación (n o lin eal) e n tre la discrim inación y el
p o rc en taje de negros. E n este caso tam bién, la variable X 2 vuelve
a re p re se n ta r el p o rc en taje de negros al cu a d rad o : (p o rcen taje
de negros )2. Se concibe que tam b ién alguna de la s o tra s X de la
ecuación p u ed a em plearse asim ism o p a ra in d icar relaciones no
lineales e n tre la discrim inación y las dem ás variables.
E n el ejem p lo a n terio r, supóngase que deseábam os o b ten er la
co rrelación p arcial e n tre la d iscrim inación y el p o rc e n ta je de
negros co n tro lan d o en relación con las variables re sta n te s. Como
q u iera que X t y X 2 se h an utilizado p a ra re ferirse a la p rim era
y la segunda po tencias del p o rc e n ta je d e negros, no te n d ría sen­
tido re fe rir Y a X¡ co n tro lan d o en relación con todas las dem ás
"variábles", in clu id a X 2. Antes bien, necesitam os o b ten er la co­
rrelación m ú ltip le e n tre Y y ta n to X x com o X 2, co n tro lan d o en
relación con X 8, X 4, . . . , X 1:, P a ra lo g ra r dicho propósito, pode­
m os servirnos del coeficiente parcial-m últiple.
M anejo de la interacción com o producto s cruzados. E n el
análisis p o r dos m étodos de la variancia, en el de la covariancia
(véase capítulo xx), y en relación con las variables, dependientes
de escala nom inal, concebíam os la in teracción estad ística com o si
im p licara cualquier diferencia de la sim ple adición. U na alter­
nativ a obvia p a ra u n m odelo aditivo la constituye u n a relación
m u ltip licativ a del tip o que p o d ría se r sugerido m ed ian te argu­
m entos verbales orientados a señalar que, al objeto de tener
"p resen te” la Y , deberán tenerse "p resen tes" tanto la X x com o
la X 2. C uando se avanza m ás allá de las sim ples dicotom ías, la
idea, generalizada, nos dice que Y puede se r u n a función m ulti­
plicativa de X x y X 2- La ecuación que sigue puede co n stitu ir
u n a form ulación general de tal relación.

Y = (a a + p1X 1)Yl( a 2 + p2X2)y2

en las que los 'exponentes d e gam m a pueden ser, o bien positi­


vos, en cuyo caso e sta rá im plícita la m ultiplicación, o negativos,
con división im plicada. La función puede desde luego ser conver­
tid a en aditiva, haciendo u n a transform ación logarítm ica de todas
las variables, pudiendo extender fácilm ente el principio general a
m ás de dos variables independientes.
Supongam os, com o aproxim ación razonable, que am bos expo­
nentes fuesen la unidad, lo que red u ciría la ecuación a:

Y — (« i + Pl-S^l)( 0t2 + )= "I- f*2pl-Xl + 011^2-^2

Vemos in m ed iatam ente que m ediante la sum a de u n fa cto r que


ab arca X }X 2 p o drem os m a n e ja r este tipo de m odelo sim ple m ul­
tiplicativo, conservando el fo rm ato aditivo. Nos lim itam os a de­
n o m in ar X 1X 2 com o X 3, construyendo en consecuencia n u e stra
m edida de X ?¡, y continuam os adelante. D eseam os, p o r ejem plo,
m ed ir el grado en que X 3 agrega a la variancia explicada, y po­
dríam os p ro b a r la significancia de este fa cto r adicional com o se
indica en la sección siguiente. Si hubiéram os com enzado con tres
variables independientes, podríam os h a b e r form ado tres factores
con los p ro d u cto s X 1X 2, X t X 3 y X 2X 3 p a ra d eterm in ar las tre s
interacciones de p rim e r orden, y u n trip le p ro d u c to X tX 2X 3 p a ra
m an eja r la interacción de ord en superior.
Es necesario fo rm u lar varias advertencias. E n p rim e r lugar,
el u so de factores de p ro d u cto s cruzados está ju stificad o con base
en que la relación "v erd ad e ra” sea m ultiplicativa y no aditiva, en
tan to que la "n o aditiv id ad ” se refiera a cualquier tipo d e sepa­
ración d e la aditividad. Tenem os así u n a m edida de interacción
algo m ás restrictiv a que la que se obtuvo en relación con el aná­
lisis de la variancia, y es posible que otros factores de interacción
h u b ieran funcionado m e jo r (p o r ejem plo: X t log X 2, X t eos X 2,
o ex i log X 2). Segundo: si tom am os X 3 =- X1X 2, debem os ten er
p resen te que X 3 es u n a función no* lineal exacta de X t y X 2, y
p o r ta n to las correlaciones m om ento-producto de X s ta n to con
X 1com o con X 2 serán de ordinario m uy altas. Tendrem os así
e n tre m anos u n problem a de m ulticolinearidad, y no podrem os
ten er m u ch a fe en n u estras estim aciones de los coeficientes de
los factores X¡. E ste problem a re su lta p artic u la rm en te serio cuan­
do se com ienza con cinco o seis variables independientes y se
desea te n e r en cuenta todas las posibles interacciones. Si las
pro p ias variab les originales e stán altam ente intercorrelacionadas,
o bien fo rm an p a rte de bloques, los factores de p ro d u cto s cruza­
dos se relacio n arán con tales bloques en form as peculiares (véase
[1 ]). E n tales casos puede re s u lta r razonable m e d ir h a sta qué
p u n to el g ru p o com pleto de fa c to re s de p ro d u cto s cruzados au­
m en ta significativam ente la variancia explicada, m ed ian te el uso
del coeficiente parcial-m últiple, o com parando los m últiples, con
y sin los facto res de los productos. La determ inación de los
efectos de determ inados factores d e los pro d u cto s cruzados pue­
de, sin em bargo, re su lta r dem asiado arriesgada, p o r razón de un
g ran volum en de erro res de m u estreo en los que p u d iera haberse
in currido.
H ay evidentem ente m uchos m ás usos y m ás posibles extensio­
nes de las técnicas d e correlación y regresión m últiples, de los
que pueden se r exam inados en u n texto general. H em os visto, sin
em bargo, algunos de los principios básicos m ás elem entales,
los que p erm itirán co n su ltar inteligentem ente con los especialis­
tas en caso de que se p lan tea ran problem as m ás com plicados.

XIX.7. Pruebas de significación e intervalos de confianza


E n relación con la significación será necesario verificar, p o r su­
puesto, tan to el coeficiente m ú ltip le com o el parcial. La hipóte­
sis n u la y los supuestos serán sim ilares a los que se establecieron
en el caso de la correlación total. Una m u estra aleatoria será
sup u esta com o d e costum bre. El supuesto de u n a distribución
n o rm al m u ltiv ariable nos aseg u rará que cada variable está nor­
m alm ente d istrib u id a alred ed o r d e las otras, que las variancias
son iguales, y que la ecuación de regresión te n d rá la fo rm a indi­
cada p o r la ecuación (X IX .l).4 H echos estos supuestos, podem os
servirnos de las p ru e b as d e análisis de variancia p a ra la significa­
ción de varios coeficientes p arciales y m últiples. V erem os p ri­
m ero p ru eb as d e significancia de correlaciones m últiples, ya que
éstas son m ás sencillas desde el p u n to de vista de los conceptos
que las de las correlaciones parciales.
Como q u iera que el cuadrado de la correlación m ú ltip le re p re­
sen ta siem pre la proporción del to tal de la variación explicada
p o r las variables independientes actu an d o ju n tas, hem os dividido
4 Debe recalcarse una vez mas que no todas las X t necesitan tener dis­
tribuciones normales, en tanto la variable dependiente esté normalmente
distribuida alrededor de todas las combinaciones de niveles fijos de las
variables independientes con la misma variancia cfl. Suponemos, con otras
palabras, que el factor de perturbación se encuentra distribuido normal­
mente con la variancia constante.
de hecho esta variación to tal en dos p o rc io n e s: las sum as expli­
cad a e inexplicada de cuadrados. P or lo tan to , el cuadro del an á­
lisis de variancia será siem pre sim ilar al cu ad ro X IX .l.

Cuadro X IX .l. Prueba d e análisis de variancia para la significa­


ción de la correlación m últiple

Sumas de Grados de Apreciación


cuadrados libertad de la variancia
Total Sxi2 N- 1
jR22#:
Explicada R‘2 x f k
k R? N-
a -z m * !3 i -R a
Inexplicada (I - N - k - 1
N - k - l

E n el cu ad ro X IX .l hem os indicado la variable dependiente


con X lr dejan d o que k re p resen te el nú m ero de las variables in­
dependientes. Si R tiene, p o r ejem plo, u n a variable dependiente
y tres variables independientes, h a b rá en la ecuación d e reg re­
sión cu a tro p arám etro s que hay que apreciar. P or consiguiente,
sirviéndonos de la ecuación de los m ínim os cuadrados p a ra apre­
ciar la v ariable dependiente, deberíam os p e rd e r 4 o ( k + 1) gra­
dos de libertad . Así, pues, los grados de lib ertad asociados al
térm ino de e rro r serán p o r lo regular

N - ( k + l) = N - k - l

Los grados de lib ertad asociados a la sum a de cuadrados explicada


puede o b tenerse a continuación p o r sustracción. Toda vez que los
grados de lib ertad p a ra las sum as de cuadrados explicada e inex­
plicada re su ltarán ser siem pre k y N — k — 1, respectivam ente, po­
dem os escrib ir u n a fó rm u la general de F. Obvérvese que, al igual
que en el caso de las correlaciones totales, el fa cto r que re p re­
sen ta la sum a to tal de cuadrados se elim ina. O btenem os así una
fó rm u la general p a ra verificar la significación de u n a R m últiple,
o sea:
R2 N - k - l
i— ( X I X '24)

No es necesario, p o r consiguiente, establecer la ta b la del aná­


lisis de v ariancia en la fo rm a convencional. V erificando la signi­
ficación d e la correlación m ú ltip le que obtuvim os al explicar la
discrim inación a p a r tir del p o rc en taje de negros y el porciento
u rb a n o (p. 476), obtenem os ah o ra:
.3658 1 5 0 -3 .3658 147
= 42.39
1 - .3658 .6342

q ue es significativa al nivel d e .001.


Al v erificar la significación de coeficientes parciales, operam os
so b re la b ase del principio de d e ja r que las variables de control
expliquen p rim ero todo lo que pueden. Tom am os a continuación
la p orción de la sum a to tal de cuadrados que queda inexplicada
p o r la v ariable de control, y nos servim os d e ella com o nuevo
total. E sta ú ltim a cantidad se descom pone luego en dos com po­
nentes, las porciones explicada e inexplicada, y u n a p ru e b a F
efectuada to m ando la razón de las apreciaciones de la variancia
basadas en estas dos últim as com ponentes. El procedim iento se
ilu stra en el cu ad ro XIX.2, en el que verificam os la significación
de r13.2 (o sea, H 0 : 013-2 = 0).

Cuadro XIX.2. P rueba de análisis de variancia para la significación


de la correlación parcial r 13.2

Sumas de Grados
de Estimación de la
cuadrados libertad variancia

Total 2xia N - 1
Explicada
por 2 rufSxi* 1
Inexplicada
por 2 (1 — nfyZx? N -2
Explicada
por 3 W ( l - r a,*)2*i* 1 ra-i{ 1 -
Inexplica­
da por 3 ( 1 - W ) ( 1- r ^ S’ x f N~ 3 (1 - fW )(l - ra*)2xx* ra -i(N - 3)
N- 3 1

O bsérvese que los grados d e lib e rta d inexplicados decrecen


en un o cad a vez que se añade u n a nueva variable. P o r o tra p a r­
te, en la fó rm u la de F la expresión se sim plifica d e ta l m odo,
que re su lta innecesario escrib ir la tab la en te ra cada vez que
deseam os efe c tu a r u n a pruebaí E n el problem a num érico del
que nos hem os venido sirviendo (p. 456) el valor de F de la
p ru eb a de significancia de la relación e n tre la discrim inación
y el p o rc en taje urbano, controlándolo en relación con el p o r­
centaje de negros, se convierte e n :

13'2 —(A i- 3 )
1 ~ rh:2
(.332)2
(147) = 18.21
1 - (.332)2

Así pues, la parcial es significativa al nivel de .001.


Si a,l ex ten d er este procedim iento deseam os verificar la signifi­
cación de r 14.23, podem os to m a r com o nuevo to tal la porción no
explicada p o r 2 y 3 com binadas. E sta ca n tid ad puede luego des­
com ponerse en porciones explicada e inexplicada, p racticándose
la p ru e b a de F lo m ism o que an terio rm en te. U na vez m ás, todas
las cantidades tan to del n u m era d o r com o del denom inador de F
se elim inarán, excepto en cuanto a los facto res que com portan las
parciales. Toda vez que los grados d e lib e rta d asociados al nu m e­
ra d o r serán siem pre la u n id ad y, com o q u iera que los del denom i­
n a d o r serán N — k — 1, podem os escrib ir la fó rm u la general de la
verificación de la p arcial com o sigue:

s
(X IX .26)

en donde el nú m ero to ta l de variables es k + 1 .


O bsérvese que al co m p arar las p ru e b as de la significación de las
correlaciones m últiples y las parciales el térm in o final de e rro r
q ue co m p o rta la sum a de cu adrados inexplicada p o r todas las
variables d eb erá se r el m ism o en am bas tablas, a condición, p o r
supuesto, que se em pleen las m ism as variables dependientes e in­
dependientes. Ya dem ostram os que e ra así, to d a vez que sabe­
m os q u e:

1 — ^1-23 — ( 1 ~~ r12)(l — rlS-2)


De los cu adros X IX .l y XIX.2 puede verse que estas expresiones
son las que fig uran en las hileras in ferio res de las tablas res­
pectivas.
E l pro ced im iento que acabam os de d esc rib ir p a ra verificar las
correlaciones p arciales puede utilizarse asim ism o p a ra verificar
la significación de la parcial-m últiple. A estas altu ra s el lecto r
e sta rá ya en condiciones de verificar que, con o b jeto d e h ac er la
p ru e b a de significación de f1(23).4r> tom arem os la sum a de cu ad ra­
dos n o explicada p o r 4 y 5, sirviéndonos luego del cu ad rad o de la
parcial-m últiple p a ra o b ten er la pro p o rció n de esta nueva su m a
de cuadrados, que re su lta explicada p o r las variables 2 y 3.
Pueden calcu larse asim ism o intervalos de confianza p a ra los
coeficientes p arcial y m últiple, m ed ian te u n a ligera m odificación
del p rocedim iento’ de tran sfo rm ació n de la z descrito en el capí­
tulo an terio r. Podem os co n v ertir de nuevo los dos tipos de coefi­
cientes en z sirviéndonos de la tabla. El único cam bio que se re­
q u iere es que el e rro r e stá n d a r d e z ya no nos venga dado p o r

1
= .......................
V ^ -3

E n lu g ar de ello, en cam bio, perdem os u n grado m ás d e lib ertad


p o r cada v ariable añadida, de m odo que el e rro r e stá n d a r se con­
vierte en general en :
1
o, = --------- --------- ( X IX .27)
y /N -k -2

en donde k re p re se n ta el n ú m ero to ta l de variables.


O btenem os p o r consiguiente los intervalos de confianza del 95
p o r ciento p a ra R v23 y r13.2 de la m an era sig u ien te:

1.96a* = 1.96---------= .1622


V 146

z zl --z—1.9600 zu = z + l-%a¡¡ ri ru
Ri’2s — .605 .7010 .5388 .8632 .492 .698
— .332 .3451 .1829 .5073 .181 .468

Así, pues, el in terv alo de confianza del 95 p o r ciento alrededor


de R x.23 va de .492 a .698, en tan to que el de r 13.2 va d e .181 a .468.
Antes de te rm in a r el p resen te cap ítu lo conviene ob serv ar un im ­
p o rta n te p u n to m ás. Cada vez que añadim os a la ecuación de los
m ínim os cu a d rad o s o tra variable, sólo perdem os u n grad o de li­
b e rta d m ás. Podem os, p o r consiguiente, a ñ a d ir variables, con una
p érd id a m uy p eq u eñ a de eficacia, p o r lo que se re fiere a las p ru e ­
b as de significación. E n ocasiones, la adición de m ás variables
p o d rá b a ja r el nivel de significación, debido al hecho de que aqué­
llas no co n trib u yen a explicar b a sta n te variación adicional p a ra
co m p en sar la p érd id a en grados d e lib ertad . No o b stan te, tenes­
m os en la co rrelación m ú ltip le y p arcial u n in stru m e n to que, si
se aplica ad ecuadam ente, es m u ch o m ás p o ten te q u e cualquiera
d e los m étodos que exam inam os an terio rm en te. Sin em bargo, si
el núm ero de variables utilizadas em pieza a aproxim arse al de los
casos, podem os e sp e ra r o b ten er u n as correlaciones m últiples m uy
grandes, debido sim plem ente a que estam os en condiciones de sa­
c a r p a rtid o d e las fluctuaciones fo rtu itas. Con 15 casos y 15 va­
riables, será posible p a sa r u n a superficie de m ínim os cuadrados
exactam ente e n tre todos los puntos, incluso si suponem os un
m odelo de tipo lineal. P or consiguiente, la m ú ltip le R será auto­
m áticam en te la unidad. De ahí que, lo m ism o que las dem ás téc­
nicas estadísticas, las de regresión y correlación m últiple deban
em p learse con precaución. A estas a ltu ra s ya n o será pro b ab le­
m ente necesario señ alar que, excepto con fines de exploración, no
d eb erán em plearse, a m enos que los supuestos requeridos se cum ­
plan, si 110 to talm ente, p o r lo m enos aproxim adam ente.

Glosario
Ponderaciones de beta
Correlación múltiple
Correlación parcial-múltiple
Ecuación de regresión múltiple
Distribución normal multivariable
Correlación parcial
Ecuación polinomial

E je r c ic io s

1. Sirviéndose de los datos del ejercicio 1 del capítulo xvil.


a) Obténgase la correlación parcial entre la integración moral y la
heterogeneidad, controlando la movilidad. Calcúlese asimismo
la parcial entre la integración moral y la movilidad, controlan­
do la heterogeneidad. Respuesta, — .51; — .63.
b) Obténgase la ecuación de mínimos cuadrados múltiple, tomando
la integración moral como variable dependiente.
c) ¿Qué son las ponderaciones beta? ¿Cómo se comparan con las
parciales obtenidas en a)?
d) Calcúlese la correlación múltiple, tom ando la. integración moral
como variable dependiente. ¿Cómo pueden controlarse los cálcu­
los? Respuesta, R = .64.
e) Verifiqúese la significación de las correlaciones múltiple y par­
cial calculadas en los apartados a) y d). Pónganse intervalos de
confianza del 99 por ciento alrededor de cada una de estas co­
rrelaciones.
2. Escríbanse fórmulas para ni.iztm, R3i.i«m y rVaO-Mw. Respuesta, b)
Í ? SÍ .1 2 S 5 7 ~ SS - } - f 2 4 5 - W ¡ ( 1 ----- R S 4 -1 2 3 ) •
3. Escríbanse las fórmulas de F que se emplearían para verificar el
significado de cada una de las correlaciones del ejercicio 2 anterior.
Respuesta, {c)F —---- ----------------- —— —
1 2

B ibliografía
1. Althauser, R. P .: "Multicollinearity and Non-Additive Regression
Models”, en H. M. Blalock (ed.), Causal Modets in the Social
Sciences, Aldine Publishing Company, Chicago, 1971, cap. 26.
2. Blalock, H. M.: Causal Inferenees in Nonexperimental Research,
University of North Carolina Press, Chapel Hill, 1964, cap. 3.
3. Blalock, H. M .: "Per Cent Non-white and Discrimination in the
South", American Sociological Review, vol. 22, pp. 677-682, 1957.
4. Christ, Cari: Econometric Models and Methods, John Wiley &
Sons, Inc., Nueva York, 1966, Parte III.
5. Cowden, D. J . : "A Procedure for Computing Regression Coeffi-
cients”, Journal of the American Statistical Association, vol. 53,
pp. 144-150, 1958.
6. Croxton, F. E., y D. J. Cowden: Applied General Statistics, 3? ed.
Prentice-Hall, Inc., Englewood Cliffs, N. J., 1967, cap. 21.
7. Davis, J. A.: "A Partial Coefficient for Goodman and Kruskal’s
Gamma", Journal of the American Statistical Association, vol. 62,
pp. 189-193, 1967.
8. Draper, N. R., y H. Sm ith: Applied Regression Analysis, John
Wiley & Sons, Inc., Nueva York, 1966, caps. 5-10.
9. Dwyer, P. S.: Linear Computations, John Wiley & Sons, Inc., Nueva
York, 1951.
10. Gordon, Robert: "Issues in Múltiple Regression”, American Jour­
nal o f Sociology, vol. 73, pp. 592-616, 1968.
11. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 25.
12. Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963.
13. Kendall, M. G.: Rank Correlation Methods, Hafher Publishing
Company, Inc., Nueva York, 1955, cap. 8.
14. Land, K. C.: "Principies of Path Analysis”, en Edgar Borgatta
(ed.), Sociological Methodology 1969, Jossey-Bass, Inc., Publíshers,
San Francisco, 1969, cap. 1.
15. Morris, R. N., "Múltiple Correlation and Ordinally Scaled Data”,
Social Forces, vol. 48, pp. 299-311, 1970.
16. Quade, Dana: Nonparametric Partial Correlation, University of
North Carolina, Institute of Statistics Mimeo Series, núm. 526,
1967.
17. Reynolds, H. T .: Making Causal Inferences w ith Ordinal Data,
University of North Carolina, Institute for Research in Social
Science, Chapel Hill, 1971.
18. Simón, H. A.: "Spurious Correlation: A Causal Interpretation”,
Journal of the American Statistical Association, vol. 49, pp. 467-
479, 1954.
19. Somers, R. H.: "An Approach to the Multivariate Analysis of
Ordinal Data”, American Sociological Review, vol. 33, pp. 971-
977, 1968.
20. Wilson, T. P .: "A Critique of Ordinal Variables”, Social Forces,
vol. 49, pp. 432-444, 1971.
X X . A N Á L IS IS D E COVARIANCIA Y V A R IA B LES
SIM ULADAS

H emos estudiado el análisis de variancia en que u n a sola escala


de in tervalo pu ed e relacionarse con u n a o m ás escalas nom inales.
E n el capítulo an terio r vim os cóm o las técnicas de la correlación
podían em plearse p a ra relacio n ar cualquier núm ero de escalas
de intervalo. E n el análisis de covariancia com binam os ah o ra las
ideas básicas del análisis de variancia y del análisis de correla­
ción, con o b jeto de tr a ta r problem as que com portan m ás de una
escala d e intervalo en com binación con cualquier núm ero de es­
calas nom inales. Así, pues, el análisis de covariancia es u n a exten­
sión teó rica de estos dos procedim ientos, que nos pone ideal­
m en te en condiciones de tr a ta r problem as que com porten diversas
com binaciones de escalas d e intervalo y nom inales.
P o r desgracia, según verem os en seguida, los cálculos re q u eri­
dos p o r el análisis de covariancia son m uy fastidiosos si se re a ­
lizan a m ano o con u n a calculadora de escritorio, p ero no se
p lan tean problem as especiales si se dispone de p ro g ram as de
com putación. E n u n te rre n o ideal cabe am p liar el procedim iento
h a sta in clu ir el m anejo de u n gran núm ero de variables indepen­
dientes nom inales y de escalas de intervalos, a condición d e que
la variable d ependiente sea u n a escala de intervalo. E n la p rác­
tica, sin em bargo, u n o se e n c u en tra lim itad o a tre s o c u a tro va­
riables independientes p o r razón de que las interacciones d e m ás
elevado o rd en re su ltan m uy num erosas pasado aquel lím ite. El
análisis de la covariancia es, en su form a, equivalente a u n proce­
dim ien to denom inado de análisis p o r "variable sim ulada”, que
será explicado al final del capítulo. E ste procedim iento equivale
a u n a sim ple am pliación del m odelo de regresión, y el estudio de
am bos sistem as su m in istra u n a b u en a apreciación intu itiv a de la
relación existente e n tre el análisis de la variancia y la regresión.
E n este capítulo lim itarem os n u e stra atención al caso de tres
variables, en el que tenem os u n a escala nom inal y dos escalas de
intervalo. El p ro blem a básico del que nos ocuparem os es el
de relacio n ar dos de dichas variables controlando en relación con
la tercera. Si bien sem ejan te control p o d ría efectuarse tom ando
categorías de la variable de control y llevando a cabo análisis
separados en el in te rio r de esas clases, es posible, con todo, obte­
n e r u n a eficacia m ucho m ayor m ediante el em pleo de las técnicas
del análisis de covariancia, a condición de que la interacción no
sea significativa. E n otros té rm in o s : el control puede efectuarse
sin necesidad de ten er que to m a r u n nú m ero sum am ente grande
de casos. E fectivam ente, nos servim os de prom edios p o n d era­
dos y d e procedim ientos d e ajuste, com o lo hicim os en el caso de
la correlación parcial. Con todo, al servirnos del análisis de co­
variancia podem os ob ten er considerablem ente m ás inform ación
de lo que fu e el caso con la correlación parcial, ya que podem os
desplegar correlaciones y estim aciones de declive separadas p ara
cada categoría d e la variable de control, pudiendo adem ás buscar
la interacción.
Hay dos tipos de situaciones de los que habrem os de ocupar­
nos : 1) aquellas en las que relacionam os las dos escalas d e in te r­
valo, co n tro lan d o en relación con la escala nom inal, y 2) aquellas
en que u n a d e las escalas de intervalo es relacionada con la escala
nom inal, siendo la variable d e control la o tra escala de intervalo.
Pese a que ra ra vez el interés se fija rá en am bos tipos de proble­
m as p a ra u n a com binación d ad a d e datos, será necesario, con
todo, llevar a cabo la m ayor p a rte del análisis re q u erid o p o r el
p rim e r tip o de problem a, incluso cuando el interés se centre
p rin cip alm en te en el segundo. É sta es la razón de que proceda­
m os p rim ero con el tipo de p ro b lem a en que se utiliza com o
co n tro l la variab le de escala nom inal.

X X .1. R elación de dos escalas de intervalo, control de la escala


nom inal
Los m étodos b ásicos de correlación y regresión pueden em plear­
se p a ra rela cio n ar dos o m ás escalas de intervalo d en tro de las
categorías d e la variable de control. H abiendo investigado cada
u n a de las relaciones en el in te rio r de las diversas categorías,
puede re s u lta r posible ju n ta r los resultados, obteniendo coeficien­
tes prom edios de correlación in traclase y de m ínim os cuadrados,
a condición de que pueda suponerse que las relaciones son las
m ism as de u n a categoría a la siguiente. Si los resultados se pue­
den ju n ta r, p u ed e obtenerse u n a sola m edida general que servirá
cnrno m edida efectiva de resum en y será m ás segura com o esti­
m ación que cu alq u iera de las m ed id as de las categorías separa­
das. El coeficiente prom edio de correlación de in traclase puede
In terp retarse com o directam en te análogo al coeficiente de co rre­
lación parcial, ya que puede u tilizarse p a ra re p re se n ta r la rela­
ción e n tra las dos variables de escala de intervalo después de
híiber perm itid o que actúe la variab le de control.
Hoy dos p ru ebas de significación que hem os de p ra c tic a r en
este tipo de problem a. La p rim e ra es u n a p ru e b a p a ra ver si el
hecho do ju n ta r los resultados de las diversas clases es o no legí­
tim o. Aquí verificam os esencialm ente la interacción, p a ra ver si
podem os o no su p o n er la m ism a n atu ra leza de relación (según la
m edida de In.s b ) pnra todas las clases. Si no podem os, entonces
el ju n ta r no ten d rá m ucho objeto, y habrem os de p ra c tic a r aná­
lisis separados pura cmln u n a de las categorías de la variable de
control. P ero si la rn m ió n d e los resultados parece justificada,
entonces seguim os adelante y obtenem os u n a correlación pro m e­
dio de in traclase, y la segunda p ru e b a que hagam os será p a ra ver
si dicho coeficiente es o no significativam ente d istin to de cero.
Como de costum bre, hem os de estab lecer algunos supuestos
acerca de los m étodos de m u estreo y de las poblaciones de las
que se h an ex traído los datos y, com o p o d ría esperarse, estos su-

Fig. X X .l. D atos hipotéticos que indican una débil correlación


total en tre X y Y, pero correlaciones m ás fu ertes dentro de las
categorías de A.

puestos serán esencialm ente los que req u ieren el análisis de va­
rian cia y el de correlación. E n líneas generales, esto es lo que
hacem os en el p ro blem a del p rim e r tip o de análisis d e covarian­
cia. Veam os ah o ra m ás de cerca los detalles del procedim iento.
Con o b je to de o b ten er u n a visión clara de lo que puede suceder
cuando em pleam os el análisis de covariancia p a ra co n tro lar en re ­
lación con u n a v ariable de escala nom inal, considerem os dos tipos
extrem os de situaciones. E n la figura X X .l tenem os u n a situación
en la que se d a u n a correlación ligeram ente negativa general o to­
tal (in d icad a p o r la re c ta co n tin u a) e n tre la variable dependiente
Y y u n a variable independiente X . Si nos fijam os separadam ente
en cad a u n a de las categorías (A lt A2 y As ) de la variable d e con­
tro l A, vem os que d en tro de cada clase se d a u n a relación posi­
tiva m ás bien fu e rte e n tre X y Y . E n este caso, las m edias en X
d en tro de las diversas categorías son lo b a s ta n te diferentes com o
p a ra oscu recer la relación b ásica e n tre X y Y .
Si fuéram os a su p erp o n er las m edias de las tres categorías
u n a so b re o tra, m overíam os en realid ad las ecuaciones de in­
traclase de tal m odo que qu ed aran u n a encim a de o tra, con lo que
ob ten d ríam o s e n tre X y Y u n a relación m ucho m ás fuerte. E n
esencia, esto es lo que hacem os cuando obtenem os u n coeficiente
p rom edio d e correlación intraclase. U na m an era de re p re se n ta r­
se el p roceso consiste en p en sa r en térm inos de h a b e r aju stad o
n o sotros las diferencias e n tre las categorías A, sacando la fuente
de variación d ebida a la variable d e control. H abiendo aju stad o
en relación con A m ediante superposición de las m edias d e X y Y,
podem os c o m p arar ah o ra las relaciones en tre X y Y d en tro de las
categorías, investigando las diferencias e n tre las pendientes in-

x
Fig. XX.2 Datos hipotéticos que indican una fu erte correlación
total entre X y Y, pero correlaciones m ás débiles dentro de las
categorías d e A.

traclase (co m o lo indican las líneas de trazo s). S in duda, el


hecho de su p erp o n er las m edias a fectará las a en cada u n a de las
ecuaciones de m ínim os cuadrados, p ero d e ja rá in alterad as estas
pendientes y las r del in te rio r d e las clases.
La fig u ra XX.2 re p resen ta u n a situación co n tra sta n te, en la
que se dan relaciones extrem ad am en te débiles al in te rio r de las
categorías de A, p ero en donde la relación general e n tre X y Y
es m uy fu erte. La variable de control afecta nuevam ente la rela­
ción e n tre X y Y , pero esta vez, si superpusiéram os las m edias,
no h allaríam o s esencialm ente relación alguna e n tre las dos esca­
las de intervalo. Tal vez n o exista relación causal alguna entre
X y Y , y la relación general se d eb a al hecho de q u e A produce
cam bios ta n to en la u n a com o en la o tra de ellas. E n tal caso,
pues, co n sid eraríam os que la relación e n tre X y Y e ra espuria.
E n estos dos tipos generales de situación ten d rá , p o r consi­
guiente, o b jeto c o n tro la r en relación con A. E n el p rim e r caso, la
correlación p arcial o in trac la se será m ayor en m agnitud que
la to ta l; en el segundo, en cam bio, será m enor. Un diagram a de
dispersión cuidadosam ente construido, sirviéndonos de p untos
de diversos colores p a ra re p re se n ta r las distin tas categorías de
la variable de control, in d icará p o r lo re g u la r si vale o no la pena
m olestarse en llevar a cabo u n análisis de covariancia sobre
la base de los dato s disponibles. Si los resu ltad o s son sem ejantes
a los de las figuras X X .l o XX.2, v ald rá p robablem ente la pena
seguir adelante. P or o tra p a rte , si los p u n to s de diversos co­
lores se h allan d istribuidos m ás o m enos al azar en el diagram a
de dispersión, de m odo que las m edias d e las categorías n o sean
m uy diferentes, n o pu ed e esp erarse que el análisis de covariancia
p ro d u zca resu ltad o s m uy interesantes.
Al su p erp o n er las m edias de u n a categoría sobre las d e la o tra,
co n tro lam o s de hecho la m agnitud de las m edias en cuestión. En
realidad, pues, m edim os variaciones y covariaciones alrededor de
las categorías individuales m ás que con resp ecto de las grandes
m edias. Se re co rd a rá que esto es exactam ente lo que hicim os en
el análisis de v ariancia al dividir la sum a to tal de cuadrados
en dos com ponentes. Una de estas com ponentes, la variación in-
traclase, co m p o rtab a desviaciones de las m edias de clase en tan to
que la segunda com ponente se re fería a las desviaciones de las
m edias de clase en relación con la gran m edia o m edia to tal. Todo
lo que ah o ra necesitam os h a c e r es ex ten d er los m ism os procedi­
m ientos, descom poniendo la covariación to tal, o sum a de p ro d u c­
tos, en porciones explicadas e inexplicadas. N u estro razonam iento
será exactam en te paralelo al que em pleam os en conexión con las
sum as de cuadrados. Como q u iera q ue:

X u - X . . = ( X tJ - X . ¡ ) + { X . j - X . . )
y
Y tj — Y.. = ( Y is - Y.i) + ( Y . ¡ - Y . . )
podem os e sc rib ir:

(.Xi j - X . . ) ( Y t f - Y . . )
= [ (X y - X. j) + (X.¡ - X . .) ][ ( Y a - Y.,) + (Y ., - ? . . ) ]
Si sum am os todos los casos y efectuam os la m ultiplicación, obte­
nem os cu a tro térm inos, d e los cuales, sin em bargo, los dos cen­
trales se elim inan. Como re su ltad o podem os e sc rib ir:

S 2 ( X i} - X ..) ( y 4, — Y. . ) = s 2 ( Xi , - X . j K Y i , - Y,¡)
i } i j
Sum a to tal de p ro d u cto s = sum a de p ro d u cto s " d e n tro ”
(n o explicada)
+22(x./-x..)(y.i -F..)
* í
+ sum a de p ro d u cto s "en tre"
(explicada)
Aquí tam bién, lo m ás p ráctico consiste en servirse de las fó rm u ­
las de cálculos de las sum as to ta l y e n tre de productos, obte­
niendo la cifra in te rio r p o r sustracción. E stas fó rm u las de cálcu­
lo re su ltan se r exactam ente análogas a las que se em plearon p ara
o b ten er las sum as de cuadrados, excepto en que u n valor de Y
reem plaza a u n valor de las X , de m odo que obtenem os p roductos
cruzados, y n o cuadrados. Así tenem os, p u es:

(2 2 X iy)(22Fiy)
i i i ¡
S um a to tal de p roductos = 2 2 1 ^ 7 ^ -------------- —----------
(X X .l)
( S X y X S Y i,)
i i
Sum a de p ro d u cto s entre = 2 ---------------------
' N,

(2 2 X ^ ( 2 2
i i i ¡
------------------------------ ( X X.2)
N

en donde N¡ re p re se n ta el n ú m ero d e casos en la clase ;-ésima.


Lo m ism o q u e en el caso de las sum as de cuadrados, el segun­
do térm in o es la m ism a ca n tid a d en am bas ecuaciones. Obsérvese
asim ism o que, en la fó rm u la de la sum a en tre de productos, la
cantidad del n u m era d o r del p rim e r térm in o re p re se n ta sim ple­
m en te el p ro d u c to de la sum a de las X y de la sum a de las Y
p a ra cada clase. La fó rm u la nos m an d a dividir dicho p roducto
e n tre el n ú m ero de casos y su m ar luego todas las clases.
H ay u n a d iferencia im p o rtan te e n tre u n a su m a d e p ro d u cto s y
u n a su m a d e cuadrados, en cu an to la p rim e ra puede te n e r un
valor negativo. Así, pues, la covariación to tal pu ed e s e r negativa,
en tan to que el valor en tre p o d rá ser positivo. E sto significa,
p o r supuesto, que cuando su straigam os u n n ú m ero positivo de
un n ú m ero negativo, la sum a d en tro de p ro d u cto s re su ltan te
será u n n ú m ero negativo m ayor.
Problem a. A ntes d e seguir ad e la n te será ú til p re s e n ta r u n ejem ­
plo' n u m érico e in d icar de qué m o d o los varios cálculos re q u eri­
dos en el análisis de covariancia pueden llevarse a efecto en
fo rm a sistem ática. El cu ad ro X X .l m u estra dichos cálculos p ara
las siguientes v a ria b le s :

Y (variable dependiente, escala de in te rv a lo ): m edida de discri­


m inación educati­
va c o n tra los ne­
gros
X (v ariab le independiente, escala de in te rv a lo ): p o rc en taje de
n e g ro s 1
A (v ariab le independiente, escala n o m in a l): E stado.

Los d ato s fu ero n reunidos p a ra u n a m u e stra aleato ria de 150


d istrito s del Sur, utilizando el censo d e 1950. Supongam os, en
e s ta p a r te del p roblem a, que estam os in teresad o s en estu d ia r la
relación e n tre las m arcas de discrim inación y el p o rc en taje de
negros, co n tro lan d o en relación con el estad o del distrito.
A p rim e ra vista, el cu ad ro X X .l se p re se n ta algo form idable,
p ero, si lo exam inam os colum na p o r colum na, vem os que p o r lo
m enos las trece p rim era s n ad a contienen re alm en te de nuevo. E n
efecto, las colum nas 2, 3, 5, 7, 9 y 11 contienen los datos básicos
q u e se n ecesitan p a ra todos los dem ás cálculos. Las colum nas
2 a 6 y 7 a 10 sirven p a ra o b ten er las sum as de cuadrados to tal,
e n tre y d en tro respectivam ente d e la s variables dependiente
e independiente. S irviéndose d e esta ru tin a de cálculos, se ope­
r a a trav é s d e la ta b la sim plem ente, obteniendo los valores de
cad a h ilera m ed ian te el em pleo de la fó rm u la indicada en la ca­
beza d e cad a colum na. Así, p o r ejem plo, las cifras d e la colum na
6, que re p resen ta n la su m a d e los cuadrados en Y, se obtienen
su stray en d o la colum na 4 d e la 5. P or lo tan to , p a ra F lorida tene­
m o s: 54 989 = 3 866 409 — 3 811420. E n e sta fo rm a obtenem os en
la colum na 6 la su m a d e cu adrados d en tro de cada estado. Si
estas cantidades se sum an, obtenem os la sum a de cuadrados
d en tro d e clase, de m odo que podem os in sc rib ir esta m ism a
ca n tid ad en la h ile ra in ferio r d e la colum na 6. O bsérvese que
e s ta ru tin a p a rtic u la r d e cálculo difiere d e la q u e utilizam os an ­
tes al tr a ta r pro b lem as d e análisis de variancia, en que hem os
obten id o la su m a in trac la se de los cu adrados directam ente,
su stray en d o este v alo r del total, p a ra o b ten er la sum a de cua­
drados e n tre . Así, p o r ejem plo, 1 370 555 = 2 961 762 — 1 591 207.
P ara o b ten er la su m a to tal de cuadrados, utilizam os exacta­
m en te el m ism o p ro cedim iento en el caso de cada estado, o* sea
que su straem o s la colum na 4 de la colum na 5. Al p ro c ed er así
nos servim os, p o r supuesto, de la fó rm u la:

(2 F )2 „ (74 938)2
= 2 F 2 - ------— = 40 399 788 - -----------
7 N 150
= 40 399 788 - 37 438 026 = 2 961 762

Aquí, la N de la h ile ra de los totales es el n ú m ero to tal d e casos


d e la m u e s tra (150).
O bsérvese que las filas d e totales y sum as contienen exacta-
1 E n e l c u a d r o X X .l, l a s c i f r a s d e l p o r c e n t a j e d e n e g r o s s e h a n m u l t i ­
p lic a d o p o r 10 c o n o b j e t o d e e v i t a r lo s d e c im a le s .
m en te las m ism as en tra d as en las colum nas 3, 5, 7, 9 y 11, con
pu n tu acio n es b u rd a s 2 Y, 2 Y 3, 2 X , 2 X 2 y 2X Y . P ero las en tra d as
difieren en las colum nas 4, 8 y 12 referen tes a los facto res de co­
rrecció n q u e h an de ser re sta d o s p a ra o b ten er 2 y 2, 2%2 y 2 xy. E n
realidad, las cifras de “su m as" n o son del todo necesarias en las
colum nas 4, 8 y 12, excepto p a ra com p robar los cálculos. P or
ejem p lo : la fó rm u la (6) = (5) — (4), es aplicable a la fila de su­
m as y así, com o com probación, observam os que

1 591 207 = 40 399 788 - 38 808 581

La cifra de sum as de la colum na 4, a sa b e r: 38 808 581, se ob­


tuvo su m an d o los re su ltad o s correspondientes a ca d a estado, en
ta n to que la cifra de " to ta le s”, 37 438 026, se obtuvo utilizando el
tam añ o to tal d e la m u e stra de 150. A sí:

37 438 026 = (74 938)2/150

S erá ú til en este lugar efectu ar u n nú m ero suficiente de cálcu­


los en las colum nas 2 a 6 y 7 a 10, de m odo q u e el le c to r com ­
p re n d a de qué se tra ta y se p e rc a te de que los re su ltad o s que
o b tiene con este nuevo m étodo son exactam ente los m ism os (p res­
cindiendo de los e rro res d e red o n d eo ) que los que hubiéram os
o btenido con el m étodo antiguo.
Las colum nas 11 a 13 sirven p a ra descom poner la variación en
p a rte s com ponentes, en fo rm a análoga. Como se indica m ás a rri­
ba, las fó rm u las son sim ilares a las del análisis d e variancia, ex­
cep to en que los cuadrados se sustituyen p o r p ro d u cto s, obtenien­
d o p o r consiguiente la colum na 13 sustrayendo la 12 de la 11,
com o lo in d ican las fórm ulas de cálculo. C alculam os tam bién la
sum a in te rio r de p ro d u cto s directam ente, y el v alo r e n tre p o r
su stracció n . De este m odo, la covariación to tal es de 3 025 678,
y la in te rio r es de 1 744 189, lo que d a 1 281 489 p a ra la covariación
entre-clases. O curre, en este caso, que las tre s sum as de p ro d u c­
tos, lo m ism o que los valores p a ra todos los estados, son positi­
vas, p e ro esto no será siem pre necesariam ente así. H em os efec­
tu ad o ah o ra el cálculo básico que vam os a n ec esitar p a ra n u estra
lab o r u lterio r, habiendo obtenido las sum as to tal, explicada e
inexplicada p a ra y2, xz y xy. N u e stra atención p u ed e fija rse ahora
en las varias p ru e b as y m edidas que se necesitan p a ra llevar a
cabo el análisis. Las colum nas re sta n te s del cu ad ro X X .l se ex­
plicarán cuando' lleguem os a ellas.
Prueba de la interacción. Se re c o rd a rá que en el análisis en dos
form as de v arian cia la p rim e ra p ru e b a que efectuam os fu e la del
efecto de interacción. La razó n de p ro ced er a dicha pru eb a en
p rim e r lu g ar estab a en que si las dos variables independientes
p ro d u cen efectos distintos, al a c tu a r en com binación, d e los que
Para calcular las sumas de cuadrados en Y Para calcular las sumas de cuadrados en X
( c o l. 6 ) ( c o l. 10)
C lase N,
(1 ) (2 ) 2 7 ( 2 YP/ Nj sy s Sy2 2X (S X P /A T j- 2X 2 2*2
(3 ) ( 4 ) = (3 )a /< 2 ) (5 ) (6 ) = ( 5 ) - ( 4 ) (7 ) (8 ) = (7 )2 /(2 ) (9 ) (1 0 ) = (9 ) — (8 )

F lo rid a 11 6475 3 811420 3 866409 5 4 989 2 683 654408 74 4 861 9 0 453


A la b a m a 8 4 03 0 2030112 2 1 6 8 898 138 7 8 6 3 367 1 4 1 7 086 1964231 547 145
A rk an sas 10 4608 2 123 36 ó 2 223 740 1 00 3 7 4 3 211 1 031 052 1236701 2 0 5 6 49
G e o rg ia 33 18911 10 837 149 11 2 3 9 4 5 1 402302 12707 4 89 2 965 5 826 629 9 3 3 6 64
K e n tu c k y 9 2724 824464 891102 66 638 69 5 53 669 63293 9 6 24
L o u is ia n a 15 7 47 6 3 7 2 6 03 8 3 926182 2 0 0 144 5257 1842403 2025311 182 908
N o r th C a ro lin a 24 9281 3589040 3 862309 2 73 26 9 7459 2318195 3 2 6 6 843 948 648
M is s is s ip p i 20 12206 7449322 7 5 8 6 664 137 34 2 10419 5 4 2 7 778 6 043 283 615505
S o u th C a ro lin a 11 5967 3 2 3 6 826 3371315 134489 4676 1 9 8 7 725 2 3 6 7 054 379329
T en n essee 9 3 26 0 1180844 1 2 6 3 71 8 82 874 1088 131 527 2 2 9 200 9 7 6 73

Sum as 150 74938 38 808 581 40399788 1 591207 51562 19756808 23 7 6 7 4 0 6 4 0 1 0 5 98


T o ta le s 150 74938 37 438 026 40399788 2 961 762 51562 17 72 4 266 23 767 4 0 6 6043140
E n tr e c la s e
(e x p lic a d a p o r
A) 1 3 7 0 555 2 0 3 2 5 42
D e n tr o d e c la s e
( n o e x p lic a d a
p o r A) 1 591 20 7 4010598

* Adaptada de [4], cuadro 74, pp. 486-487, con la amable autorización del editor.
Para el cálculo de covariackmes pendientes Explicada No explicada Para el cálculo de
(col. 13) por X por X correlaciones

Clase b=
(1) 2XY (2X)(2Y)/iVy ’S.xy (Xxy^/'S.x* (2xyP
2xy/2x2 2V2 (2xy)2 (18) =
(12) = (13) = (15) = 2x2 2*22y2
(11) (3)(7)/(2) (14) =
(11)—(12) (13)/(10) (13)(14) ( 16)=(6)—(15) (17) = ±V(17)
(15)/(6)
Florida 1601 644 1579311 22333 .24690 5 514 49475 .10027 .317
Alabama 1894209 1 696 126 198 083 .36203 71 712 67 074 .51671 .719
Arkansas 1 579 758 1479629 100129 .48689 48 752 51622 .48570 .697
Georgia 7 765 621 7 281 881 483 740 .51811 250 630 151 672 .62299 .789
Kentucky 217349 210 353 6996 .72693 5 086 61552 .07632 .276
Louisiana 2700374 2620089 80285 .43894 35 240 164904 .17607 .420
North Carolina 3 203 824 2 884 457 319367 .33665 107 515 165 754 .39344 .627
Mississippi 6 620 545 6 358 716 261 829 .42539 111 379 25 963 .81096 .900
South Carolina 2 737 694 2 536 517 201177 .53035 106694 27795 .79333 .891
Tennessee 464 348 394098 70250 .71924 50 527 32347 .60968 .781
Sumas 28 785 366 27 041 177 1744189 798158
Totales 28785366 25759688 3 025 678 .50068 1 514 896 1446866 .51148 .715
Entre clase
(explicada por
A) 1 281 489 614189
Dentro de clase
(no explicada
por A) 1744189 .43489 758 530 832 677 .47670 .690
Para calcular el ajuste de las Y (col. 23)

Clase x - X .¡ - X .. Y., = 2 Y / N , Y ’-j = Y .¡ - bwx


X., = 2X/JVf
(1) (19) = (7)/(2) (21) = bw (20) (22) = (3)/(2) (23) = (2 2 ) -(2 1 )
(20) = (19) —X -
Florida 243.909 - 99.838 - 43.42 588.64 632.06
Alabama 420.875 77.128 33.54 503.75 470.21
Arkansas 321.100 - 22.647 - 9.85 460.80 470.65
Georgia 385.060 41.313 17.97 573.06 555.09
Kentucky 77.222 -266.525 -115.91 302.67 418.58
Louisiana 350.467 6.720 2.92 498.40 495.48
North Carolina 310.792 - 32.955 - 14.33 386.71 401.04
Mississippi 520.950 177.203 77.06 610.30 533.24
South Carolina 425.091 81.344 35.38 542.45 507.07
Tennessee 120.889 -222.858 - 96.92 362.22 459.14

Sumas
Totales X.. = 343.747 Y.. = 499.59
esperábam os sobre la base de sus efectos separados, tiene m uy
escaso objeto, teóricam ente, estu d ia r los efectos de u n a de ellas
controlando la otra. En otros té rm in o s : la relación e n tre u n a de
las variables independientes y la variable dependiente difiere se­
gún el v alo r de la variable de control. Si tal es el caso, la rela­
ción d eberá estu d iarse separadam ente en el in terio r de cada una
de las categorías de la variable de control. E n el análisis de co­
variancia nos enfrentam os a u n problem a sim ilar, aunque, en lu-
-gar de p en sa r en térm inos del supuesto de adicionalidad, nos
en contram os ah o ra com parando las pendientes de las ecuaciones
de los m ínim os cuadrados en el in terio r de cada u n a de las cate­
gorías. O bservem os p rim ero el paralelism o e n tre el supuesto de
adicionalidad y el de pendientes iguales. E starem o s luego en m e­
jo res condiciones de com prender la naturaleza d e la p ru eb a de
interacción en el análisis de covariancia.
E n el cap ítu lo xvi, que tr a ta del análisis de variancia, nos ser­
vimos del siguiente ejem plo num érico con o b jeto de ilu s tra r la
adicionalidad:
Ai A2 •^3

Bi 5 10 20
b2 10 15 25
Bs 25 30 40

Se hizo o b servar que no e ra necesario su p o n er diferencias igua­


les e n tre las m arcas de B t y Be, p o r u n a p arte , y las de B 2 y B s,
p o r la otra. P ero hubim os de su p o n er que las diferencias en tre
•®i Y -®2 ©ran las m ism as p a ra cada u n a de las categorías de A.
Supongam os ah o ra que la variable B re p resen te en realidad úna
variable X de escala de intervalo, que ha sido categorizada. H a­
brem os de su p o n er que las relaciones en tre X y la variable de­
pen d ien te Y (rep rese n tad a p o r las m arcas en el cuerpo de la
tab la) son lineales d en tro de cada u n a de las categorías de A.
Una som era reflexión nos convencerá de que, situ an d o adecuada­
m en te las categorías de B a lo larg o del eje de las X , podem os
trad u c ir la propiedad de adicionalidad en el enunciado de que
las tres líneas de regresión p re se n ta n todas ellas la m ism a pen­
diente. La figura, XX.3 indica esta relación. Vemos así que la
p ru eb a d e adicionalidad es directam en te análoga a la de la h ip ó ­
tesis de que las pendientes en el in te rio r de las clases son iguales.
Al v erificar la interacción en el análisis bim odal de variancia
tom am os la cantidad de variación d e la variable dependiente que
no podía ser explicada p o r las dos escalas nom inales al suponer
adicionalidad. E sta cantidad se fragm entó luego en dos com po­
nentes, a sab e r: la cantidad que podía explicarse p o r la in terac­
ción, y la can tidad que perm anecía inexplicada todavía p o r los
efectos e n tre colum nas, e n tre hileras y de la interacción. La ra ­
zón de estas dos ú ltim as com ponentes se utilizó p a ra verificar la
interacción. E n el análisis de covariancia hacem os exactam ente
lo m ism o, pero, según cabía esperar, n u e stro procedim iento adop­
ta u n a fo rm a algo d istin ta. Acabam os de ver, en efecto, que el
sup u esto de adicionalidad es análogo al de que las pendientes de
población d en tro de cada u n a de las categorías son las m ism as.

Fig. XX.3. R ectas de pendientes iguales, que indican


no interacción.
S in em bargo, si se d a u n efecto significativo de interacción, esto
su p o n d rá u n a relación d iferen te p a ra algunas p o r lo m enos de
las categorías. E n o tro s térm in o s: u n d eterm in ad o cam bio d e X
p ro d u c irá diferen tes cam bios de Y en las d istin tas clases de A. Si
tom am os ah o ra la ca n tid ad de variación de Y no explicada p o r
X suponiendo p endientes iguales, podem os v e r cu án ta variación
adicional podem os explicar p o r la interacción. Podem os luego
v erificar la in teracció n com parando la su m a de cuadrados d e
é s ta con el térm in o de e rro r.
¿Cóm o d eterm inam os la can tid ad de variación que po d em o s
a trib u ir a la in teracción? P a ra c o n testa r a e s ta pregunta, h em o s
d e in terro g a m o s p rim ero a nosotros m ism os cu á n ta v ariació n
p o dríam o s ev en tualm ente e sp e ra r explicar sirviéndonos de m o ­
delos lineales d en tro de cada u n a d e las categorías de A. M ani­
fiestam ente, la ecuación individual de los m ínim os cu ad rad o s
p a ra cada categoría nos d a el m e jo r a ju s te que p u ed a esp e ra rse
de u n a recta, y el coeficiente de correlación calculado so b re la
b ase d e los dato s de dicha categoría p a rtic u la r nos p ro p o rcio n ará
u n a m ed id a d e la b o n d ad de a ju ste. Podem os, pues, o b ten er p a ra
cad a categoría cifras q u e re p resen te n la cantidad de variación de
Y explicada p o r X , sirviéndonos d e la re c ta q u e m e jo r se aju sta
a los d ato s d e d ich a categoría p a rtic u la r. Al su m ar las variacio­
nes explicadas p a ra cada u n a de las categorías, obtenem os la
can tid ad de variación efectivam ente explicada p o r to d as las ecua­
ciones d istin tas d e los m ínim os cuadrados. Y en fo rm a análoga,
al su m ar las sum as inexplicadas d e cuadrados, obtenem os la can­
tid ad de v ariación de Y que p erm an ece todavía sin explicar p o r
esas líneas de m ínim os cuadrados distintas.
E n el cu ad ro X X .l, estos cálculos se h an llevado a cabo en las
colum nas 15 y 16. E n el caso de F lorida, p o r ejem plo, la variación
to ta l d e Y (co lum na 6) es de 54 989. De esta cantidad, 5 514
es explicada p o r la ecuación de m ínim os cuadrados que m e jo r se
a d a p ta a los datos d e F lorida, perm aneciendo inexplicada la
d e 49475. De la variación to ta l de Y (2 961762), la ca n tid a d de
798 158 re p re se n ta la ca n tid a d d e ja d a inexplicada p o r esas ecua­
ciones de m ínim os cu adrados separadas.
H em os d e p re g u n ta rn o s a continuación cu á n ta variación queda
inexplicada si se supone que n o h ay efecto de interacción. Si no
lo hay, entonces to d as las p endientes de las categorías de A serán
iguales. N u e stra m e jo r apreciación d e esta p en d ien te com ún
co n sistirá en u n a apreciación co n ju n ta, que es u n p ro m ed io pon­
d erad o de las p endientes individuales e n el in te rio r de las clases.
E stas pen d ien tes se h a n calculado en la c o lu rm a 14. L a aprecia­
ción co n ju n ta, o p endiente m ed ia d e n tro de las clases, se h a
calculado asim ism o e n la colum na 14, sirviéndonos de los datos
in terio res a las clases de las colum nas 10 y 13. Así, el v alo r de
.43489 se o btuvo dividiendo 1 744 189 e n tre 4 010 598.
Podem os c o m p a ra r ah o ra las relativ as capacidades de explica­
ción de las d istin ta s líneas de m ínim os cuadrados in terio re s a las
clases, cad a u n a con u n a p en d ien te d istin ta, y u n n ú m ero de
rectas trazad as a través de las m edias de cada categoría, pero
de igual p en d ien te to d as ellas, esto es, la b prom edio “d e n tro ” de
las clases (véase fig u ra XX.4). De estas últim as líneas parale­
las no p u ed e esp e rarse que expliquen ta n to de la variación to tal
com o las líneas realm en te m e jo r aju sta d a s de cada u n a de las
c a te g o ría s; p ero, si n o se d a efectivam ente in teracción alguna en
los datos de la población, las d istin tas ecuaciones d e regresión
ten d rá n to d as la m ism a pendiente, y podem os e sp e ra r que las
líneas de m ínim os cuadrados n o d ifieran en cu an to a la pendiente
en fo rm a d em asiado pronunciada. E n o tro s térm in o s: si no se
d a interacción, la serie de líneas p aralelas de trazos se acercará
con u n a aproxim ación relativ am en te b u en a a las ecuaciones de
m ínim os cu ad rados reales de cada categoría. T oda vez q u e en tal
caso el valor de la p endiente m ed ia d en tro de las clases n o será
dem asiado d iferen te de aquel de cad a u n a de las pendientes p a r­
ticu lares d en tro de las clases, las líneas d e trazos te n d rá n u n
p o d er explicativo casi ta n grande com o las continuas.
D ebido a las fluctuaciones de la m u estra, podem os e sp e ra r al­
guna interacció n d en tro de la m u estra, a u n si n o la hay acaso
en tre la población. Las líneas continuas y de trazos n u n ca serán
idénticas y, p o r consiguiente, estas ú ltim as d e ja rá n siem pre algo
___ ____Rectas de mínimos cuadrados

Fig. XX.4. C om paración en tre rectas separadas de m ín im o s ada­


drados y rectas a través d e las m edias de categorías, pero todas
tienen tu m ism a p endiente b w.

m ás de variación sin explicar que las líneas individuales de m íni­


m os cuad rad o s. La cuestión e stá ah o ra en sa b e r si las líneas de
m ínim os cu ad rados sep arad as difieren o n o suficientem ente en ­
tr e sí, y p o r consiguiente de las líneas d e trazos, p a ra g aran tizar
n u e stra conclusión en el sen tid o de que la interacción es signifi­
cativ a desde el p u n to d e v ista estadístico.
E n esta y en o tra s p ru e b as del análisis d e covariancia hem os
de estab lecer u n a serie de supuestos que son esencialm ente los
m ism os req u erid o s p o r los análisis d e variancia y regresión. Como
de co stu m b re, hay que su p o n er u n a m u e s tra aleatoria indepen­
diente. H em os de su p o n er tam b ién no rm alid ad bivariable e n tre
X y Y d en tro de cada u n a de las categorías de A. Además, h e­
m os de su p o n er que las variancias de X y F son las m ism as den­
tro de to d as las categorías de A.2 E n la p ru e b a de interacción,
n u e stra h ipótesis n u la será, p o r supuesto, que cada u n a d e las
relaciones d e categoría e n tre X y Y co m p o rta la m ism a pen­
diente (3.
2 Una vez más resultará innecesario suponer la normalidad de las X en
tanto las Y estén distribuidas normalmente (con variancias iguales) alre­
dedor de las puntuaciones fijas X, dentro de cada categoría de la variable
de escala nominal.
E n el cu ad ro XX.2 se efectúa u n a p ru e b a F e n relación con la
interacción. T om am os la can tid ad de variación de Y n o explicada
p o r X y A, suponiendo ausencia de interacción, o iguales pendien­
tes de población. E sta cantidad p u ed e en c o n trarse en el cua­
d ro X X .1, re co rrie n d o la h ile ra co rresp o n d ien te al in te rio r de las
clases, h a s ta lleg ar a la colum na inexplicada p o r X (colum na 16).
Cuadro XX.2. P rueba de análisis d e variancia para la interacción

Suma de Grados de Estimación


libertad de la F
cuadrados variancia

I n e x p l i c a d a p o r X y A, s u ­
p o n ie n d o a u s e n c ia d e in ­
te ra c c ió n 832 677 N ~ ( k + 1 ) = 139
E x p lic a d a p o r i n te r a c c ió n 34 519 k - 1=9 3 835.4
< 1 .0
E rro r 7 9 8 158 AT — 2 ¿ = 13Q 6 1 3 9 .7

Como q u iera que la cifra de 832 677 se obtuvo sirviéndonos de la


m ism a com binación d e cifras que en el caso de la b prom edio
d en tro de las clases, vemos que hem os supuesto esencialm ente
p en dientes iguales al calcular e sta su m a inexplicada d e cuadra­
dos. Vimos tam b ién que la ca n tid ad de 798 158 re p re se n ta la
can tid ad de variación d ejad a sin explicar p o r las ecuaciones se­
p arad as de m ínim os cuadrados. P o r lo tan to , la diferencia e n tre
estas dos can tid ad es re p resen ta la ca n tid a d de variación que pue­
de a trib u irse a la interacción.
P ara aso ciar grados de lib e rta d con cada u n a d e esas cantida­
des, contam os el nú m ero de coeficientes que se h an estim ado en
las ecuaciones de m ínim os cu ad rad o s respectivas. F ijándonos p ri­
m ero en el térm in o de erro r, o ca n tid ad d ejad a sin explicar p o r
las ecuaciones sep arad as de m ínim os cuadrados, observam os que
p a ra cada u n a de estas ecuaciones separadas hubim os d e calcular
dos coeficientes (a y b ). P or lo tan to , perderem os 2k grados de
lib ertad , re p resen ta n d o k el n ú m e ro d e categorías d e A. Así,
pues, los grados de lib ertad asociados a dicho térm in o serán
N — 2k. Sin em bargo, p a ra serv im o s d e las líneas de trazos, sólo
hubim os de calcu lar u n a sola pendiente, la b pro m ed io d en tro
de las clases. Como q uiera que, sin em bargo, cada u n a de dichas
líneas atraviesa u n grupo diferen te d e m edias de m u estra, tene­
m os valores d istin to s d e a p a ra cada u n a de esas líneas. H em os
perdido, p o r consiguiente, (fc-f 1) grados de lib ertad , y los gra­
dos de lib ertad asociados con este térm in o serán N — ( k + 1), o
sea N — k — 1. Podernos o b ten er luego los grados d e lib ertad
p a ra el térm in o de interacción sustrayendo, lo que nos d a :

(N -k-í)-(N -2k)= :k-í


o u n o m enos que el nú m ero de categorías. Calculam os ah o ra F
en la fo rm a usual y concluim os que, to d a vez que F 9,i3o < LO, no
tenem os interacción significativa.
Como q u iera que la interacción no resu ltó ser significativa,
estam os ju stificad o s en rep o n er la peq u eñ a can tid ad de in terac­
ción de la m u estra en el térm ino de erro r, sirviéndonos en ade­
lan te de la can tidad de 832 677 com o variación no explicada ni
p o r X ni p o r A, Y to d a vez que al p ro ced er así nos hallam os en
el extrem o indebido de la p ru e b a de interacción, hem os de com ­
p o rtarn o s con cierta cautela. Sin em bargo, con u n a N ta n gran­
de y u n valor tan pequeño de F, n o correm os ciertam en te riesgo
alguno al excluir e n este p ro b lem a p a rtic u la r la interacción.
Si ésta h u b iera sido significativa, n u estro próxim o paso h ab ría
consistido en averiguar el o los estados que discrepan de los de­
m ás. E sto se efectúa fácilm ente consultando la colum na de las b.
Si re su lta m anifiesto que algunos estados producen el efecto
de in teracción y si pueden sugerirse buenas razones teóricas del
p o rq u é esto sea así, entonces será acaso posible excluir dichos
estados y re p e tir la p ru e b a con el resto. P ero si no destaca en
esta fo rm a estado alguno, ta l vez será necesario seguir adelante
analizando cada estado separadam ente. E n ta l caso p o d rá n even­
tu alm en te ob tenerse valiosos datos teóricos preguntándose uno
m ism o p o r qué difiere la relación e n tre la discrim inación y el
p o rc en taje d e negros de u n estad o a otro.
Una estrateg ia de posible uso cuando se d an diferencias apre-
ciables e n tre los declives, consiste en o rd e n a r p o r rangos las
categorías (e n n u estro caso, estad o s) en relación con las m ag­
nitu d es de las pendientes, tra ta n d o a continuación de localizar
alguna variable específica que esté sum am ente correlacionada
con dicha ordenación. P or e je m p lo : tal vez cuando ordenam os
los estados de a b a jo hacia a rrib a en relación con lo inclinado
de los declives (aquí todos positivos), podrem os observar q u e los
estad o s con inclinaciones m ás pronunciadas tienden a ser los m ás
urbanizados o los m ás industrializados. Si ta l fu e ra el caso po­
d ríam os o b ten er u n a m edida Z de urbanización (o in d u strializa­
ción), reem plazando la escala nom inal "estad o ’’, con la Z, u tili­
zando a continuación alguna altern ativ a específica a un m odelo
aditivo, tal com o la función m ultiplicativa Y = kX^iZh. Tom ando
los logaritm os de am bos lados, esta función m ultiplicativa puede
ser tran sfo rm ad a en la ecuación aditiva log Y = log k + &i log
X + b2 log Z.
La correlación prom edio dentro de clase. H abiendo establecido
que n o se d a efecto de interacción significativo alguno estam os
ah o ra ju stificad os en a g ru p ar las r individuales d en tro de las cla­
ses p a ra o b ten er u n coeficiente de correlación prom edia en el
in te rio r de las clases, que será análogo al coeficiente d e correla­
ción parcial. E n o tro s térm in o s: to d a vez que estam os ju stifica­
dos en su p o n er u n a sola p endiente p a ra todas las ecuaciones de
regresión, podem os suponer asim ism o que los coeficientes de co­
rrelación de la población serán tam b ién iguales, y que el valor
com ún puede ap reciarse ju n ta n d o las r de la m u e stra p a ra las
varias clases. El coeficiente de correlación prom edio intraclase,
que podem os sim bolizar com o rXY.At se calcula del m ism o
m odo que la b prom edio intraclase, sirviéndonos d e los datos
relativos d e n tro d e las clases reg istrad o s en la h ilera in ferio r del
cu ad ro X X .l (v éanse las colum nas 17 y 18). El cu ad rad o d e dicho
coeficiente p u ed e in te rp re ta rse com o la proporción de variación
en Y que no es aplicada p o r A, p ero sí p o r X . A sí:

758 530
.47670 = (.690)2 = ■
1 591 207

Si nos fijam os en las fórm ulas em pleadas p a ra el cálculo d e cada


u no de estos nú m eros, verem os que la in terp re tació n se deduce
in m ed iatam en te a p a r tir de ellas. A títu lo d e control global de
n u estro s cálcúlos, la r prom edio in traclase h a b ría d e re su lta r
com parable en m agnitud con las diversas r in trac la se separadas.
Como q u iera que se tr a ta esencialm ente d e u n p ro m ed io ponde­
rado, los estad o s con el m ayor nú m ero de d istrito s ejercerán la
m ay o r influencia en la determ inación de su valor. Si alguna de
las b en la colum na (14) re su lta se r negativa, las r com parables
en la colum na (18) deb erán recib ir desde luego signos negativos.
Si quisiéram os te n e r u n a m edida análoga a la i? m últiple, po­
d ríam os to m a r la razón de la ca n tid a d d e variación explicada p o r
X y A ju n ta s a la sum a to tal de cuadrados. E n este problem a,
p o r ejem plo, hem os explicado 2 961 762 - 832 677 o 2 129 085. Por
lo tan to , hem os explicado 2129 085/2 961 762 o 71.9 p o r ciento
d e la variación. H em os d e reco rd a r, sin em bargo, que si quere­
m os fo rm a r u n a R m últiple to m an d o la raíz cu a d rad a de dicho
valor, el re su lta d o se rá en p a rte u n a función del nú m ero p ro ­
m edio d e casos d en tro d e las categorías de A (véase sección

Podem os efe c tu a r la p ru e b a de la significación d e en la


fo rm a h ab itu al. P rim ero dejam os q u e la variable de co n tro l A
explique to d o lo que puede. D ejam os luego a c tu a r X sobre la va­
riación no explicada, frag m en tan d o e sta ú ltim a can tid ad en dos
com ponentes. La p rim e ra de éstas será la porción explicada p o r
X , y la segunda será el térm ino de erro r, que no es explicado ni
p o r X ni p o r A (su poniendo que n o se d a interacción). Ya vimos
que los grados de lib ertad del térm in o de e rro r serán N — ( k + 1).
Los grados de lib e rta d asociados a la variación inexplicada por
A, que fig u ra en la h ilera al pie de la colum na 6, serán, p o r su­
puesto, N - k (véase sección X V I.l). E sto d eja u n g rad o de liber­
ta d asociado a la com ponente no explicada p o r A pero explicada
p o r X . Los resu ltad o s de e sta p ru e b a se h allan resum idos en el
cu ad ro XX.3. Vemos, en e sta form a, que la correlación prom edio
in traclase es significativa al nivel d e .001.

C uadro XX.3. Prueba de análisis de variancia para la significación


de la correlación prom edio intraclase ( q x t - a )

Suma de Grados„ de
. Estimación D
cuadrados “ « “■ J tf* . F
No explicada por A 1 591 207 N - k = 140
No explicada por A,
pero explicada por X 758 530 1 758 530
E rror (suponiendo au­ 126.6
sencia de interacción) 832 677 N —(fc + l) = 139 5990.5

Antes de te rm in a r esta porción del capítulo en la que hem os


estu d iad o la relación e n tre dos escalas de intervalo controlando
en relación con la escala nom inal, podem os establecer u n a com ­
p aració n con el tipo de co n tro l efectuado p o r la correlación p a r­
cial. Sin duda, el control p o r m edio del análisis d e covariancia
co m p o rta considerablem ente m ás tra b a jo que el em pleo de la
co rrelación parcial. Como se concibe fácilm ente, las extensiones
que co m porten variables adicionales em pezarán a re q u e rir tan to s
cálculos, que p o r lo re g u la r el análisis d e covariancia n o re su lta rá
practicab le. P o r o tra p a rte , el análisis de covariancia nos p ro ­
p o rcio n a m ás inform ación que la correlación parcial. E n efec­
to, podem os no sólo efectu ar u n a p ru e b a de interacción, sino que
p odem os investigar adem ás las relaciones e n tre X y Y d en tro de
cad a u n a de las categorías d e las variables d e control, co m p aran ­
do los diversos valores de r y b. Al serv im o s de las correlaciones
parciales, en cam bio, sólo obtenem os la única m edida com parable
a la co rrelación p ro m ed io d en tro de clase, y n o podem os efectu ar
la p ru e b a resp ecto d e la interacción.
Vemos, pues, que el análisis de covariancia p re sen ta cierto n ú ­
m ero de ven tajas resp ecto d e los análisis q u e em plean las co rre­
laciones parciales, sobre todo en aquellos estudios en los que se
p u ed a esp e ra r que se d a interacción. Así, pues, en algunos casos
v ald rá eventualm ente la p en a convertir u n a de las escalas de
in terv alo en escala nom inal y d e p ro c ed er con el análisis de co­
variancia, en lu g ar de ía correlación parcial, a u n a sabiendas
de que perdem os así inform ación con resp ecto al nivel d e m e­
dición.
XX.2. R elación de una escala de intervalo y una escala nom inal,
control de la escala d e intervalo
E n el análisis de u n a form a de variancia relacionam os u n a escala
d e in terv alo con u n a sola escala nom inal, p ro b a n d o el signifi­
cad o de las diferencias e n tre las m edias de las categorías de A.
Con o b jeto de d eterm in a r la m agnitud de la relación e n tre las dos
variables, calculam os u n coeficiente de correlación intraclase.
Obtuvim os asim ism o las m edias d e las diversas categorías que
podían u tilizarse con fines descriptivos p a ra in d icar las m arcas
relativas d e u n a categoría con las o tras. E n el análisis cruzado
d e variancia p u dim os c o n tro la r en relación con u n a escala nom i­
nal, averiguando la interacción. Sin em bargo, nos vim os fuerte*
m en te lim itados, ya que necesitábam os ten er el m ism o núm ero
de casos en cad a subcasiUa. E n e sta sección, en cam bio, verem os
situaciones e n las q u e deseam os relacio n ar Y y A, pero en las que
la v ariable d e co ntrol es u n a escala de intervalo X .
Supóngase q u e n u e stro in terés se endereza a n te to d o en descu­
b r ir la relación e n tre las cuotas d e discrim inación y las subregio­
nes del S ur, definidas p o r los diversos estados. Sin duda, los
estados n o co n stituyen las m ejo res clases d e unidades p a ra de­
lin ear subregiones, p ero nos sirven con to d o aquí con fines de
ilustración. E s obvio que u n a variab le com o la del p o rcen taje
de negros necesita se r controlada, ya que los diversos estados del
S u r difieren considerablem ente en cu an to a los po rcen tajes de
sus m in o rías respectivas. Supóngase q u e dividiéram os el porcen­
ta je de negros en categorías y procediéram os a efectu ar análisis
de v ariancia sep arados p a ra cada u n a d e ellas. O bsérvese que
p ro b ab lem en te n i siquiera in ten taríam o s el análisis cruzado de
variancia, debido a la necesidad de te n e r subclases iguales. Pero,
¿es que los análisis separados d e variancia resuelven realm ente
n u estro p ro b lem a? Al exam inar los d istrito s de p o rcen tajes bajos
de m inoría, en contraríam os inm ediatam ente que excluíam os
p rácticam en te to dos los d istrito s d e M ississippi y Alabama, inclu­
yendo en cam bio p rácticam ente todos los de K entucky y Ten-
nessee. P o r o tra p arte , h a b ría a lo sum o uno o dos d istrito s de
estos últim os estad o s con u n alto p o rc en taje de negros. Así,
pues, al tr a ta r de co n tro lar p o r este m étodo, descartam os casi
n u estro p roblem a, p o r cu an to sólo unos pocos estados estarán
rep resen tad o s en cada u n o de los análisis separados. Los efectos
de las subregiones o estados se co n fu n d irían así irrem isiblem ente
con el p o rc en taje de negros. E n efecto, no podem os m an ten er
literalm en te co n stan te u n a d e las variables, sin re d u cir al propio
tiem po la v ariab ilidad de la otra.
Si bien no podem os m an ten e r la variable de control efectiva­
m ente constante, podem os con todo, sirviéndonos del análisis de
covariancia, efectu ar algunos aju stes en relación con sus efectos.
C o n cretam en te: si estam os dispuestos a suponer que las regre­
siones de Y a X d en tro de cada u n a de las categorías de A tienen
u n a p en d ien te com ún que p u ed e ap reciarse p o r la b prom edio
in traclase, podem os a p reciar el cam bio p roducido en Y p o r u n
cam bio dad o de X . E n otros té rm in o s : podem os fo rm u lar algu­
nas predicciones acerca d e lo que o c u rriría con las tasas de dis­
crim inación en cada estad o si los p o rc en tajes de la m inoría fue­
ra n a cam biar. E n p a rtic u la r, podem os p reg u n tarn o s a nosotros
m ism os, ¿qué o c u rriría con estas tasas si los po rcen tajes d istin ­
to s de negros fu eran a igualarse? E sta clase de proceso sólo p ro ­
p o rcio n a re su ltad o s hipotéticos, y esto h a de ten erse claram ente
p resen te. E n efecto, n o tra ta m o s de o b ten er tasas de discrim ina­
ción d e los distintos estados m anteniendo realm ente co n stan te
el p o rc en taje de negros, sino que sólo podem os p red ecir lo que
o c u rriría si esto fu e ra efectivam ente así y si las relaciones e n tre
X y Y fu e ran efectivam ente tales com o se supone que son. Se con­
cibe p erfectam en te que, si los negros fu e ran a re d istrib u irse a
sí m ism os en fo rm a m ás uniform e e n tre los estados del S ur, las
relaciones p a rtic u la re s halladas e n tre X y Y y a n o se verificarían.
N o obstan te, u n procedim iento de aju stes de e sta clase puede
co n d u cir a m enudo a com probaciones útiles.
Si pued e p re su m irse que no se d a efecto alguno de interacción,
ya vim os que la m e jo r m an era de ap re c ia r las pendientes com u­
nes d e las ecuaciones de regresión d e n tro d e las clases es p o r
m edio de la b p ro m ed io in trac la se calculada en el c u a d ro X X .l.
Podem os d esc rib ir ah o ra el procedim iento q u e vam os a utilizar.
Nos g u staría a ju s ta r cada u n a de las m edias Y.¡ de las clases de
tal m an era q u e se tu v iera en cuenta el hecho de que las m edias
en X difieren asim ism o de u n estado a otro. Con fines de com o­
d id ad su p o n d rem os que to d as las X.¡ están aju stad a s resp ecto de
la g ran m ed ia de las X. Eso co m porta el desplazar la m edia de X
p a ra cad a clase en u n a distan cia de (X. . — X.¡). La figura XX.5
ind ica esta diferencia com o el largo de la b ase del triángulo. P ero
sabem os que p a ra o b ten er la ca n tid ad de cam bio en Y p a ra u n
cam bio d ad o d e X hem os d e m u ltip licar el cam bio de X p o r la b
pro m ed io in traclase. P o r consiguiente, Y.¡ cam bia en la can tid ad
de b ,J X .. — X.j), en donde nos servim os del sím bolo bw p a ra re ­
p re se n ta r la p en d ien te pro m ed io intraclase. El valor aju stad o
de las m edias de Y puede en co n trarse ah o ra añadiendo dicho in ­
crem en to a la m edia original de Y.
Así, pues, dejando q u e Y ’.¡ re p resen te el v alor aju stad o , tene­
m o s:
Y'.j = Y . j + b w( X . . - X . j )

= Y. f - b w( X. J - X . . ) (XX .3)
La segunda de e sta s form as, que sólo com porta la inversión del
ord en de las X .. y X.¡ y el cam bio co rresp o n d ien te d e signos, es la
fo rm a que se h a em pleado p a ra el cálculo de la Y a ju sta d a en
el cu ad ro X X .l. O bsérvese que, en este ejem plo concreto, la pen­
diente es positiva, siéndolo tam b ién el cam bio de X.¡ a X.., tal
com o lo m u e stra la figura XX.5. Los m ism os re su ltad o s alge-

Fig. XX.5. In terp reta ció n geom étrica de los cálculos de las
m edias Y ajustadas.

braicos se verifican exactam ente e n el caso de se r la pendiente


negativa, o cuando el valor de X decrece. A estas a ltu ra s debe­
ríam o s e s ta r ya en condiciones d e convencernos p o r cu e n ta p ro ­
p ia de que esto es efectivam ente así.
La fig u ra XX.6 ay udará a e n ten d e r lo que hem os hecho al ajus­
ta r los valores m edios de Y . E n efecto, hem os desplazado cada
u n a de las m ed ias de las clases, paralelam en te a la pen d ien te de
la b p rom edio intraclase, a u n a posición en la que to d as las X son
iguales, a la g ran m edia de las X . Las Y aju stad a s p u ed en h allar­
se a lo largo de la línea d e trazos, co rresp o n d ien te a la gran
m edia de las X . Las m agnitudes relativas de las m edias en Y
p ueden re s u lta r considerablem ente alteradas. E n la fig u ra XX.6,
los valores no aju stad o s de Y son tales que la m edia de queda
ligeram ente d eb ajo d e A¡, la cual, a su vez, es su stancialm ente
m en o r que ;43. Obsérvese, con todo, que A í tien e u n v alo r X m uy
pequeño. T oda vez que la pen d ien te se h a re p resen ta d o com o
positiva, el a ju ste resp ecto d e X tien e p o r efecto a u m e n ta r el
v alo r de Y en el caso de At . P o r o tra p a rte , el proceso de aju ste
red u ce los valores de Y tan to p a ra A2 com o p a ra A3, ya que estas
dos categorías tien en valores de X re la tiv a m e n te grandes. Como
re su ltad o de ello, la Y a ju sta d a p a ra A x es efectiv am en te m ayor
que la a ju sta d a p a ra A2, y el valor de A 3 es m u ch o m ás vecino
del d e A x.
Si volvem os al c u a d ro X X .l, colum nas 22 y 23, observarem os
el efecto del aju ste del p o rc en taje de negros so b re las tasas de

Fig. XX.6. In terp retación geom étrica de las m edias ajustadas de


Y m ed ia n te deslizam iento de las m edias de categorías paralela­
m e n te a la recta d e pen d ien tes b w.

discrim inación. F lorida, e n efecto, q u e tien e u n p o rc e n ta je re la­


tiv am en te b a jo de negros, destaca ah o ra con ta sa s aju sta d a s m uy
altas, en ta n to q u e estad o s com o los de M ississippi y Tennessee
co n cu erd an ah o ra m ás con los estados re sta n te s. O bsérvese tam ­
bién que las diferencias to tales e n tre estados se h an red u cid o
considerablem ente.
Ya se m encionó en este m ism o capítulo que el análisis de
covariancia re su lta rá ú til si los d iagram as de dispersión revelan
que las diversas m edias de las clases en X son m uy d iferentes en
valor. E sto pued e ap reciarse en la fig u ra XX.6. Si las m edias
de las clases h u b iera n estad o agrupadas den sam en te en X alre­
d ed o r de la g ran m edia, las bases, y p o r consiguiente, tam b ién
los lados d e los triángulos h ab ría n sido m uy cortos. E n o tro s
té rm in o s : el hecho de a ju s ta r resp ecto de X n o p ro d u c iría un
efecto m u y p ro nunciado, y a que, en realidad , el a ju ste efecti­
vam ente re q u erid o era m uy pequeño. Y si to d as las m edias de
las clases h u b ieran sido exactam ente iguales en X , h ab ríam o s te­
nido efectivam ente u n co n tro l en relación con X . Sólo cuando
las m edias de las clases en X son m uy diferentes podem os espe­
r a r que el a ju s te produzca u n efecto notable. E xpresado en o tra
fo rm a : h a de h a b e r u n a relación relativ am en te fu e rte e n tre X
y A, las dos variables independientes.
P ara que el a ju s te valga la p en a se req u iere adem ás o tra cosa.
E n efecto, si la b prom edio in trac la se h u b iera sido m uy pequeña
nu m éricam en te, se h a b ría re q u erid o u n cam bio m uy gran d e en
X p a ra p ro d u c ir u n ligero cam bio en Y . Así, pues, si e n tre X y Y
d e n tro de las clases de A sólo se d a u n a relación p eq u eñ a o nula,
no te n d rá o b jeto alguno a ju s ta r en relación con X . E stas obser­
vaciones concuerdan, p o r supuesto, con el sentido com ún, el cual
nos dice que no se obtiene g ra n v e n ta ja co n trolando resp ecto de
tin a variab le que n o esté relacio n ad a con las dos variables que
n o s in teresan . Sin duda, si X sólo se relaciona con la variable
d ep endiente, se la puede co n tro la r com o influencia p e rtu rb a d o ra .
Sin em bargo, podem os v er en la fig u ra XX.6 que, a m enos que
se den algunas variaciones con re sp ecto a X e n tre las categorías
d e A, el a ju s te n o te n d rá g ra n objeto.
P ara servirnos d e la b p ro m ed io in traclase hubim os de supo-
n e r q ue no se d ab a efecto alguno de interacción. P o r lo tanto,
será necesario llevar a cabo la p ru e b a de la in teracció n así com o
los cálculos de b antes de seguir ad elan te con el p roceso de aju s­
te. Si la in teracció n re s u lta significativa, el p ro b lem a es m ás
com plicado y q u ed a fu e ra del o b jeto del p re sen te texto. E n de­
term in ad as circunstancias será acaso posible a ju s ta r sirviéndose
d e las p en d ien tes individuales d en tro de las clases. S in em bargo,
la in terp re tació n h a de efectu arse con prudencia. Supóngase, p o r
ejem plo, que la p en d ien te de M ississippi re su ltab a se r totalm ente
d istin ta de la de Tennessee. ¿P odríam os en ta l caso servirnos
leg ítim am ente de sus líneas individuales d e m ínim os cuadrados
p a ra a ju s ta r los valores de Y? E sto re q u eriría su p o n er que Mis­
sissippi m an tien e esencialm ente los m ism os tipos d e discrim ina­
ción a m ed id a que va p erd ien d o negros. Sin em bargo, el hecho
d e que o tro s estados m u estren relaciones d istin tas con el p o r­
cen taje d e negros sugiere que el su p u esto puede n o se r legítim o.
E l hecho de que se haya d em o strad o que existe in teracción de­
berá. h acern o s m uy cautos en cu a n to a c o n je tu ra r lo q u e o cu rri­
ría realm en te si cam biaran las X . P o r o tra p arte, si encontram os
esencialm ente la m ism a relación en cad a u n o d e los estados
e n tre el p o rc e n ta je de negros y la discrim inación, o sea ausencia
d e in teracció n , estam os m ás confiados en el sen tid o d e que el
a ju ste n o nos ex trav iará dem asiado.
H em os d e p la n te a r a h o ra la cu estió n relativ a a la significación
d e las d iferencias e n tre las m edias aju stad a s de Y . Las diferen­
cias e n tre las m edias no a ju sta d a s p o d rá n o n o h a b e r sido sig­
nificativas, p e ro esto no im plica, con todo, que el m ism o resul­
ta d o se verifiq u e en relación con los valores aju stad o s. Tal vez, en
efecto, el h ech o de a ju s ta r re sp ecto d e X p u ed a h a b e r tenido
com o consecuencia el ju n ta r m ás los valores de Y. O ta l vez estén
ah o ra m ás separados. H em os efectuado u n a ta re a descriptiva,
la de o b ten er efectivam ente las figuras aju stad as, de m odo que
p u ed an desplegarse con fines de com paración. Y hem os de veri­
fica r ah o ra la hipótesis n u la de que, en la población, las m edias
aju stad a s de Y son todas las m ism as. Los supuestos en relación

C uad ro X X .4 . Prueba de análisis de variancia para la significación


de las diferencias entre m edias ajustadas

Estimación
Suma de Grados de de la F
cuadrados libertad variancia

In e x p lic a d a p o r X 1446866 AT— 2 = 148


I n e x p lic a d a p o r X,
p e ro e x p lic a d a p o r A 614189 k - 1= 9 68243
E r r o r (s u p o n ie n d o a u ­ 11.39
s e n c ia d e in te ra c c ió n ) 832 67 7 N - ( * + ! > = 139 5 9 9 0 .5

con e s ta p ru e b a son los usuales. H em os d e suponer, en efecto,


m u estras aleatorias independientes, n o rm alidad y variancias igua­
les de las Y aju stad as, y hem os de estab lecer asim ism o los su­
puesto s req u erid os p o r el análisis de regresión, es decir, u n a
d istrib u ció n n o rm al bivariable de X y Y d en tro de cada categoría
de A.
A fortunadam ente, n o hem os de volver a calcular las sum as de
cu ad rad o s sirviéndonos de los propios valores ajustados. En
efecto, podem os llevar a cabo u n a p ru e b a de análisis de varian­
cia em pleando el procedim iento fam iliar de d e ja r que la variable
d e co n tro l explique p rim ero todo lo que p u ed e de la variación.
Toda vez que n u e stra variable d e control es ah o ra X , tom am os
com o nueva sum a to tal de cuadrados la cantidad de variación no
explicada p o r aquélla. F ragm entam os luego esta can tid ad en la
p orción explicada p o r A y la porción que no h a sido explicada
p o r las dos variables. Los grados de lib ertad asociados a cada
u n a d e esas cantidades ya se h an determ inado. Los resultados
d e la p ru e b a de F están resum idos en el cu ad ro XX.4. Vemos, en
esta form a, que las diferencias aju stad as, si bien m enores que
las originales, son significativas al nivel d e .001. Concluimos,
pues, que si bien el hecho de a ju s ta r en relación con el porcen­
ta je d e negros red u ce las diferencias d e las tasas de discrim ina­
ción en tre los estados, estas diferencias no desaparecen con todo
p o r com pleto en el proceso.
P o r fin, podem os eventualm ente q u e re r calcular u n a co rrela­
ción p arcial de in trac la se e n tre Y y A, contro lan d o en relación
con X . E sto pu ede ser recom endable, con objeto de o b ten er u n a
m e jo r indicación del grado de relación e n tre las dos variables de
la que pued en in d icar las diferencias e n tre las m edias ajustadas.
Fijándonos sim plem ente en estas diferencias aju stad a s n o pode­
m os o b ten er u n a idea m uy b u en a de sus m agnitudes relativas a
las diferencias d en tro de las categorías, y p o r ello u n a correlación
parcial de in trac la se puede re su lta r útil. G eneralizando la no­
ción de la correlación in traclase podem os esc rib ir:
v„-ve
r iY A - X '■
Vt + ( ñ ~ l ) V e

en donde V b — estim ación e n tre clase (n o explicada p o r X ; expli­


c ad a p o r A)
Fe — estim ación del e r ro r (inexplicada p o r X y A)
n = nú m ero prom edio de casos p o r clase, calculado
conform e a la ecuación (XV I .2).
Aquí nos in tere sa la estim ación e n tre clase de la variancia de
las Y ajustadas. N u e stra estim ación del e rro r tien e en cu en ta que
X h a explicado y a todo lo que podía de la variación en Y .
N um éricam ente obtenem os, p u es:
j;
2 N t2
ñ = --1 _lI *
2 N
i=i
---------
k - i i « = i *
2 Ni
i= 1
1 / 2 858 \
= — | 150----------- 1
9 V 150 )
1
= — (150 - 19.05) = 14.55
9
68 2 4 3 - 5 990.5
r iY A - X —
68 243 + 13.55(5 990.5)
62 252.5
.417
149414

XX.3. E xten sio nes del análisis de covariancia


La adición de u n a segunda escala nom inal com plicará el análisis
de covariancia, debido al re q u isito de subclases iguales. Desde el
p u n to de v ista práctico, esto significa de hecho que este tipo de
extensión n o re su lta rá practicable, excepto en estudios que com ­
p o rten esquem as de experim ento en los que el control del n ú ­
m ero d e casos sea posible. Sin em bargo, si añadim os u n a o m ás
escalas de intervalo, la extensión es sencilla en principio, pese a
que in tro d u cirá u n nú m ero considerable de cálculos adicionales.
H abrem os de a ñ a d ir nuevas colum nas a la tab la de cálculo. En
p artic u la r, h a b rá u n a colum na que indique la can tid ad de varia­
ción d ejad a sin explicar p o r las dos escalas de intervalo ( X y Z)
actu an d o sim ultáneam ente. Nos vem os envueltos, en esta form a,
en ecuaciones de m ínim os cuadrados m últiples p a ra cada u n a de
las categorías de A. P ara ob ten er m edias aju stad as de Y, p o r
ejem plo, habrem os de a ju s ta r en relación con X y Z sirviéndonos
de las dos b prom edios parciales den tro de las clases. E n lu­
g ar de d esplazar ah o ra las m edias de las categorías p aralelam en­
te a u n a línea de m ínim os cuadrados, habrem os de deslizarías
p aralelam en te a u n plano m edio in te rio r a las clases. P ara verifi­
ca r la significación de las Y aju stad as, dejarem os p rim ero que
X y Z expliquen de Y to d o lo que puedan, perm itiendo a conti­
nuación a A ac tu a r sobre el rem anente.
Como q u iera que no hem os agotado ni con m ucho el tem a re ­
lativo al análisis de covariancia, el lecto r po d rá, si lo desea, con­
su lta r las referencias que se relacionan m ás abajo acerca de o tras
aplicaciones y extensiones del m étodo general aquí expuesto. En
p artic u la r, cuando el núm ero de las categorías de A es m uy gran­
de, a veces re su lta m uy ú til investigar la regresión de las m e ­
dias de categorías de Y en las m edias de X , considerando así de
hecho cada categoría com o u n caso. Así, p o r ejem plo, en el p ro ­
blem a que hem os considerado, podríam os desear estu d iar la re ­
lación en tre X y Y sirviéndonos com o unidades de los estados,
en lu g ar de los distritos, y tra ta n d o las X y las Y de cada esta­
do com o m arcas p artic u la res. E n la m ayoría de los problem as
que in teresan a los sociólogos, sin em bargo, el núm ero de cate­
gorías de A será dem asiado reducido p a ra ju stific ar sem ejante
análisis, siendo ésta la razón de que el tem a no se exam ine en el
p resen te capítulo.

XX.4. Análisis de la variable sim ulada


T anto en el análisis de variancia com o en el de la covariancia
n u e stra atención estab a ce n trad a en el proceso de dividir en va­
rios com ponentes las sum as de cuadrados y las sum as de p ro ­
ductos, en ta n to que en el análisis de regresión lo estab a m ás
bien en calcular los coeficientes de u n a ecuación. R esultará ú til
re u n ir ah o ra am bas ideas, dem ostrando la fo rm a en que una
com binación de las escalas de intervalo y nom inales puede ser
tam bién m an ejad a b ajo el fo rm ato de la regresión. R ecuérdese
que en análisis p o r dos m étodos de la variancia se indicó que es
posible u tilizar u n m odelo aditivo de la form a
Yij* — + a» + fij + y íj + £ijk

en tan to que en la regresión m últiple utilizam os ecuaciones de


la fo rm a siguiente

Y i = a + pxXx + ¡}2X2 + . . . + Pfc-Xj; + Ej

A parte las diferencias en notación, q u e no deben preocupam os,


observam os dos diferencias obvias en estas ecuaciones: 1) En
el m odelo sim plificado de regresión n o tenem os en cu e n ta la in­
teracción, y 2) E l m odelo aditivo, en el caso del análisis d e varian­
cia, n o contiene ninguna X que re p resen te escalas d e intervalo.
O bservam os em p ero que el m odelo de regresión n o p lan tea res­
tricción alguna a las X en cu an to a su distrib u ció n d e frecuencia,
aunque cabe su p o n er que aquéllas se en cu en tren distribuidas
norm alm ente. E n p articu lar, algunas X , o todas ellas, podrían
re cib ir m arcas d e 1 o 0, y vam os a v er cóm o el hacerlo nos p er­
m itiría m an eja r las escalas nom inales com o casos especiales. He­
m os observado, asim ism o, que algunas de las X pueden ser pro­
ducto de o tra s X (podem os, p o r ejem plo, h acer X 3 = X 1X 3), y
m ediante este dispositivo podrem os m a n e ja r factores d e in terac­
ción en el co n tex to d e la regresión. El análisis d e variancia pue­
de así ser co nsiderado com o u n caso especial del análisis de
regresión y viceversa, resum iendo los dos b ajo u n solo m odelo
m atem ático general.
P ara que la explicación no se haga dem asiado ab stra cta, supon­
gam os que estam os tra ta n d o con u n a variable dependiente de es­
cala de in terv alo Y ; dos variables independientes de escala de
intervalo, X ± y X 2, y u n a sola escala nom inal com puesta p o r cua­
tro categorías. Supongam os que Y re p resen ta el ingreso, a la
edad de 35 añ o s; X t sus años de estu d io ; X 2 la p u n tuación rela­
tiva a su sta tu s ocupacional, y Z{ u n a variable (q u e m ás abajo
describim os) q u e re p resen ta la región en la que ra d ic a el sujeto.
Si hay cu a tro regiones (N ordeste, Sur, Medio O este y Oeste),
podem os u tiliza r tres Z{, com o sigue:

Z1= 1, si el su jeto reside en el N ordeste


= 0 e n o tro caso
Z2 = 1, si el su jeto resid e en el S ur
= 0, en o tro caso
y Z3 = 1, si el su jeto resid e en el M edio Oeste
= 0, en o tro caso

La "variable” Z4 se denom ina variable sim ulada, ya que las


m arcas d e 1 y 0 son asignadas arb itra riam en te. Podríam os en
realid ad h ab e r utilizado u n grupo d istin to d e m arcas, p e ro el em­
pleo de 1 y 0 m an ten d rá el análisis d en tro de la m ayor sencillez.
O bsérvese q ue no hay necesidad de u sa r u n a Z4 que tom e el valor
de 1 en el caso de ser O este o el de 0 en o tro caso, ya que, si
conocem os los valores de Z-,, Z2 y Z3, sabrem os con certeza el de
Z4. E n p artic u la r, todos los sujetos del O este recib irán m arcas
de 0 en las tres Z. E n ta n to nos ocupem os de u n a sola escala
nom inal, y en tan to, asim ism o, no introduzcam os u n a co nstante a
en la ecuación, será posible in clu ir en ésta la Z4. Si p o r el
co n trario , retenem os a, o si tenem os m ás d e u n a escala nom inal,
e in ten tam o s re te n e r Z p a ra to d as las categorías, verem os que
los procedim ientos de m ínim os cuadrados se v en d rán abajo, de­
b ido al hech o de que, en este ejem plo, Z 4 es u n a función lineal
p erfec ta de Z lf Z3 y Zg. Podem os de hecho v er que Z4 = 1 —
(Z j + Zo + Zg). E n la p ráctica, si tom am os la co stu m b re de "su­
p rim ir" siem p re u n a categoría de cada escala nom inal, estarem os
listo s p a ra ap licar m ínim os cuadrados b a jo los supuestos h a b i­
tuales. R esu ltará que la categoría su p rim id a (en este caso el
O este) fo rm a rá u n a base de com paración con las categorías res­
tantes.
Podem os ah o ra in te g ra r u n a ecuación estim ativa com o sigue:

Y ~ a + b xX x + b.^X<
>+ c tZ¡ -f- c2Z2 + C3Z3

In terp retem o s esta ecuación antes de in tro d u c ir o tro m odelo


m ás com plejo, en el que se tenga en cu en ta la interacción. Su­
pongam os q ue estam os ocupándonos de u n sujeto del Oeste, p a ra
el cual Z x — Z2 — Z s — 0. E n este caso la ecuación se red u ce a

Y = a. *4“ byX\ -t- b2X 2

Si com param os ah o ra e s te individuo con o tro del N ordeste,


p a ra el cual Z x — 1, y Z2 = Z3 = 0, verem os que p a ra este segundo
su jeto la ecuación co n ten d rá u n térm in o adicional c1Z 1 — c t ( 1) =
cx, p u d ien d o co n sid erar que h a sido agregado a a. Así, p a ra el
su jeto del N o rd este tenem os

Y = (a + cx) + b] X1 + b2X 2

y vem os q ue c : puede se r in te rp re ta d o com o la diferencia e n tre


los p u n to s de co rte e n tre las dos regiones. De fo rm a análoga, c2
puede se r in te rp re ta d o com o la d iferencia e n tre los p u n to s de
co rte e n tre los individuos del S u r p o r com paración con los del
Oeste. E n este sentido*, la categoría su p rim id a re p resen ta u n
g rupo d e com paración p a r a las tre s categorías re sta n te s. E n té r­
m inos causales puede in te rp re ta rse la cx com o los increm entos
o d ecrem entos en los ingresos en que se in c u rriría si todos los
individuos h u b iesen d e e m ig ra r del Oeste a las dem ás regiones.
Considerem os a continuación el caso en que deseam os te n e r en
cu en ta las in teracciones e n tre las regiones y X x o X s. P a ra m ayor
clarid ad lim itarem o s n u e stra aten ció n a X lt elim inando X 2 de la
ecuación. E n el caso del análisis de covariancia vim os que la in­
teracción ap a rec ía com o una d iferencia en tre los declives de cate­
goría d en tro . E sto puede m an ejarse en función de la form u­
lación de la v ariab le sim ulada m ed ian te la in troducción de
factores d e la fo rm a dyXjZy. E n el caso de u n a v ariab le indepen­
diente X lt y tres Z.¡, n u e stra ecuación s e r á :

Y ~ a -f- b^X i -f- CiZx + C2Z 2 'í (■';:?:! ~b d^iX^Z^ -j- cl\ -f- d ^ X

E n el caso d e u n su jeto del Oeste, p a ra el cual = Z2 = Z3 = 0,


la ecuación se red u ce a Y = a + b xX ^ P a ra el individuo del N or­
deste, en cam bio, la ecuación se rá :

Y — O- + b íX 1+ c-¡Zi + d n X i Z i = (a + Cj) + (61 + d n ) X ^


y a que Z x — 1 p a r a todas las p erso n as de aquella región. Si com ­
param o s las ecuaciones de los individuos del N ordeste con nues­
tra ecuación "están d ar", co rresp o n d ien te a los del Oeste, no sólo
ten d rem o s u n a d iferencia de c o rte clt sino tam b ién u n a d iferen­
cia en declives. E sto p erm ite in te rp re ta r d u com o el increm ento
(o d ecrem en to ) que agregam os al declive d e la relación e n tre X¡
y Y cuando los individuos se desplazan del O este al N ordeste.
P ueden d arse in terp retacio n es análogas a d 12 y d 13, y si estos
coeficientes se sep aran de cero en fo rm a significativa, deducire­
m os que h ay p re se n te u n a in teracció n en la población. P or o tra
p a rte , u n exam en de las m agnitudes de la d i} p u ed e re s u lta r ú til
p a ra co m p re n d er dicha interacción.
Acabam os de co n sid erar el caso en que sólo hay u n intervalo
y u n a v ariab le nom inal independiente, y los re su ltad o s de este
análisis serán idénticos a los obtenidos al ap licar el análisis de
la covariancia. Los procedim ientos d e cálculo son m uy sencillos,
siem pre que se disponga de p ro g ram as d e com putación capaces
de m a n e ja r p ro b lem as de regresión m últiple. B asta u tiliza r las
m arcas de las variables de escalas d e intervalo, tal com o apare­
cen, co n v irtien do sus escalas nom inales e n variables sim uladas Z it
analizando éstas a continuación e n fo rm a id én tica a lo que se h a­
b ría hecho en el caso de la reg resió n m últiple. Cada uno de los
coeficientes b it c¡ y d if pu ed e ser investigado p a ra d eterm in a r ía
significancia. P ueden obtenerse correlaciones m últiples y parcia­
les, y así sucesivam ente. Si, p o r ejem plo, se desea m e d ir el p o d er
explicativo d e la región, con u n co n tro l p a ra to d as las X¡, se co­
m enzará p o r co m p ro b ar si es posible p re scin d ir de las interaccio­
nes. Si ello es posible, puede calcularse u n a p arcial m ú ltip le que
relacione Y con todas las Z¡ tom adas en conjunto, con u n control
p a ra to d as las X t .
Si se desean u tilizar dos o m ás escalas nom inales, pueden se­
guirse dos estrateg ias alternativas, am bas sencillas. Una posibi­
lidad consiste en com binar las dos escalas en u n a sim ple escala
nom inal, procediendo a continuación com o antes se indica. Si
se desea, p o r ejem plo, e stu d ia r las interacciones de raza y sexo
con la educación X lt p a ra m ed ir en qué fo rm a re su lta afectado
el in greso Y , p u ed en u tilizarse las cu a tro com binaciones negro-
varón (Z j), negra-hem bra (Z2), blanca-hem bra (Z3) y blanco-va­
ró n (su p rim id a), com parando así las tre s com binaciones raza-
sexo re sta n te s con el g rupo blanco-varón com o grupo están d ar. La
segunda altern ativ a consiste en u tiliza r dos variables sim uladas
d istin tas, u n a p a ra el sexo y o tra p a ra la raza. Si hacem os Zx = 1
p a ra todos los negros, y Wx = 1 p a ra todas las hem bras, podrem os
in tro d u c ir explícitam ente interacciones de p rim e r orden en tre X 1
y raza, con sólo agregar u n fa c to r que ab arq u e el pro d u cto X xZ lt
p udiendo, de m an era análoga, u tilizar el fa c to r X 1W 1 p a ra averi­
g u ar la in teracción ingreso-sexo. P odríam os tam bién m an eja r
u n a in teracció n raza-sexo utilizando el p ro d u c to W iZ1( que sería
igual a la u n id ad sólo en el caso de las h em b ra s negras. Pode­
m os adem ás m an eja r las interacciones, d e m ás elevado orden,
raza-sexo-ingreso, m ed ian te u n facto r igual al p ro d u cto X^W^Z^.
Si se cu en ta con dos escalas nom inales con categorías r y e ,
respectivam ente, h a b rá ( r — 1) y ( c — 1) categorías no suprim i­
das, y necesitarem os ( r — l ) ( c — 1) térm inos p a ra m e jo ra r todas
las in teracciones de los dos factores. Podem os, pues, ex p resar Y
com o u n a función de los efectos principales de la variable de
fila, de los efectos principales de u n a variable de colum na y
de u n a serie d e facto res d e interacción. Podem os así tr a ta r el
análisis p o r dos m étodos de la variancia, com o u n caso especial
del análisis m ediante variab le sim ulada, y no necesitarem os su­
p o n er igual n ú m ero de casos en todas las subeasillas, ya que
estam os acep tan do las in terco rrelacio n es e n tre las variables in­
dependientes. Como o cu rría en el caso del análisis de regresión,
h ab rem o s de p ag ar el precio de u n a am bigüedad teórica, resu l­
ta n te de la superposición en la variación, la que será "explicada”
p o r las dos variables independientes correlacionadas. Como e je r­
cicio, puede re s u lta r ú til im aginar de nuevo los problem as discu­
tidos en el cap ítulo del análisis de la variancia, d en tro de este
nuevo concepto de las variables sim uladas.

XX.5. O bservaciones finales


H em os cu b ierto cierto n ú m ero de aproxim aciones estadísticas al
análisis m u ltivariado, au n q u e algunos tem as m ás especializados
se han quedado sin tra ta r. El problem a que ta l vez es el fumín
m ental del análisis m ultivariado, consecuencia de la falta dp h-n
rías bien específicas que dicten de m an era p recisa los pn*n>¡ n
seguir, es el de e n c o n tra r m étodos relativam ente sistem áticos
p a ra h ac er fre n te a diversos tipos d e com plicaciones. La tare a
básica consiste en elim in ar tan ta s d e dichas com plicaciones com o
sea posible, p ero sólo u n a vez que nosotros m ism os hayam os
d escubierto su existencia y valorado su im portancia. La e stra te ­
gia general co nsiste en d isponer u n g rupo de p rio rid ad es orde­
n ad as en principio, tra ta n d o a continuación d e elim in a r en p ri­
m e r lug ar aquellas com plicaciones potenciales en las que estem os
m enos interesados, avanzando a continuación hacia u n análisis
m ás intensivo, que incluya aquellas q u e ocupan el ce n tro del
p ropio in terés teó rico y que en fo rm a em pírica re su lten las m ás
im portantes.
Hay varios tipos de com plejidades q u e h an sido m encionados
sólo de paso. E n tre ellos la posibilidad realista de en c o n trar
varios tipos de e rro r tan to en las m ediciones aleatorias com o en
las no aleatorias. Como hem os visto, los p rim ero s h a n recibido
cierto grado de atención en la b ibliografía estadística, en ta n to los
últim os h an perm an ecido v irtu alm en te ignorados h a sta hace muy
poco tiem po. Se e n c u en tra u n segundo tip o d e com plejidad en
la investigación no experim ental realista, en la que es necesario
te n e r p resen te u n a causación recíproca. H em os su p u esto que la
elección de v ariab le dependiente n o es problem ática, y que n o hay
efecto de retro alim entación de las variables dependientes a las
independientes. A unque hem os acep tad o la posibilidad de varia­
bles independientes intercorrelacionadas, no hem os exam inado
m odelos que tra te n de te n e r en cu en ta estas intercorrelaciones,
tom ando algunas d e las variables "in dependientes" com o función
d e las otras. E sto s tem as serán tra ta d o s en u n volum en poste­
rio r, h abiendo sido estu d iad o en gran d etalle p o r los econom etris-
tas en conexión con m odelos de ecuaciones sim ultáneas. (V éanse
especialm ente, C hrist [2 ], y Jo h n sto n [6 ]).
_Un tip o de com plicación, que h a sido estudiado, ab a rca la adi­
ción a u n a ecuación d e variables explicativas, las que, com o aca­
bam os de h ac er n o tar, pueden e sta r intercorrelacionadas. Se ha
observado que siem p re que dichas intercorrelaciones sean altas
en relación con las correlaciones con la o las variables dependien­
tes, re su lta rá especialm ente difícil se p a ra r sus efectos com po­
nentes. P or ello, u n a fo rm a a que deben a ju starse siem pre las sim ­
plificaciones, es la d e re d u cir h a sta u n nú m ero razonable las
variables explicativas. E sto se logra m ed ian te cierto n ú m ero de
artificios. Uno de éstos consiste en se p a ra r las variables en “blo­
ques", tra ta n d o solam ente éstos com o diferenciados. O bien, pue­
de co n stru irse u n a sola m arca p a ra la to talid a d del bloque (p o r
ejem plo, sta tu s socioeconóm ico), o p u ed en u sarse m edidas tales
com o el coeficiente de correlación m ú ltip le parcial, p a ra d eterm i­
n a r los efectos del bloque en su conjunto. Ju n to a estas operacio­
nes, p uram en te estadísticas, debe in clu irse u n a cuidadosa concep­
ción teórica, relativa a la n atu raleza del p a rtic u la r bloque de
variables q ue hem os form ado. A ta l fin pueden se r usadas las
técnicas del análisis de facto r m últiple, análisis de grupo, análi­
sis de e stru c tu ra latente, análisis de clasificación m últiple y co­
rrelación canónica.
Suele d arse el caso de que u n investigador sea capaz d e re u n ir
sus variables independientes en varios grupos, de acuerdo con sus
intereses teóricos. F igurarán en p rim e r lu g ar aquellas variables
en las q ue se ce n tra su in terés principal. A continuación un gru­
p o de las variab les independientes que se pro ponga u s a r com o
variables d e control. É stas son las variables q u e esp era h an de
ten er m ayor efecto sobre las variables de su in terés prim ordial,
p ero que en té rm inos de su p ro p io esquem a investigativo serán
consideradas com o "variables perju d iciales”. N o pueden ser igno­
rad as, p ero en teo ría ten d rá n poco interés. H a b rá p o r fin un
g rupo de variables, grupo tal vez m uy grande, que se considere
que tien en relativam ente m en o r im portancia, o que h an sido suge­
rid as com o variables con las que hay que c o n tar en caso de que
se observe que las re sta n te s tienen escaso valor explicativo. E n
los estudios exploratorios es razonable in clu ir e sta s variables, ya
que las orientaciones teóricas son p o r lo general m uy vagas. La
estrateg ia b ásica del análisis, en el caso de este te rc e r grupo
de variables, consiste en com enzar p o r v er cuántas de ellas pue­
den ser elim inadas desde luego. Las que n o estén en este caso
p o d rán se r tran sferid as al segundo grupo. Lo im p o rtan te es que,
al tr a ta r d e re d u cir la am p litu d del análisis, d eb erá tra b a ja rse
de afu era h ac ia adentro, p o r así decir. T rátese p rim ero de
elim inar las com plicaciones. E n este caso, tal in ten to consiste
en lib rarse de aquellas variables que sólo m u estran u n p o d er
explicativo m arginal. E n general, y a m enos q u e se disponga de
am plios recu rso s económ icos, m uchas de tales variables serán
elim inadas auto m áticam ente si las correlaciones de orden cero
con las variables dependientes son despreciables, o si las varia­
bles se en cu en tran altam en te asociadas con o tra s variables in­
d ependientes cuyo interés sea m ás fundam ental.
Las posibles n o linealidades constituyen o tra fo rm a de com ple­
jid a d q ue d eb erá ser siem pre investigada en el caso de las escalas
de intervalo, pud iendo se r evaluadas aproxim adam ente en el
caso de los datos ordinales. Es m uy c ierto que todas las re la­
ciones b ivariadas (incluso las que existen e n tre variables inde­
p en d ien tes) deb erán ser ru tin aria m e n te investigadas en relación
con la n o lm ealidad, com parando p a ra ello E 2 con r2. Si ta l d ife­
ren cia es estad ísticam en te significativa p e ro num éricam ente pe­
queña (debido a que se tr a ta de u n a m u e stra m uy gran d e), será
necesario resolver si el in crem en to explicado, al ten er en cuenta
la n o linealidad, ju stific a el aum ento en la com plejidad. La so­
lución d ep en d erá de las peculiares p rio rid ad es de la investigación,
y el lu g ar cen tral que ocupe esta relación p a rtic u la r con vistas
al análisis consiguiente. P or ejem p lo : si liay u n a relación no
lineal em bebida en u n com plejo grupo de relaciones, entre, tal
vez, tanto* com o diez o quince variables, quizá no valga la pena
acep tar el au m ento en la com plejidad. Si, p o r el contrario, no
hay m ás de tre s o cu atro variables m ayores, y es la variable de­
pendiente la que con cen tra n u e s tra atención, puede re s u lta r ju s­
tificado el refinam iento. E n tal caso d eberá tra ta rs e de especificar
u n a función m atem ática razonablem ente sencilla (p o r ejem plo:
logarítm ica, p arab ó lica o exponencial) que explique casi ta n to de
la v ariancia com o la función no* lineal com pletam ente irre stric ta
(es d ec ir: sin restricciones en las m edias de las categorías),
cuyo p o d er explicativo es m edido p o r E2. E n o tras palabras, no
b asta con in d icar que u n a relación im p o rtan te no es lineal. De­
b erá indicarse su fo rm a específica, haciendo u n a p ru e b a p ara
ver si tal fo rm a (p o r ejem plo, u n a p aráb o la) se a ju s ta m ejor, en
fo rm a significativa, que u n a línea recta. La posibilidad adicional
de que u n a fo rm a p a rtic u la r de la relación varíe tam bién con el
nivel de o tra s variables (lo que supone u n a in teracció n ), deberá
ser investigada asim ism o. P or ejem p lo : u n a relación puede ser
logarítm ica p a ra hom bres, y lineal p a ra m ujeres. C uando en un
sistem a se d an ta n ta s com o ocho o nueve variables, el núm ero
de posibles com plejidades de este este tipo aum en ta en progre­
sión geom étrica, a m edida que va agregándose u n a variable m ás.
H abitualm ente, sin em bargo, la m ay o r p a rte de las com plejidades
potenciales no llegan a hacerse presentes.
P o r últim o, debe investigarse siem pre la posibilidad de in terac­
ciones o relaciones no aditivas e n tre las variables independientes.
Con variables independientes m últiples se d arán num erosas in­
teracciones de o rd e n elevado, las que p rácticam ente siem pre son
ignoradas e n el análisis. Una estra te g ia razonable consiste en
bu scar to d as las posibles interacciones de dos variables. La m a­
yoría de éstas, según se verá, son sin d u d a despreciables. Podrán
hacerse p ru e b a s de significancia de grupos enteros de interaccio­
nes, utilizando p a ra ello los coeficientes parciales m últiples.
Supongam os, p o r ejem plo, que se cuenta con cu a tro variables
independientes X u X 2, X a y X 4. P odrían sum arse a la ecuación
de regresión todos los productos cruzados posibles X¡Xj, com pro­
b an d o si este g rupo de variables agrega en fo rm a significativa
al valor de la variancia explicada. Si no ocurre así, todas ¡as
interacciones p o d rá n ser om itidas. Si, p o r el contrario, se pro­
duce efecto, al m enos, algunas de ellas p o d rá n tal vez se r elim i­
nadas.
Cuando se en c u en tra u n nú m ero razonablem ente grande de in­
teracciones significativas de dos variables, puede considerarse
justificado b u sca r o tras interacciones de orden elevado. El su­
puesto, en este caso, es el de que n o aparecerán interacciones
de ord en elevado si se observó la ausencia de interacciones de
ord en in ferio r. Las bases teóricas de ta l supuesto pueden n o es­
ta r lo suficientem ente claras, pero, en térm in o s p u ram en te em ­
píricos, el supuesto parece razonable. Es cierto que si uno
hallase am plias interacciones de teroero y cu a rto órdenes en
ausencia de interacciones de p rim e r orden, re su ltaría cierta­
m en te difícil en co n trar u n a explicación teó rica del hecho. Tal
vez p o d ría defenderse, a m edias, el ig n o rar las interacciones
d e dos facto res en ausencia de efectos principales, pero, p o r lo
m enos en el caso de las variables de b a ja p rio rid ad , los efectos
p rincipales casi cero ju stific ará n de o rd in ario el que se descuide
el estu d io de las interacciones en las que intervienen dichas va­
riables. H ay ocasiones, p o r supuesto, en que u n o puede en c o n trar­
se desorientado, p ero re su lta inevitable en el análisis m ultivariado
el verse obligado a to m a r p o r algunos atajos.
La cuestión p rincipal p o r recalcar es la de que la b ú sq u ed a de
interacciones (y no linealidades) debe se r n o sólo sistem ática,
sino ru tin a ria . No debe c o rrerse u n " a lb u r” buscando sólo un
subgrupo selecto de posibles interacciones, en ta n to se desconoce
el re sto de éstas. En ra ra s ocasiones las teorías de las ciencias
sociológicas (y sus afines) son lo b a sta n te explícitas y precisas
com o p a ra especificar y p re d ecir tales interacciones (especialm en­
te las de o rd en su p erio r) con an terio rid ad a la recopilación de
datos. La falla p rincipal d e esta clase de "b a rrid o " aplicado al
análisis de los d ato s es p o r supuesto la de que sólo p o r casuali­
d ad h a b rá de h acerse visible cierto n ú m ero de interacciones
significativas. P o r lo tan to , cuando se las en cu en tra deberá com ­
p ro b a rse si están o no diseñadas en fo rm a sistem ática. ¿Tende­
rá n a ab arcar, p o r ejem plo, sólo dos o tres de las variables?
Todo lo a n te rio r lleva im plícito que siem pre está p re sen te el
riesgo de sobreanalizar los propios datos, p artic u la rm en te cuando
el nú m ero de p arám etro s p o r estim ar com ienza a aproxim arse al
tam año to tal de la m uestra, o cuando se observa u n gran núm ero
de com plejidades de m ás bien escasa im portancia. H ay p o r su­
p u esto u n a cierta tensión e n tre la necesidad de sim plificar, p o r
u n lado, y el c o n tar con u n a m ayor fuerza explicativa, p o r el otro.
No hay norm as rígidas p a ra escoger e n tre ellas, p o r razón sobre
todo de que el nú m ero de tipos de com plejidades es grande.
Los estudios v arían considerablem ente en cu an to al grado en
que son prin cip alm ente explicativos, o definidam ente teóricos.
V arían tam bién én cuanto a la calidad de las m ediciones, com o
an terio rm en te pudo observarse. Cuando las m edidas son b u rd a s
y la teo ría débil, p ero se cuenta con u n buen núm ero de variables
explicativas potenciales, p o d rá n llevarse a cabo los análisis ex­
plo rato rio s m ediante el em pleo de procedim ientos ru tin ario s de
cálculo ( S onquist y M organ [8 ]). C uando se cuenta con u n a teo­
ría m ás explícita, re su ltan recom endables las técnicas de las ecua­
ciones sim ultáneas. Si el tam añ o d e la m u estra es adecuado, es
aconsejable la estrateg ia de dividir (al azar) la m u e stra en m ita­
des, o incluso en tercios. P uede así llevarse a cabo u n estudio
p u ram en te ex p lo ratorio con la p rim e ra subm uestra, utilizando los
datos, así obtenidos, p a ra d e sa rro llar las explicaciones teóricas,
las que a continuación p o d rá n ser com probadas u san d o el resto
d e los datos. De esta form a pueden a d a p ta rse con gran flexibili­
d ad las técn icas estadísticas m u ltiv ariad as a las necesidades del
m om ento, utilizándolas p a ra el d esarro llo de las p ro p ias teorías
y la com probación de éstas.

E jercicios
1. Compruébense tantos cálculos del cuadro XX.l como sean necesa­
rios para comprender cómo se obtuvieron las cifras en cuestión.
2. Tómense los datos del ejercido 1, cap. xvu y descompóngase el
índice de heterogeneidad en las siguientes categorías: 10.0 a 14.9, 15.0
a 19.9, 20.0 a 24.9, 25.0 a 29.9 y 30.0 a 49.9. Designando la integración
moral con Y, la movilidad con X y la heterogeneidad con A :
a. Verifiqúese la interacción. Respuesta, F — 2.17.
b. Obténgase rZY-¿. y verifiqúese la significación. Respuesta, F - 13.6.
c. Ajústense las medias de las categorías en Y en relación con dife­
rencias respecto de X.
á. Verifiqúese la significación de las diferencias entre las Y ajusta­
das. Respuesta, F = 2.71.
e. Obténgase la correlación parcial intraclase r i 7 A-x-

3. Llévese a cabo un análisis con variable simulada sobre los datos


del ejercicio 2, aceptando la interacción, y compárense los resultados
con los del análisis de covariancia.

B ibliografía
1. Boyle, R. P.: "Patb. Analysis and Ordinal Data", American Journal
of Sociology, vol. 75, pp. 461-480, 1970.
2. Christ, Cari: Econometric Models and Methods, John Wiley & Sons,
Inc., Nueva York, 1966, Parte III.
3. Dixon, W. J., y F. J. Massey: Introéuction to Statistical Analysis,
3‘ ed., McGraw-Hill Book Company, Nueva York, 1969, cap. 12.
4. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 24.
5. Johnson, P. O.: Statistical Methods in Research, Prentice-Hall, Inc.,
Englewood Clills, N. J., 1949, caps. 10 y 11.
6. Johnston, J . : Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963.
7. Schuessler, K arl: "Covariance Analysis in SocicJogical Research",
en Edgar Borgalta (ed.), Sociologicat Methodology 1969, Jossey-
Bass, Inc., Pufollshers, San Francisco, 1969, cap. 7,
8. Sonquist, J. A., y J. N. Morgan: The Detection of Interaction
Effects, Institute for Social Research, University of Michigan, Aun
Arbor, 1964.
9. Suits, Daniel: “The Use of Dummy Variables in Regression Equa-
tions”, Journal of the American Statistical Association, vol. 52, pp.
548-551, 1957.
Quinta Parte

MUESTREO
Todas las p ruebas que hem os exam inado, lo m ism o que los p ro ­
cedim ientos em pleados p a ra o b ten er intervalos de confianza, h an
req u erid o el supuesto de m u estreo aleatorio, y de hecho el lec­
to r pu ed e h ab erse fo rm ad o acaso la im presión de que la m u estra
aleato ria e ra la ú n ica clase respetable de m u estra utilizada p o r
el estadígrafo, lo cual dista m ucho d e se r así. Existen, en efec­
to, cu a tro tipos básicos de m u estreo de p ro babilidad q u e se exa­
m in an en el p re sen te capítulo, a sa b e r: la m u estra aleatoria, la
m u e stra sistem ática, la m u estra estra tific ad a y la m u e stra p o r
conglom erados. Según verem os, es posible servirse de la induc­
ción estad ística con cad a uno de estos cu a tro tipos de m uestreo
de p robabilidad, si b ien es cierto, p o r desgracia, que al p resen te
estam os m uy lim itados p o r lo que se refiere al núm ero d e tipos
d iferen tes de p ru eb as que pueden efectu arse con m u estras no
fo rtu itas de pro b ab ilidad. Sobre todo en el caso de las m u estras
ag rupadas, n u estro s cálculos se hacen al propio tiem po m ucho
m ás com plicados. P or lo tanto, en u n texto general com o el
p resen te, será im posible h acer m ucho m ás que in d icar algunas
consideraciones generales de estrateg ia p a ra escoger el tipo de
m u estreo que re su lte m ás apropiado en vista de una situación
d eterm inada.
Acabam os de in d icar que hay cuatro tipos básicos de m uestreo
de p ro b abilidad, u n o de los cuales es el m u estreo aleatorio. ¿Qué
es, pues, la m u estra de probabilidad? La característica d istin ti­
va de la m u estra de p ro b ab ilid ad es que todo individuo h a de
ten er u n a p ro b ab ilid ad conocida de q u ed ar incluido en la m ues­
tra. E n la m u e stra al azar, ya vimos que todas las com binaciones
de individuos tienen iguales posibilidades de figurar. P ero al
fo rm u lar inducciones estadísticas no es absolutam ente necesario
que to d as las pro b ab ilidades sean iguales, ya que, si la pro b ab i­
lid ad de selección es conocida, será posible a ju sta r en relación
con pro b ab ilid ad es desiguales m ediante algún procedim iento de
pond eració n de u n a clase u o tra. Es esencial, sin em bargo, que
las p ro babilidades sean conocidas, con o b jeto de llegar a los
pesos apropiados. Si las probabilidades se desconocen, será im­
posible servirse legítim am ente de la inducción estadística. E n
efecto, con un m u estreo caren te d e probabilidad, podem os aca­
so o b ten er u n a m u e stra efectivam ente m uy representativa, pero
n o estarem o s en condiciones de ap re c ia r los riesgos d e e rro r
im plicados. Después de d escrib ir y co m p arar cada uno de los
c u a tro tipos de m u estreo de probabilidad, exam inarem os breve­
m en te algunos casos en los que es pro b ab le que se obtengan
m u estras sin p robabilidad.
Se h a recalcado que en el m u estreo al azar no sólo h a de tener
cada individuo u n a op o rtu n id ad igual d e ser seleccionado, sino
que todas las com binaciones h a n de se r adem ás igualm ente pro­
bables. H em os indicado tam bién que p o r lo re g u lar re su lta m ás
conveniente seleccionar sin reposición. Los especialistas d e la
selección suelen d esignar la m u e stra de esta clase com o "m ues­
tr a sencilla ale a to ria ”. O bsérvese que después de cada extracción
sucesiva la p ro b ab ilid ad p a ra u n individuo de se r seleccionado
au m enta ligeram ente debido al hecho de que q u ed arán cada vez
m enos individuos n o seleccionados en la población. Si en rela­
ción con u n a extracción determ in ad a las probabilidades de todos
los individuos re sta n te s en cu an to a se r seleccionados son igua­
les, independientem ente de los individuos seleccionados a n terio r­
m ente, entonces tenem os u n a m u e stra sencilla aleatoria. En
efecto, tenem os independencia de u n a extracción a la siguiente,
excepto en cu an to al hecho de que ningún individuo puede ser
seleccionado dos veces.
¿P or cuál p rocedim iento m ecánico se seleccionan las m u estras
al azar? Se su p o n e a veces erró n eam en te que casi to d o m étodo
de selección de "c a ra o cruz” d ará u n a m u estra al azar. E sto
d ista m ucho d e se r así. E n efecto, tales m étodos conducen casi
invariablem ente a u n a m u estra sesgada, debido al elem ento
hum ano im plicado. Con objeto de aseguram os que todos los in­
dividuos, incluidos los atípicos o los que son difíciles d e localizar,
tienen efectivam ente la m ism a posibilidad de aparecer en la
m uestra, hem os de observar p o r lo reg u lar m uchas condiciones
al pro ced er a la extracción. P rim ero, en efecto, hem os d e ase­
gurarnos de que cada individuo fig u ra en la lista y de que aparece
únicam ente en ella u n a sola vez. Podem os luego asociar u n nú­
m ero a cad a p u esto de la lista y serv im o s de algún procedim ien­
to m ecánico, p o r el estilo del que se em plea en el juego de bingo,
con objeto d e aseg u rar probabilidades iguales de selección. Exa­
m inem os p rim ero algunos problem as que pueden p re sen tarse en
relación con la m ism a confección de la lista, o lo que los especia­
listas en m u estreo denom inan "arm azón de la m u estra".
P o d rá p en sa rse acaso que el hecho d e obtener u n a lista es p o r
lo reg u lar asu n to de poca m onta. Sin em bargo, en la m ayoría
de los casos p rácticos esto no es así. A m enudo ni siquiera exis­
ten listas. P o r ejem plo: no existe lista alguna de los residentes
de los E stados Unidos o del estado d e Michigan. Es casi seguro
que tam poco h a b rá lista alguna de los negros o los niponorte-
am ericanos que viven en u n a localidad determ inada. Y si no hay
lista, p u ed e re s u lta r m uy costoso confeccionar una. Si ta l es el
caso, hay otros m étodos de m u estreo d e probabilidad que son p re­
feribles a la m u estra sim ple aleatoria. P or o tra p arte, p u ed e acaso
h ab er listas, p ero es posible que no estén al día. Algunos indivi­
duos p o d rá n no e sta r incluidos, m ien tras que o tro s h ab rán dejado
e n tre tan to de p erten ecer a la población considerada. Los direc­
torio s locales, que a p rim e ra vista parecen co n stitu ir la fuente
ideal p a ra aquel que desea e x tra er u n a m u estra aleatoria de los
residentes, pueden acaso re su lta r ta n anticuados en el m om ento
de su publicación, que ya p rácticam en te no sirvan. Los indivi­
duos acabados d e llegar esta rá n excluidos de la lista y no ten ­
drán, p o r consiguiente, pro b ab ilid ad alguna de ser seleccionados.
Y en la m edida en que dichas personas difieran del re sto de la
población en cu an to a las características o b jeto del estudio, el in­
vestigador o b ten d rá u n a m u estra sesgada y resultados engaño­
sos. O tras listas, tales com o los directorios telefónicos o los re ­
g istros de los vehículos o autom óviles, pueden e sta r sesgadas
en el sen tid o de que los grupos de ingresos inferiores estarán
p ro b ab lem en te subrepresentados. Cabe decir, p o r lo tanto, que
p o r m ucho que u n a lista parezca e sta r cuidadosam ente confec­
cionada, deberem os investigar siem pre h a sta qué p u n to resu lta
apropiada. Una lista deficiente puede re s u lta r p eo r que la fa lta
total de la m ism a, si conduce a una m u estra excepcionalm ente
sesgada.
¿Qué podem os h acer si la lista es inadecuada? Si la lista es
com pleta p ero contiene duplicaciones, el problem a es relativam en­
te sencillo, a condición, p o r supuesto, que las duplicaciones se
p uedan d escu b rir fácilm ente. P or ejem plo: si la lista com prende a
todos los niños de u n a escuela determ in ad a y querem os seleccio­
n a r u n a m u estra aleatoria d e los padres, descubrirem os, sin duda
alguna, q u e ciertos pad res tienen m ás de u n niño que va a dicha
escuela. P o r consiguiente, si dam os a la ficha de cada niño la
m ism a p ro b ab ilid ad de selección, algunos p ad res ten d rá n m ayo­
res p ro b abilidades de ser seleccionados que otros. Con o b jeto de
rem ed iar esta situación, podríam os d esc artar las fichas de todos
los herm anos de p ad re y m ad re m enos una, o podríam os selec­
cionar u n p a d re solam ente en el caso de que fu e ra seleccionada
la ficha de su h ijo m ayor, descartándolo, en cam bio, si salía la
ficha de alguno de sus o tro s hijos.
Debe observarse que si se seleccionara el segundo o el te rc e r
hijo de Jones y n o incluyéram os, p o r consiguiente, a Jones en la
m uestra, no sería legítim o rem plazar a Jones p o r el p ad re que
fig u rara a continuación en la lista. E n efecto, si se hiciera así,
las p ersonas de fichas vecinas a las de los pad res de m ás de un
niño ten d ría n m ayores probabilidades de selección. El procedi­
m ien to correcto consistirá, en tal caso, en p re sc in d ir de Jones
y p a sa r a la próxim a ficha seleccionada p o r m étodos de p ro b a­
bilidad. O tra alternativa, posible teóricam ente p ero susceptible
de c rear problem as adicionales p a ra el análisis, consistiría en
inclu ir a Jones si salía la ficha de cualquiera de sus hijos, pero
atribuyéndole m en o r peso en el análisis. Así, p o r ejem plo, si
tien e tres h ijo s y, p o r lo tan to , tre s veces la p ro b ab ilid ad gene­
ra l de ser seleccionado, d aríase a sus m arcas u n a te rc e ra p arte
del peso atrib u id o al p ad re de u n solo hijo.
E n la m ayoría d e los problem as, sin em bargo, lo m ás probable
es que la lista sea incom pleta o que incluya nom bres de indivi­
duos que ya n o son m iem bros de la población. Aquí será tam ­
bién posible d e p u ra r la liáta h a sta que sea correcta. P ero si esto
no es practicab le, p o d rá re su lta r deseable red efin ir la población
ligeram ente, p a ra ad a p ta rla a la lista. Supóngase que se sabe que
u na lista de em pleados es com pleta y exacta a la fecha del día
p rim ero del año. E n lugar de o b ten er los nom bres de todas las
p ersonas em pleadas desde entonces, será tal vez posible lim itar
n u e stra atención a las personas que tra b a ja b a n en la em presa
con an terio rid ad a la fecha en cuestión y que siguen tra b a ja n d o
en ella. Luego, to d as las personas incluidas en la m u e stra pero
que re su ltan h a b e r dejado e n tre ta n to la em presa p o d rá n des­
cartarse. Obsérvese, sin em bargo, que la población estu d iad a no
co n stará de todos los em pleados presentes, y el lecto r h a de per-
cartarse bien de ello.
Una vez o b ten id a u n a lista correcta, es relativam ente sencillo
ex traer u n a m u estra aleatoria. T eóricam ente p o d ría em plearse
to d a u n a serie d e m edios m ecánicos p a ra aseg u rar probabilida­
des iguales de selección. P odría utilizarse u n juego de naipes bien
b arajad o , o ex traerse núm eros de un som brero. Tal vez una
esfera con bo las num eradas d aría resultados m ás seguros, debido
a la tendencia de las cartas o los pedacitos de papel a pegarse
cuando se los b a ra ja o m ezcla. E n realidad, sin em bargo, el in­
vestigador no n ecesita seguir u n proceso ta n com plicado, ya que
se han confeccionado con tal o b jeto tablas de núm eros aleatorios.
E sta s tablas se h an confeccionado sirviéndose de m edios m ecá­
nicos com o los que se acaban de indicar. Así, p o r ejem plo, po­
d ría ponerse u n nú m ero igual de bolas con los dígitos 0, 1, 2, . . . ,
9 en u n a cesta y p ro ced er a extraerlas, reponiéndolas y mezclán­
dolas cada vez a fondo. Los dígitos re su ltan tes p o d rían luego
serv ir p a ra confeccionar u n cu ad ro de núm eros al azar, com o el
del cuadro B del apéndice 2.
Al servirnos de u n cu ad ro de núm eros aleatorios, no im porta
que sigam os las colum nas de a rrib a abajo o que procedam os
a través de las hileras, ni que em pecem os con u n a de las colum ­
nas o hileras con preferencia a otra, a condición, sin em bargo,
que n u estra decisión se adopte an tes d e exam inar los datos. P ara
ilu stra r el em pleo del cuadro de núm eros aleatorios, suponga­
m os que se q u iere ex traer u n a m u estra de tam añ o 100 de una
población que consta de 736 individuos. Toda vez que el núm ero
736 consta de tres dígitos, re su lta rá conveniente escoger tres
colum nas adyacentes (cu alesq u iera), eligiendo o tras tre s al lie-
gar al pie de la página. Supóngase, p o r ejem plo, que decidi­
m os servirnos de las tre s p rim era s colum nas de la p rim e ra p á­
gina del cu ad ro B. Como p rim e r caso de la m u e stra escogem os
el p rim e r n ú m ero que aparece en tre 001 y 736. E ste n ú m ero es
100. E n otro s térm in o s: el centésim o individuo fig u ra rá en la
m u estra. Seguim os ah o ra las colum nas 1 a 3 abajó, y obtenem os
los n ú m ero s 375 y 084. Llegam os luego al nú m ero 990. E sto
co rresp o n d ería al individuo noningentésim o nonagésim o de la po­
blación, pero, com o q uiera que este individuo no existe, pasam os
al próxim o núm ero, que es 128.
D espués de u n ra to em pezam os a en c o n tram o s con n ú m ero s
que y a h an sido seleccionados. Toda vez q u e estam os seleccio­
n an d o sin reposición, hem os de o m itir dichos núm eros, h a sta
h ab e r seleccionado finalm ente los 100 casos. E sto es to d o lo que
hay que h acer. La razón de que el p roceso sea tan sencillo y
que p u ed a d ecidirse a rb itra ria m e n te el em pleo de las colum nas
o h ileras está, p o r supuesto, en q u e los n ú m eros que fig u ran en
el cu ad ro son to talm e n te aleatorios. .De hecho, es casi im posible
servirse d e u n a d e estas tab las in co rrectam en te, a m enos que se
re p ita n las colum nas (o las h ilera s) o que se h ag a tram p a, deci­
diendo, p o r ejem plo, que se quiere o b ten er en la m u e stra el caso
ducentésim o decim onono y buscando d eliberadam ente u n a co ­
lu m n a que lo contenga.
C orrección de la m u estra sin reposición. Y a se m encionó en el
cap ítu lo xx, relativo a la p robabilidad, que cuando se saca u n a
m u e stra sin reposición violam os el su p u esto de independencia
y que, e stricta m e n te hablando, hem os de m odificar, p o r consi­
guiente, n u estra s fórm ulas p a ra te n e r en cu en ta dicho hecho.
P o r lo reg u lar, esto no constituye p ro b lem a grave alguno, ya que
la m u e stra seleccionada no es m ás que u n pequeño fragm ento
de la población y, p o r lo tan to , la pro b ab ilid ad de que u n indivi­
d u o d eterm in ad o re su lte seleccionado dos o m ás veces es m ás
b ien p equeña. Sin em bargo, si la m u e stra llega a co m p ren d er
h a s ta u n q u in to d e los individuos d e la población, será conve­
n ien te in tro d u c ir facto res de corrección, siem pre que tales fac­
to res sean conocidos. P o r desgracia, sólo se conocen fa cto res
exactos de corrección p a ra los tipos de problem as m ás sencillos.
Con todo, este hecho sólo ra ra m e n te re su lta p e rtu rb a d o r, ya que,
si fu éram o s a seleccionar u n a m u e stra que co m p o rta ra el tercio
o la m ita d de la población, estaríam os de todos m odos en con­
diciones de seleccionar tam bién la población entera. El em pleo
del fa c to r d e corrección p a ra fórm ulas que co m p o rtan el e rro r
e stá n d a r de la m edia se exam ina m ás abajo. E n casos m ás com ­
plicados, h ab rem o s de referirn o s a algún texto especial sobre
m u estreo, au n q u e p robablem ente n o se encu en tre en los m ism os
un exam en d e los facto res de corrección aplicado a las diversas
p ru eb as n o p aram étricas. P o r o tra p arte , dichos textos tien en su
m ay o r aplicación a las m u e stra s pequeñas, en los que el p ro b le­
m a de la rep o sición reviste m en o r im portancia.
La fó rm u la q ue habrem os de ap licar efectivam ente p a ra la co­
rrecció n del e r ro r e stán d a r de la m edia, si seleccionam os sin re ­
posición, es la siguiente:

= (X X I.l)

en donde / re p re se n ta la fracción de m uestreo, o sea la razón


del n ú m ero de casos de la m u e stra con respecto d e la población.
Si designam os el tam añ o de la m u e stra com o N y el de la pobla­
ción com o M, podem os escrib ir el fa c to r de corrección c o m o :

J i - J L
J M
Se echa de v er in m ed iatam en te que si el tam año de la m u estra
es relativ am en te pequeña en com paración con M, el valor del
fa cto r de corrección se hace aproxim adam ente igual a la unidad,
y tiene, p o r consiguiente, escaso o b jeto o nulo el servirse de él.
Así, p o r ejem plo, si se selecciona u n a m u estra de 500 de una
población de 10 000, la fracción de m u estreo es 1/20, y el valor
del fa c to r de corrección es de .975. O bsérvese que, toda vez
q ue el fa c to r de corrección h a d e ser m en o r que la u n id ad tra ­
tán d o se de poblaciones finitas, el valor corregido del e rro r están ­
d a r será siem p re m en o r que el de la cifra sin corregir. Así, pues,
si deseam os u n e rro r está n d a r pequeño, com o suele se r el caso,
nos en co n trarem o s del lado conservador no sirviéndonos de la
corrección. A m enos que la fracción de m u estreo sea del orden
de u n q u in to o m ás, ra ra m e n te la tenem os en cuenta.
E ste m ism o fa c to r de corrección p u ed e em plearse en o tras
fórm ulas que co m p o rtan e rro res e stá n d a r de m edias o p ro p o r­
ciones. Así, si h u biéram os de servirnos de u n a estim ación, recu­
rriría m o s a la fó rm u la :

0- = V H ( — | = V H ( — -— | ( x x i .2)
\y/N / \y/N - 1 /
E n u n a p ru e b a d e diferencia de m edias, h ab rá dos fracciones de
selección, y la fó rm u la b ásica de la estim ación del e rro r están­
d a r de la diferen cia de las m edias s e r á :
O tro tipo de m u estreo de uso m uy frecuente se confunde fácil­
m ente con el de m u estreo aleatorio y, de hecho, se em plea a m e­
n u d o com o intercam biable con éste. E n el m u estreo sistem ático,
en lu g ar de servirnos de u n cu ad ro de núm eros aleatorio, reco­
rrem o s sim plem ente u n a lista y tom am os cada /c-ésimo individuo,
em pezando con u n caso escogido aleato riam en te en tre los p rim e­
ro s k individuos. Así, p o r ejem plo, si deseáram os seleccionar u n a
m u e stra de 90 personas de e n tre u n a lista de 1 800, tom aríam os
cada vigésim a p erso n a de la lista. Sin em bargo, n u e stra p rim era
elección h a de d eterm in a rse p o r algún procedim iento al azar,
com o el em pleo, p o r ejem plo, de un c u a d ro de núm eros aleato­
rios. Supóngase que se eligiera el individuo undécim o. E ntonces
la m u e stra co n staría de los individuos 11, 31, 51, 71, 91, . . .
El m u estreo sistem ático es m anifiestam ente m ucho m ás senci­
llo que el m u estreo aleatorio, siem pre que la lista sea sum am ente
larga o que haya que e x tra er u n a m u e stra m uy grande. Si nos p u ­
diéram os serv ir legítim am ente, p o r ejem plo, de u n directorio tele­
fónico o del directorio de u n a ciudad, se concibe fácilm ente la
dificu ltad de b u sc a r los individuos 512, 1 078 y 15 324. Si la o rd e­
nación em pleada en la com pilación de la lista puede considerarse
esencialm ente com o al azar con respecto a la variable que se está
m idiendo, el m u estreo sistem ático será equivalente al m u estreo
sencillo aleatorio. P o r e je m p lo : la m ayoría d e las listas están
confeccionadas p o r ord en alfabético. Los apellidos, p o r supuesto,
no son casuales. Así, pues, u n m arido y m u je r registrados sepa­
ra d am en te n o ten d ría n p rácticam en te p ro b ab ilid ad alguna de
fig u ra r ju n to s en la m u estra, a m enos que su apellido fu e ra su­
m am en te com ún. Algunos grupos étnicos tienen u n a proporción
elevada de n o m b res que em piezan con la m ism a le tra ( O’B rien,
O'Neil, etcé tera ). E n realidad, en el caso de las listas alfabéticas
tenem os algo que se aproxim a al m u estreo estratificad o (véase
m ás ad elan te), en el que los grupos étnicos p re sen tan cierta
ten den cia a u n irse. El hecho de to m a r cada fc-ésimo indivi­
duo tiene, p o r lo tan to , probabilidades de p ro p o rcio n ar u n a re ­
p resen tació n ap ro p iad a d e cada grupo. E n la p ráctica, sin
em bargo, com o q u iera que la ordenación alfabética es esencial­
m ente irrelev an te desde el p u n to de vista de la m ayoría de las
variables estu d iadas, n o solem os p o r lo re g u la r c o rre r riesgo
alguno al co n sid erar la m u e stra sistem ática com o equivalente al
m u estreo sencillo aleatorio. Sin em bargo, se h an desarrollado
p a ra el p rim ero algunas fórm ulas algo d istin tas, que p a rte n de
su p u esto s d iferentes. E n la m ayoría de los casos, con todo, ape­
n as v ald rá la p en a to m arse ese tra b a jo adicional.
H ay dos tipos de situaciones en las que la selección sistem ática
p ro d u ce sesgos considerables. A fortunadam ente, éstas no se p re ­
sen tan con frecuencia en los problem as sociológicos. Prim era:
los individuos pueden h ab erse o rdenado de m an era que se p ro ­
duzca u n a tendencia. E n efecto, si las personas se h an reg istrad o
p o r profesiones, prestigio, o edad, la posición de la salida al azar
puede afectar los resultados. Supóngase, p o r ejem plo, que la
fracción de m u estreo sea de 1/30. Dos perso n as pueden extraer
m u estras sistem áticas con p a rtid a s aleatorias m uy diferentes.
Una p a rtid a al azar de dos, p o r ejem plo, d a rá u n a m arc a pro­
m edia co n siderablem ente m ás elevada (si los individuos están
ordenados de m ayor a m en o r) que la d e 27, ya que cada individuo
de la p rim e ra m u estra e sta rá situ ad o 25 lugares ad elan te de la
p erso n a co rresp o n d ien te de la segunda m u estra. Si se observa
u n sesgo de esta clase, h a b rá que m ezclar algo la lista, o servirse
de u n a " p a rtid a m ed ia” (o sea, em pezando con los individuos
15 o 16).
El segundo tip o de situación que hay que ev itar es aquel en
que la lista p re se n ta cierta c a rac te rístic a periódica o cíclica co­
rresp o n d ien te a la fracción de m uestreo. Así, p o r ejem plo, en un
edificio o u n a casa de d ep artam en to s cada octavo de éstos form a
esquina. Si éste es algo m ayor que los restan tes, cabe e sp e rar
que sus o cu pantes difieran asim ism o. P or lo tan to , si se d a el
caso de que la fracción de m u estreo sea tam bién d e 1/8, podría
ob ten erse u n m u estreo con to d o d e esquinas o, inversam ente, sin
ninguna, según el p u n to de p a rtid a aleatorio. Con o b je to de evi­
ta r esta tram p a, p o d ría cam biarse ligeram ente la fracción de
m uestreo, to m án d ola com o 1/7 o 1/9, o cab ría servirse de varios
p u n to s de p a rtid a tom ados al azar. Así, p o r ejem plo, u n a vez
seleccionados diez departam entos, p o d ría escogerse o tro núm ero
aleato rio y seleccionar o tras diez residencias, e x tra er o tro núm e­
ro, y así sucesivam ente.
La selección sistem ática se em plea a m enudo en com binación
con otros p ro cedim ientos en los estudios sociales, debido a su
sencillez. Al p ra ctican te inexperto de u n a encuesta, p o r ejem ­
plo, es m ás fácil indicarle que visite cada terc era casa de una
m anzana q ue decirle que em plee u n cu ad ro de n úm eros alea­
torios. Sin em bargo, lo m ism o que en el caso del m u estreo sen­
cillo aleatorio, la lista h a de ser com pleta y p recisa. Si el que
realiza la en c u esta o m itiera los d ep artam en to s m ás pequeños
o algunas residencias de las avenidas lejanas, p o d rían re su lta r de
ello graves erro res. Es im p o rta n te p ercatarse de que en toda
Clase de m u estreo de p robabilidad h a n de darse ta n to u n elem en­
to fo rtu ito com o algún tipo de re g istro com pleto. Sin em bargo,
según verem os en seguida, la n atu ra leza de las lista s req u erid as
puede d ife rir de u n p ropósito a otro, siendo algunas de ellas
m ucho m ás fáciles de o b ten er que o tras. El investigador h a de
exam inar siem pre su lista cuidadosam ente y h a de sab e r cóm o se
h a confeccionado y cuáles son sus defectos.
E n ta n to que en térm inos de ah o rro de costos o de problem as de
análisis las diferencias e n tre las m u estras aleatorias sencillas y
las sistem áticas son p o r lo* regular relativam ente secundarias, los
o tro s dos tipos básicos de m uestreo, en cam bio, difieren de
los p rim ero s que acabam os de v er en algunos aspectos fundam en­
tales. Según verem os, ta n to el m u estreo estratificado com o el
conglom erado pueden em plearse en determ inadas circunstancias
p a ra a u m en ta r la eficacia del diseño de m uestreo. E n o tro s té r­
m in o s: pueden concebirse p a ra conseguir m ayor precisión con
los m ism os costos o bien, si se p refiere, cuestan m enos y com ­
p o rta n la m ism a precisión. Se verá tam bién que am bos procedi­
m ientos req u ieren fórm ulas distin tas de aquellas de las que nos
hem os servido anteriorm ente.
E n el m u estreo estratificad o dividim os p rim ero todos los in­
dividuos en grupos o categorías y seleccionam os luego m u estras
independientes d en tro de cada estrato . Es im p o rtan te que los
estrato s se definan de tal m odo que cada individuo figure en
u n o y sólo en u n o de ellos. E n los tipos d e m u estreo estra tifi­
cado m ás sencillos y de em pleo m ás frecuente, tom am os una
m u estra aleato ria sencilla o sistem ática de cada u n o de los e stra ­
tos. Las fracciones d e m u estreo de los d istin to s estrato s pueden
ser iguales, en cuyo caso hablam os de u n m u estreo estratificad o
proporcional, o puede tra ta rse , p o r el contrario, de u n m uestreo
estratificad o no proporcional.
Una de las razones en cuya v irtu d estratificam os a m enudo una
m u estra es la de que pueden h ab erse em pleado m étodos o listas
de m u estreo p a ra cada estra to . Así, p o r ejem plo, los estrato s
pu ed en con sistir en fábricas, escuelas o dorm itorios distintos,
cada uno de los cuales se h a estudiado en m om entos distintos
p o r d istin tas personas. Es posible que h u b iera sido to talm en te
im p racticab le co m binar las listas de los d istin to s e stra to s selec­
cionando luego u n a m u e stra sencilla aleatoria de todos ellos. O tra
razón im p o rtan te de la estratificación, fren te a la m u e stra alea­
to ria sencilla, consiste en la reducción de los casos requeridos
p a ra la obtención de u n determ inado grado de precisión. E n la
m edida en que los e stra to s son hom ogéneos con resp ecto a las
variables estudiadas, podem os m e jo ra r la eficacia del diseño.
Al exam inar las m u estras estratificad as proporcionales y n o p ro ­
porcionales, ap reciarem os m ejo r algunas d e las ventajas p artic u ­
lares de este m uestreo fre n te al m u estreo sencillo aleatorio.
M uestreo estratificado proporcional. El m u estreo estratificad o
pro p o rcio n al se em plea a m enudo p a ra asegurarse u n a m u estra
m ás rep resen tativ a de la que cabría e sp e rar de las m u estras
aleatorias sencillas o sistem áticas. Supóngase, p o r ejem plo, que
hay 600 p ro testan tes, 300 católicos y 100 judíos en u n a población
determ inada. Si se fu e ra a e x tra er u n a m u estra aleato ria de tam a­
ño 100, no esp eraríam os ciertam en te o b ten er exactam ente 60 p ro ­
testan tes, 30 católicos y 10 judíos. La proporción d e los judíos,
en p artic u la r, p o d ría re su lta r fácilm ente o dem asiado grande o de­
m asiado pequeña. Supóngase ah o ra que nos in tere sa b a estu d iar
alguna variable, tal com o la asisten cia a la iglesia, íntim am ente
ligada a la confesión. Supóngase, adem ás, que nos interesaba
estim ar el n ú m ero prom edio de veces que las p erso n as de la
población asistían a la iglesia. R esulta fácil ver intuitivam ente
que u na m u e stra estratificad a con p roporción al tam año en el que
las fracciones de m uestreo fu eran de 1/10 p a ra los tre s estrato s
(o sea que co n staran de 60 p ro testan te s, 30 católicos y 10 judíos)
nos pro p o rcio n aría, p o r lo regular, resultados m ás seguros que
la m u estra sencilla aleatoria.
Tenem os aquí, en efecto, u n p ro b lem a análogo al del análisis
de variancia. E n la m u estra aleato ria hay dos fuentes de varia­
ción. Puede h a b e r e rro res de selección dentro de cada estrato,
y puede hab erlo s entre los estrato s en relación con los respectivos
núm eros seleccionados. No sólo podríam os seleccionar judíos
o católicos m uy atípicos, sino que podríam os seleccionar, ade­
m ás, dem asiados o m uy pocos de cada tipo. En el m uestreo
estratificado, en cam bio, hem os elim inado la variación en tre es­
tra to s y n o s qu eda sólo la variación dentro. Si los estrato s
fu eran to talm en te hom ogéneos, el m u estreo proporcional nos da­
ría siem pre re su ltad o s correctos, e n tan to que no sería así con
el m uestreo sencillo aleatorio. P or o tra p arte, si los estra to s fue­
ra n ta n hom ogéneos com o p o d ría esp erarse del azar, n ad a ga­
naríam os estratifican d o . E n o tro s térm in o s: si las diferencias
en tre los grupos son pequeñas en com paración con las diferen­
cias d en tro , la estratificación d e n ad a sirve. Así, pues, la ven­
ta ja re su ltan te de e stra tific a r es proporcional en líneas genera­
les a la correlación de in traclase e n tre las dos variables. Por
consiguiente, si el criterio en favor de la estratificación se rela­
ciona m uy ín tim am ente con la variable estudiada, la ventaja
p ued e se r acaso considerable. Al gan ar el control sobre el n ú ­
m ero de casos de cada estra to , cosa que n o era posible en el
m uestreo aleatorio, podem os asegurarnos m ayor precisión en re­
lación con u n tam añ o d eterm inado de la m uestra.
No debe p o r ello esperarse dem asiado del m u estreo e stra tifi­
cado p ro p o rcio n al. Si el tam año d e la m u estra es relativam ente
grande, esperam os, p o r supuesto, que el solo fa c to r azar nos
asegure ap ro x im adam ente proporciones correctas de cada estra­
to. Y como q u iera que los problem as de análisis no se com plican
dem asiado a consecuencia d e la m u e stra estratificada, poco p er­
dem os en realid ad al estratificar. P or lo regular, no es ni nece­
sario n i p racticab le esforzarse en o b ten er u n solo crite rio "m ejor"
p a ra estratificar. P ara o b ten er u n a m u estra estratificad a pro-
porcional, h ay que conocer los tam años de los estrato s de pobla­
ción, y sólo será posible, p o r supuesto, estra tific ar conform e a
variables a cuyo p ropósito la inform ación se desprende de las
listas en el m om ento de la extracción d e la m uestra. E sto signi­
fica a m en u d o que nos vem os lim itados a variables ta n sencillas
com o el sexo, la edad, la ocupación o el á re a de residencia. Algu­
nas de estas variables pueden incluso utilizarse com binadas,
si se desea, si bien ra ra vez re su lta rá ventajoso estra tific a r con
m ás de dos o tre s variables a u n tiem po. Sin em bargo, com o
q u iera que la estratificación constituye u n procedim iento ta n
sencillo, sus posibilidades deberían exam inarse siem pre.
M uestreo estratificado no proporcional. E n el m u estreo e stra ­
tificado no p roporcional nos servim os de d istin ta s fracciones de
m u estreo p a ra m an ip u lar el núm ero de casos seleccionado, con
o b jeto de au m en ta r todavía m ás la eficacia del diseño. H ay di­
versos tipos de situaciones en los que esta fo rm a de m uestreo
re su lta indicada. A m enudo, en efecto, n u estro in terés puede
c e n tra rse m ás en las diversas subpoblaciones rep resen tad as p o r
los estra to s que en la población c o n ju n ta m ism a. Supóngase,
p o r ejem plo, que deseáram os com parar los tre s grupos religiosos
principales en relación con la asistencia a la iglesia. Es obvio
que ta n to el m u estreo sencillo aleatorio com o el estratificad o
p roporcional nos d aría n dem asiados pocos ju díos en la m u estra
p a ra p o d er estab lecer com paraciones significativas. P or consi­
guiente, podríam os acaso decidir seleccionar núm eros iguales de
cad a grupo, dando así a cada ju d ío u n a p robabilidad de selec­
ción igual a tres veces la de los católicos y seis veces la de los
p ro testan tes. Si seleccionáram os 50 de cada grupo, las fracciones
de selección respectivas serían así de 1/12, 1/6 y 1/2. Y si luego
quisiéram os generalizar a la población en te ra con o b jeto de
a p reciar la cifra m edia de la asistencia, habríam os de p o n d erar
las m edias de los tre s estrato s, a fin de com pensar el hecho de
que los ju d ío s h an sido sobreseleccionados. E ste procedim iento
d e p onderación se describe m ás adelante.
P ero incluso si n u e stro objetivo está en generalizar a la po­
blación e n tera y no en c o m p arar diversas subpoblaciones, aun
así p u ed e re s u lta r indicado servirnos de la m u e stra estra tific ad a
n o proporcional, siem pre q u e : 1) las desviaciones e stá n d a r den­
tro de los distin tos e stra to s difieran considerablem ente e n tre sí,
o 2) que los costos de re u n ir los datos varíen su stancialm ente
d e u n e stra to a otro. H a b rá siem pre u n a distribución óptim a en
relación con la cual el p ro p ó sito del m u estreo p re se n ta rá una
eficacia m áxim a. E n o tro s térm in o s: h a b rá u n a determ inada;
com binación de fracciones de m u estreo que p ro p o rcio n ará el
m en o r e rro r de m u estreo al m en o r costo posible. Y podem os
o b ten er esta distribución óptim a si hacem os la fracción de m a e s­
treo de cada estrato directam ente proporcional a la desviación
estándar d en tro del estrato e inversam ente proporcional a la raíz
cuadrada del costo de cada caso dentro de su estrato. Veam os
in tu itiv am en te p o r qué esto es así, exam inando p rim ero la cues­
tión de las desviaciones están d ar.
Si u n d eterm in ad o e stra to p a rtic u la r es excepcionalm ente ho­
m ogéneo con respecto a la variable estudiada, no será necesario
ex tra er d e la m ism a u n a m u e stra m uy grande p a ra conseguir un
grado d eterm in ad o de precisión. P or o tra p arte , será indicado
to m a r u n a m u e stra m ucho m ayor de u n e s tra to m uy heterogéneo.
Como q u iera que n u e stra precisión co n ju n ta v en d rá determ inada
a n te todo p o r el grado de precisión del eslabón m ás débil de la
cadena, p o r así decir, im p o rta que no tengam os u n o o dos e stra ­
tos con e rro res grandes de selección. E sto es p artic u la rm en te
así si los e s tra to s suelen se r grandes. No te n d ría objeto, en
efecto, so sten er u n a precisión p erfec ta en algunos de los estrato s
m ás pequeños, con u n e rro r de m u estreo m uy grande, en cam ­
bio, en o tro e stra to . P or consiguiente, si tom am os relativam ente
m ás casos de los estrato s heterogéneos y m enos, en cam bio, de
los hom ogéneos, podem os salir del paso con m enos casos. Según
se d em u estra m atem áticam ente, las fracciones de selección de­
seadas son proporcionales a las desviaciones e stá n d a r respecti­
vas, y no a las variancias.
Conviene h ac er aquí u n a advertencia. E n efecto, u n determ i­
n ad o e s tra to p o d rá ser acaso m uy hom ogéneo en relación con
u na de las variables estudiadas y m uy heterogéneo, en cambio,
en relación con o tra. Toda vez que los proyectos de investiga­
ción co m portan p o r lo regular m ás de u n a variable, puede acaso
re su lta r m uy difícil e n c o n tra r distribuciones que sean óptim as, o
ap ro xim adam ente tales, p a ra m ás de u n a variable a la vez. Y de
hecho, u n diseño m uy eficaz en relación con u n a variable puede
acaso ser su m am ente ineficaz en relación con o tra. P or consi­
guiente, lo m e jo r será co n su ltar u n especialista en m ateria de
m uestreo, p ercatán d o se bien de cuáles son las variables im por­
tantes, an tes de servirse de la distribución no proporcional. En
caso de duda, la estim ación pro p o rcio n al será m ucho m ás segura.
H asta aq u í las consideraciones relativas a los costos n o se han
tenido en cuenta, debido al hecho d e que hem os venido supo­
niendo im p lícitam ente que los costos de la reu n ió n de datos
eran iguales p a ra todos los individuos. Supóngase, sin em bargo,
que esto no sea así, y que algunos estra to s com porten costos m ás
elevados que otros. D iferentes adm inistradores, p o r ejem plo,
pueden p e rm itir acaso el em pleo de diversas técnicas de recopi­
lación de datos, o ta l vez las condiciones m ateriales de los diver­
sos estrato s sean tales que la en cu esta tom e m ás tiem po en uno
de ellos que en los dem ás. E n igualdad de los dem ás factores,
será obviam ente m enos costoso seleccionar u n n ú m ero relativa­
m en te m ayor de casos de los e stra to s m ás b arato s. Puede de­
m o strarse m atem áticam en te que la distrib u ció n óptim a se ob­
te n d rá si las fracciones de m u estreo se tom an inversam ente
prop o rcio n ales a la raíz cu a d rad a de los factores de los costos.
O bsérvese que en el caso especial en que todos los costos sean
iguales y en que to d as las desviaciones e stá n d a r d en tro d e los
e stra to s sean asim ism o iguales, las fracciones de m u estreo serán
asim ism o iguales, y tenem os así la situación en que la estra tifi­
cación pro p o rcio nal nos dé la d istribución óptim a. E n general,
suele se r indicado seguir la regla de servirse de la estratificación
p roporcional, a m enos que las diferencias de costos sean m uy
grandes, o a m enos que las desviaciones e stá n d a r de los estrato s
sean su stan cialm ente diferentes. Según verem os m ás adelante, el
em pleo del m u estreo n o proporcional tien d e a com plicar los
p roblem as del análisis y debería, p o r consiguiente, d escartarse,
a m enos que p re se n ta ra ventajas realm en te m uy claras.
H a sta aquí to davía n o nos hem os en fren tad o a u n a cuestión
im p o rtan te. E n efecto, ¿cóm o podem os servirnos d e cálculos de
costos y d e las desviaciones e stá n d a r relativas, siendo así que
estos elem entos no se conocen todavía en el m om ento de e x tra er
la m u estra? La re sp u esta obvia es que h an de apreciarse, lo m is­
m o que hem os de efectu ar anticipaciones lógicas en relación con
los valores d e determ inados p arám etro s antes de ap reciar el ta­
m año de la m u e stra que necesitarem os. H em os de te n e r presen ­
te, sin em bargo, que la clase de estim aciones que necesitam os no
es del tip o d e las que form ulam os a p a r tir de las estadísticas
de las m u estras. Sin duda, sería posible efectu ar u n estudio de
ensayo con o b jeto de o b ten er dichas estim aciones, pero, a m e­
nos que el estu d io haya de ser sum am ente vasto y costoso, se­
m ejan te gasto de d in ero n o será pro b ab lem en te conveniente. P or
lo tan to , n u e stra s estim aciones h an de b asa rse en la experiencia
de los p erito s o en estudios an terio res. Con todo, la situación
n o es ta n difícil com o parece, ya que re su lta p o r lo re g u la r posi­
ble o b ten er aproxim aciones m uy satisfacto rias de la distribución
ó p tim a m ed ian te anticipaciones m uy generales e n cu an to a los
costos y las desviaciones están d a r. E n otros té rm in o s : si existe
alguna razón p a ra sospechar que se dan diferencias sensibles
e n tre los e stra to s en relación con el uno o el o tro d e los factores
en cuestión, u n a anticipación inteligente nos d a rá probablem en­
te un diseño casi ta n eficaz com o el que se o b ten d ría con valores
exactos.
Cálculos relativos a las m uestras estratificadas. Cuando calcu­
lam o s estim aciones de m edias y estim am os e rro res e stá n d a r a
p a r tir de m u estras estratificad as, hem os de calcular valores se­
p arad o s p a ra cada u n o de los estra to s y ponderarlos luego de
acu erd o con el tam añ o relativo del e s tra to en la población. Si
indicam os con W t (w eig h t = p eso ) el peso del i-ésimo e stra to de
la población y ponem os 2W* = 1, reduciendo así los pesos a p ro ­
porciones, podem os esc rib ir la fó rm u la p a ra la estim ación de la
m edia de la población com o sigue:

X = 2 W jC i
i= i

en donde las X { re p resen ta n las m edias d e cada u n o d e los k es­


trato s. E sta fó rm u la es ta l com o la esperaríam os. Dice sim ple­
m en te que si u n e stra to es tre s veces m ayor que o tro , su m edia
h ab rá de re cib ir u n peso tres veces m ayor.
Si se h a em pleado el m u estreo estra tific ad o proporcional y de­
jam o s q ue N i y M{ indiquen respectivam ente los tam años de la
m u estra y de la población e n relación con el e stra to i-ésimo, en­
tonces, p o r definición, todos los A/j/M* serán iguales a N/ M. Pero,
com o quiera, que, p a ra el e stra to t-ésimo.

Ni
S .
— J = í

y tam bién
M N

Ni
2 X íj
- * N i í” 1 1 * Ni
ten e m o s: X = 2 ----------------- — 2 2 Xu
^ N Ni

E sta doble su m a to tal significa sim plem ente que hem os sum ado
todas las X . Y to d a vez que luego dividim os esta sum a e n tre el
nú m ero to tal de casos p a ra o b ten er X, vem os así que, en el caso
de m u estra estra tific ad a proporcional, podríam os h a b e r obtenido
la estim ación de exactam ente1en la m ism a fo rm a que en el caso
d e la m u estra alea to ria sim ple. P o r esta razón designam os la
estratificación proporcional com o autoponderada. E n o tro s té r­
m inos : cada e stra to h a recibido su p ro p io peso. Y si la estra tifi­
cación^ no h a sido proporcional, entonces hem os de m ultiplicar
cada X i p o r el peso de dicho e s tra to en la población.
Al ap reciar el e r ro r e stán d a r de la m edia, n u estro s cálculos no
resu ltan ta n sencillos. E n efecto, hem os de a p reciar prim ero el
e rro r están d a r p a ra cada e stra to y ju n ta r luego los resultados,
com o lo hicim os en la p ru eb a d e la diferencia de las m edias y en
el análisis de variancia. Se re c o rd a rá que, en lu g ar de sum ar
desviaciones están d ar, operam os con las variancias y las sum as
M U ESTREO 545

de cuadrados. H em os tam b ién de llevar al cu a d rad o los pesos


W¿. La fó rm u la de la variancia an ticip ad a de la m edia puede,
pues, escribirse, en el caso de la m u e stra estratificada, com o:

en donde o j.2 indica u n a estim ación d e la variancia de la m edia


d en tro del e s tra to f-ésimo. Podem os o b ten er el e rro r están d a r

C uadro X X I .l. Datos para calcular estim aciones de parám etros


d e m u estra s estratificadas

Distrito
Total
1 2 3

T a m a ñ o d e l d i s t r i t o ( M 4) 10000 15000 25 0 0 0 50 000 ( = M )


P e s o (W j) .20 .30 .50 1.00
T a m a ñ o d e l a m u e s t r a (A f*) 50 50 50 15 0 ( = t f )

M e d ia d e la m u e s tr a (X ¿ ) 3100 4300 3 80 0
D e s v ia c ió n e s tá n d a r d e la m u e s ­
tr a (s^ 50 0 400 300

an ticip ad o de la m ed ia extrayendo la raíz cu a d ra d a d e la expre­


sión a n te rio r y calculando luego la estad ística t com o se hizo
an tes.
Supóngase, p o r ejem plo, que hay tre s d istrito s y que los datos
d e los m ism os p u ed en re su m irse com o en el cu ad ro X X I.l. Ob­
sérvese que hem os obten id o u n a m u e stra n o proporcionada, ya
q ue nos hem os servido de fracciones de m u estreo desiguales.
S upongam os q ue nos servim os del m u estreo sim ple aleato rio d en ­
tro de cad a e s tra to y que las m u estras se ex tra jero n independien­
tem en te. Los e rro re s e s tá n d a r anticipados, prescindiendo del
fa c to r 1 — /, son
Si 500
D istrito I : --------------= ------ = 71.4
V tfi - 1 V 49
s2 400
D istrito I I : ----------------------- = 57.1
V tf2 - 1 V 49
s» 300
D istrito I I I : ------ ----- = --------- = 42.9
X = .20(3 100) + .30(4 300) + .50(3 800) = 3 810
y a / = (.20)2(71.4)2 + (.30)2(57.1)2 + (.50)2(42.9)2
= 957.5

Si bien los cálculos de las m edias y las proporciones son sen­


cillos en el caso de las m u estras estratificad as, h a d e reconocerse,
con todo, que n o se pueden em p lear legítim am ente las diversas
pru eb as n o p aram étricas, las p ru e b as p a ra la significación de la
correlación, el análisis de covariancia, etcétera, sin u n a m odifi­
cación su stancial. P or desgracia, n o suelen en c o n trarse estudios
de estos p ro b lem as en los textos sobre m uestreo. Sabem os cóm o
tr a ta r p ro b lem as estadísticos com plicados si podem os suponer
la fo rm a m ás sencilla de m u e s tra : el m u estreo aleatorio. E n el
caso de diseños m ás com plicados, podem os tra ta r los m ás senci­
llos de los pro blem as estadísticos, tales com o estim ación de m e­
dias o p roporciones, cálculo de intervalos de confianza p a ra
m edias y p roporciones, p ru e b as de diferencias d e m edias, etcé-
ra . P ero existe u n vacío, con todo, cuando se llega a técnicas e sta ­
dísticas m ás com plejas, de diseños d e m u estreo m ás com plicados.

X X I.4. M uestreo p o r conglom erados


E n el m u estreo estratificad o dividim os la población en grupos
que llam am os e stra to s y seleccionam os de e n tre cada estrato. En
ocasiones re su lta ventajoso dividir la población en un gran n ú ­
m ero d e porciones o conjuntos llam ados conglom erados y selec­
cio n ar en tre éstos. Así, p o r ejem plo, podríam os acaso dividir u n a
ciudad en varios centenares de d istrito s electorales y seleccionar
luego 40 d istrito s com o m u estra. S em ejante diseño de m uestreo
se designa com o m u estreo conglom erado y se em plea frecuente­
m en te en los estudios sociales, con o b jeto de re d u c ir los costos
in h eren tes a la recopilación de datos. Según verem os en seguida,
el o b jeto del m u estreo conglom erado consiste en seleccionar gru­
pos lo m ás heterogéneos posible y lo suficientem ente pequeños
p a ra re d u cir los costos, tales com o gastos de viaje, etcétera, inhe­
ren tes a la encuesta.
E n la m u e stra conglom erada no seleccionam os n u estro s ele­
m en to s directam ente. E n lu g ar d e ellos seleccionam os grupos
o co n ju n to s d e elem entos. E n el diseño d e conglom erados m ás
sencillos p o d ríam o s servirnos del m u estreo aleato rio e n tre gru­
pos, seleccionando luego cad a individuo de los grupos incluidos
en la m u e stra d e éstos. S em ejan te diseño se designa a m enudo
com o diseño de conglom erados d e fase única, ya que en el pro­
ceso la selección tien e lu g ar u n a sola vez. E n la selección de fa­
ses m últiples, p o r o tra p arte, el diseño puede se r m ucho m ás
com plicado. Podríam os to m ar p rim ero u n a m u estra sim ple alea­
to ria d e d istrito s electorales de la ciudad. Y luego, podríam os
to m a r u n a m u estra sencilla aleatoria de m anzanas censales (aglo­
m eraciones m ás peq u eñ as) dentro de cada distrito. Finalm ente,
p o d rían d arse instrucciones al que realizara la encuesta, en el
sen tid o de que visite cada terc era vivienda d en tro de las m an­
zanas incluidas e in terro g u e a cada segundo adulto d en tro de
aquéllas. De este m odo, los procedim ientos de m uestreo pueden
in tro d u cir el proceso de selección en ciertos núm eros de p untos
distin to s. P o r supuesto, es esencial en el m u estreo p robabilista
que se dé en el procedim iento algún elem ento al azar. Pueden
calcularse fracciones de m u estreo que pro duzcan m u estras no
sesgadas, d e m odo que cada individuo d e la población tenga una
p ro b ab ilid ad igual de fig u rar en la m u estra. Sin em bargo, con
e ste pro ced im iento no será posible ase g u rar u n a selección inde­
p endiente. E n efecto, las personas del m ism o conglom erado ten­
d rá n p o r lo re g u lar m ás probabilidades de aparecer ju n ta s en la
m ism a m u estra que los m iem bros de conglom erados diferentes.
Y de hecho, el objetivo global del m u estreo p o r conglom erados
consiste precisam ente en asegurar que esto ocurra.
S erá in stru ctivo co m p arar el m u estreo conglom erado tan to con
el sencillo aleatorio com o con el estratificado. P ara sim plificar la
cuestión, supongam os que nos servim os d e u n diseño d e m u estra
p o r conglom erado de fase única en el que los conglom erados se
seleccionan aleatoriam ente, incluyendo luego cada individuo de
los conglom erados seleccionados en la m u estra total. ¿E n qué
difiere e l m uestreo p o r conglom erado del estratificado? O bsér­
vese q u e si bien am bos com portan la división de la población en
grupos, im plican con todo, en cierto sentido, operaciones de se­
lección opuestas. E n efecto, en la m u e stra estratificad a seleccio­
nam os individuos d en tro de cada estrato . E stam os, p o r lo tanto,
seguros de que cada e stra to está rep resen tad o p o r cierto núm ero
de casos. N uestros erro re s de selección co m portan en este caso
v ariab ilid ad den tro de los estrato s. Q uerem os, p o r consiguiente,
que éstos sean en sí m ism os lo m ás hom ogéneos posible y lo
m ás d iferen tes posible unos de otros.
E n el m u estreo p o r conglom erado (d e fase ú n ica), en cam bio,
no tenem os fu en te alguna de e rro r d en tro del conglom erado, p o r­
que nos servim os en cada caso del m ism o. Toda vez que sólo
tom am os u n a m u estra d e conglom erados, n u estro e rro r com por­
ta v ariab ilid ad entre los conglom erados. Si las m edias de los
conglom erados difieren considerablem ente en com paración con
la v ariab ilid ad d en tro de los m ism os, correm os el riesgo de ob­
te n e r u n conglom erado m uy poco u su al en n u e stra m u estra de
conglom erados. Si esto o cu rriera efectivam ente y si los conglo­
m erados fu eran hom ogéneos, n u e stro e rro r de m u e stra podría
se r considerable. P ero si los conglom erados son heterogéneos en
sí m ism os en com paración con las diferencias en tre ellos, pode­
m os salir ad elan te con pocos conglom erados relativam ente gran­
des. Supóngase, en el caso extrem o, que cada conglom erado fue­
ra heterogéneo y que, en c o n tra ste con ello, las diferencias en tre
las m edias de los conglom erados fu eran insignificantes. E n tal
caso podríam os seleccionar sim plem ente un conglom erado muy
grande y o b ten er u n a excelente m u estra. En cam bio, si los con­
glom erados fu e ran to talm en te hom ogéneos, sólo necesitaríam os
u n caso en cad a u n o de ellos. T ratam os, pues, en esta form a, de
ob ten er e stra to s hom ogéneos, p ero en cam bio, conglom erados
heterogéneos, siendo que la razón de la variancia en la estrategia
es la diferencia en cu an to al p u n to de extracción d e la m uestra.
C om parem os ah o ra el m u estreo p o r conglom erados con el
m u estreo sim ple aleatorio. E n casi todos los ejem plos que en­
contrarem os, las m u estras de conglom erados serán m en o s efica­
ces (o sea que p ro d u c irán m ayores erro res de selección) que las
m u estras alea to rias sencillas d e igual tamaño. Sin em bargo, se­
gún verem os d e n tro de poco, es posible que cueste b a sta n te m e­
nos o b ten er m u estras de conglom erados. N uestro p roblem a será
esencialm ente el de eq u ilib rar los costos y la eficiencia. ¿Cómo
com param os, pues, la eficiencia relativ a de dos diseños? É sta se
m ide de la m an era m ás adecuada en térm inos del tam añ o del
e rro r están d a r de la e stim ació n ; u n e r ro r pequeño indicando una
eficiencia alta. Según vimos, es deseable obtener conglom erados
que sean lo m ás heterogéneos posible. E sta noción intu itiv a pue­
de trad u cirse en u n a fó rm u la que com porte el coeficiente de
correlación intraclase. Puede d em o strarse que la razón de las va­
riancias de las estim aciones de ¡.i p a ra las m u estras p o r conglo­
m erados y los m uéstreos aleatorios es aproxim adam ente :

en donde o - 2 y oj 2 re p resen ta n respectivam ente las variancias


de las m edias de las m u estras de conglom erado y sencilla aleato­
ria, Qi re p resen ta la correlación in traclase de la población, y N
es el nú m ero m edio de casos en cada uno de los conglom erados.
O bsérvese que la razón de las variancias será p o r lo regular
m ayor que la unidad, lo que indica variancias m ayores (y de
aquí tam bién m ayores e rro re s e stá n d a r) p a ra el m u estreo p o r
conglom erados. La expresión será m ayor que la unidad, a m e­
nos que N = 1, o Qí < 0. Es obvio que, si N — í, el m u estreo de
conglom erados se reduce al caso especial de la m u e stra aleato­
ria, ya que cada conglom erado consta de u n solo caso. La co­
rrelació n de intraclase es, p o r supuesto, u n a m edida de hom oge­
neidad. Si el conglom erado es m ás hom ogéneo de lo que podría
esp erarse al azar, o¿ será m ayor que cero y, cuanto m ás hom o­
géneo sea el conglom erado, tan to m ayor será el valor de q*. Se
concibe que sea negativo. P ero esto re q u eriría que el conglo­
m erado fu e ra m ás hom ogéneo de lo que se esp eraría p o r azar.
E n conjunto, las clases de conglom erados q u e solem os p o r lo
re g u lar escoger con fines prácticos serán casi siem pre tan hom o­
géneos p o r lo m enos com o se esp eraría p o r azar.
Vemos que si > 0, cu an to m ayor es el núm ero de casos N
del conglom erado, tan to m ayor es la razón de las variancias y p o r
consiguiente, ta n to m en o r la eficiencia relativa del diseño de con­
glom erados. E sto puede verse intuitivam ente. E n efecto, si u n
g rupo es p erfectam ente hom ogéneo, n o necesitam os m uchos ca­
sos p a ra o b ten er u n a estim ación p recisa de su m edia. P odría­
m os en tal caso to m a r u n a m u estra m uy pequeña del conglom e­
rado, d estin an d o el d in ero ahorrado al estu d io de conglom erados
adicionales. Son dos factores, pues, los que determ inan la efi­
ciencia relativ a del diseño de conglom erados, a sab er: el grado
de hom ogeneidad d en tro del conglom erado y el tam año del con­
glom erado m ism o. Deseam os seleccionar de los conglom erados
hom ogéneos sólo unos cuantos c a so s; si son heterogéneos, p o d e­
m os to m a r m ás casos de cada conglom erado, sin p erjuicio grave
de la eficiencia.
Como ya lo hem os indicado, la selección de conglom erados re­
su lta p o r lo reg u lar m ás económ ica que el m u estreo aleatorio.
Supóngase, p o r ejem plo, que se tra ta b a de o b ten er u n a m u estra
a escala nacional p a ra e stu d iar las p referencias electorales o las
tasas de fecundidad. E n p rim e r lugar, no se dispondrá de lista
alguna d e adultos, y el costo de confeccionar u n a re su ltaría p ro h i­
bitivo. E n cam bio, se dispone de listas de distritos. S erá cierta­
m en te m ucho m enos costoso ex traer u n a m u estra aleatoria (o
sistem ática o estratificad a) de los d istrito s y o p erar únicam ente
con los d istrito s efectivam ente seleccionados. Es probable que
incluso d en tro de cada d istrito u n a m u estra aleatoria n o sería
conveniente. Existe todavía o tro facto r de ah o rro m anifiesto.
S erá sin d u d a mucho' m enos costoso m a n d a r entrevistadores a 50
d istrito s, p o r ejem plo, que esparcirlos p o r todo el país. En una
m u estra sencilla aleatoria, tal vez sólo re su ltarían seleccionadas
10 p ersonas en el estad o de M ontana. Con el m u estreo p o r con­
glom erados, en cam bio, es posible p re p a ra r eficazm ente a en tre­
v istadores locales, y cada uno de ellos puede conseguir u n n ú ­
m ero relativ am en te grande de encuestas sin in c u rrir en gastos
ex o rb itan tes de viaje. Las m u estras de conglom erados efectuadas
a los niveles de los estados, los d istrito s o las ciudades reu n i­
rá n todos ellos las m ism as ventajas, aunque, sin duda, en m enor
grado.
Toda m u estra general co m porta cierto nú m ero de costos. Y
son éstos, y n o el núm ero de casos, los que ponen lím ites al es­
tudio. H ay ciertos costos fijos que son independientes del diseño
de m u estreo y del núm ero de los casos seleccionados. E n rela­
ción con n u estro s fines, éstos pueden ignorarse, ya que pueden
su straerse sim plem ente del to tal d e los fondos disponibles. Y
hay o tro s costos, luego, que re su lta n de la confección efectiva
de las listas d e unidades a seleccionar. Como acabam os d e ver,
el m u estreo p o r conglom erados reduce a m enudo estos últim os
costos considerablem ente. O tros costos, todavía, son directam en­
te p roporcionales al núm ero de casos definitivam ente seleccio­
nados. E l salario pagado al e n tre v ista d o r m ien tras h ab la al in­
terrogado, los costos de clasificación de los datos y ciertos costos
de cálculos, todos ellos corresponden a esta categoría.
O tros costos, en cam bio, serán proporcionales al núm ero de
conglom erados seleccionados. La m ayoría de los gastos de viaje,
incluidas las llam adas telefónicas, son de este tipo. R esultará
m ás económ ico m an d ar a u n individuo a u n determ in ad o d istrito
p o r varios días, y luego a otro , que hacerlo v ia ja r p o r todo el
estado, con el único resultado, acaso, de h a lla r que las personas
p o r in te rro g a r n o están e n casa la p rim era vez que las visita.
E n térm in o s generales, si los costos de viaje y dem ás que depen­
den del n ú m ero de los conglom erados seleccionados son m uy ele­
vados en com paración con los que varían directam en te con el
n úm ero de los casos, el m u estreo p o r conglom erados re su ltará
m ás económ ico que el sencillo aleatorio. Así, p o r ejem plo, en la
prospección d e u n área grande que com porte encuestas m uy
breves, el m u estreo p o r conglom erados puede1 re s u lta r indicado.
E n cam bio, si las encuestas d u ra n cada u n a v arias horas, la
m u estra sencilla aleatoria p o d rá ser m ás apropiada, a condición
que los costos de la confección de listas no sean prohibitivos.
Así, pues, al decidir el diseño a utilizar, h ay que sopesar las
consideraciones relativas a los costos con las relativas a la efi­
ciencia del diseño. Y h a b ría que servirse del m étodo que dé un
e rro r e s tá n d a r m en o r a u n costo determ inado. T oda vez que
no es necesario to m a r a cad a individuo d en tro d e los conglom e­
rados de la m uestra, el m u estreo de fase m ú ltip le p u ed e cons­
titu ir u n com prom iso aceptable. Tenem os entonces el problem a
com plicado de escoger u n diseño óptim o, en el que hem os de
decidir el n ú m ero de fases en las que el m u estreo vaya a ser
usado, el n ú m ero de conglom erados p o r u sa r y el núm ero de
casos p o r seleccionar d en tro d e cada conglom erado. El pro­
blem a se com plica adem ás p o r el hecho de que la m ayoría
de los estudios co m p o rtarán indudablem ente no u n a sola, sino
cierto n ú m e ro de variables, no siendo adem ás todos los conglo­
m erados del m ism o tam año. Con o b jeto de d e sc a rta r las dudas
al respecto, siem pre será p ru d e n te co n su ltar a u n esp ecialista en
m ateria de m u estreo an tes d e to m a r u n a decisión en cu an to al
diseño. E n efecto, cuando se llega al análisis de los datos, un
p lan eam ien to cuidadoso p u ed e tra d u c irse no sólo en costos m e­
nores, sino que puede re d u n d a r adem ás en u n nú m ero m en o r de
problem as.
A ntes d e te rm in a r esta sección de m u estreo p o r conglom era­
dos, conviene u n a vez m ás h ac er u n a advertencia. Las fórm ulas
expuestas en este texto n o pueden u tilizarse en el m u estreo por
conglom erados. Como y a se indicó, los e rro re s introducidos p o r el
hecho d e servirse de fórm ulas de m u estreo sencillo alea to rio en
relación con los datos reunidos de m u estras de conglom erados
p ueden re s u lta r m uy graves. E stos e rro res, en efecto, n o son del
o rd e n de m ag n itud de aquellos que se in tro d u cen sirviéndose
de la ta b la n o rm al, p o r ejem plo, en lu g ar de la ta b la t, sino que
pu ed en ser m ucho m ayores. E n lu g ar de ten er significancia al
nivel de .05, el v erd ad ero nivel (ob ten id o p o r las fórm ulas co­
rre c ta s de la selección d e conglom erados) puede llegar a .50
(véase [3 ]). Si deseam os d e sc a rta r la hipótesis nula, ra ra vez
nos en co n trarem o s del lado conservador, si es que llegam os a
alguna sirviéndonos de las fórm ulas d e m u e stra alea to ria con
dato s agrupados. Se re co rd a rá, adem ás, que los m u estreo s p o r
conglom erados son m enos eficientes que el m u estreo sencillo alea­
torio del m ism o tam año. P or consiguiente, las fórm ulas del m ues­
tre o sencillo aleatorio subestim arán los verdaderos e rro res e stán ­
d ar. O dicho en o tra fo rm a : u n a m u e stra de conglom erados de
u n tam añ o d eterm in ad o puede ser el equivalente, en térm in o s
de eficiencia, de u n a m u e stra sencilla alea to ria m ucho m enor. Así,
p o r ejem plo, u n a m u e stra de conglom erados de tam añ o 800 pue­
d e eq u iv aler en térm inos de eficiencia a u n m u estreo sencillo
aleato rio de 500. P or consiguiente, si se em plean las fó rm u las
del m u estreo sencillo aleatorio con u n a N de 800, tenem os m ás
pro b ab ilid ad es d e o b ten er significación que sirviéndonos de los
procedim ientos correctos.
Así, pues, hem os de p ro c ed er con la m ayor cautela al analizar
dato s p rovenientes d e m u estras p o r conglom erados. No debere­
m os servirnos de estadísticas tales com o la ^-cuadrada, a m enos
que el especialista en m a teria de m u estreo p u ed a ay u d am o s a
in tro d u c ir los factores de corrección apropiados. El p roblem a
no es ta n grave con las m u estras estra tific ad as debido, si m ás no,
a que las m u estras estratificad as son m ás eficientes que las sen­
cillas al azar. E n efecto, u n m u estreo estra tific ad o d e u n tam añ o
dad o p u ed e ig ualar en eficiencia u n a m u e stra aleato ria m ayor,
de m odo que el investigador se en c o n trará siem pre, con aquél, del
lado conservador en cu an to a d e sc a rta r la hipótesis nula. Con
todo, esto n o es siem pre así, de m odo que la cautela se im pone
en todos los casos.
V eam os a h o ra b revem ente algunas situaciones en las que se ha
em pleado el m u estreo sin prob ab ilid ad . El m ayor inconveniente
de ésta está en q u e no obtenem os con ella u n a estim ación vá­
lid a de n u estro s riesgos de erro r. P o r lo tan to , la inducción es­
tad ística n o e s tá legitim ada, y n o debería utilizarse. E sto no
significa, con todo, q u e el m u estreo sin pro b ab ilid ad n o resulte
ap ro p iad o alguna vez. E n efecto-, en los estudios de exploración,
cuyo p rin cip a l objetivo está en o b ten er nociones valiosas que
p u ed an llevarnos en ú ltim a in stan cia a hipótesis verificables, el
m u estreo d e p ro b ab ilid ad p u ed e o re s u lta r dem asiado caro o
co n d u cir a conocim ientos m ás lim itados. Así, p o r ejem plo, po­
dem os tal vez q u e re r in te rro g a r a p erso n as que estén en una
posición p a rtic u la rm e n te favorable p a ra p ro p o rcio n ar inform a­
ción. O podem os q u erer acaso in te rro g a r casos extrem os, sus­
ceptibles d e p ro c u ra m o s las diferencias m ás notables. Si hace­
m os esto, n o tenem os derecho legítim o alguno, p o r supuesto, a
v erificar la significancia d e las diferencias e n tre extrem os, a m e­
nos q ue tra te m o s d e generalizar a u n a población com puesta ex­
clusivam ente d e tales personas. El hecho de que conozcam os
in d u d ab lem en te estudios en los que se h a n efectu ad o pru eb as
estad ísticas d e casos extrem os d e e s ta clase, no- significa, con
todo, que el p ro ced im ien to sea legítim o. P ero n o p u e d e negarse,
sin em bargo, que pueden o b ten erse conocim ientos útiles a p a rtir
d e com paraciones de e sta clase.
Se em plean e n ocasiones los m étodos sin p ro b a b ilid ad cuando
el p ro p ó sito e s tá en fo rm u lar generalizaciones acerca de una
p oblación m u estread a. Tales m étodos se sirven invariablem ente
ya sea del c rite rio del e n tre v ista d o r en cuanto a los individuos a
incluir, o' p erm iten que u n individuo d e la m u estra se seleccione
a p a rte del e stu d io sobre alguna b ase n o fo rtu ita.
Los m u éstreo s d e cu o ta em pleados a m enudo en las encuestas
de la opinión p ú b lica parecen se r sim ilares, a p rim e ra vista, a
los m u éstreo s estratificados. Se d an al investigador d eterm in a­
das "cu o tas” q u e h a de llenar. H a d e te n e r ta n ta s o cuantas
m u je re s d e m ás d e 40 años, ta n ta s o cuantas p ersonas con un
in greso m en o r de $ 3 000, o c ie rto p o rc en taje d e católicos. Pero
se d eja a su discreción cuáles m u jere s de m ás d e c u a ren ta años
o cuáles católicos q uiera in terro g a r. Y com o q u iera que es h u ­
m ano, es p ro b a b le que seleccione aquellas p erso n as que le resu l­
te m ás cóm odo visitar. Si va a sus casas, p ro b a b le m en te sólo
seleccionará aquellas p erso n as q u e se en c u en tran e n ellas en
aquel m om ento. Incluso si se d a cu e n ta de sem ejan te tenden­
cia selectiva, le re su lta rá difícil co rreg irla adecuadam ente. Un
en tre v ista d o r su m am ente responsable p o d rá incluso sobreselec-
cio n ar acaso a p erso n as que r a r a vez se en c u en tran en la casa,
o a individuos de las clases inferiores, a los que los dem ás e n tre­
v istad o res p asa rán a m enudo p o r alto. Tal vez u n a p erso n a bien
e n tre n a d a llegue a hacerse m uy experta en el em pleo de su dis­
creción. P ero será difícil, p o r no decir im posible, saberlo. Y si
cu alq u ier g rupo sobreseleccionado o, respectivam ente, subselec-
cionado suele p re se n ta r diferencias pronunciadas con respecto
a otro s en relación con la variable o b jeto del estudio, el m ues­
treo p o d rá re su lta r gravem ente sesgado. Y lo que es peor, no
hay fo rm a de ap reciar exactam ente cuán sesgado pueda estar.
S iem pre que las listas sean incom pletas o que deba conside­
ra rse u n g ran p o rc en taje de personas com o no respondientes,
tenem os de hecho o tro ejem plo de m u estreo caren te d e p ro b a­
bilidad. Si en el caso de u n cuestionario rem itido p o r correo
recibim os u n 50 p o r ciento de respuestas, podem os acaso in tro ­
d u c ir sesgos graves, debido al hecho de que las personas que no
co n testa n pued en tal vez ser significativam ente diferentes de las
que devuelven el cuestionario. Así, pues, aunque inicialm ente
nos hayam os to m ado la p en a de o b ten er u n m u estreo de p ro b a­
bilidad, algunos individuos no ten d rá n en realid ad op o rtu n id ad
alg u n a de verse incluidos en la m u estra definitiva, p o rq u e se h an
d escartad o ellos m ism os negándose a co n testar. De ahí q u e sea
sum am ente im p o rtan te h ac er seguir u n cuestionario remitido^ p o r
correo de u n a o varias ta rje ta s postales, con o b jeto de o b ten er
u n p o rc en taje m ayor de respuestas. Y en fo rm a análoga, el en­
trev istad o r h a de a p re n d e r a in sistir y h a de e sp e ra r y h ac er va­
ria s llam adas p a ra conseguir u n nú m ero de respuestas suficiente.
E s obvio, p o r lo dem ás, que u n sesgo sustancial n o se d eja com ­
p en sa r p o r m edio d e u n a m u e stra m ayor.

XXI.6. E rrores no de m u e stre o y tam año d e la m uestra


Incluso si se h a p u esto el m ayor cuidado en concebir u n estu ­
dio que re ú n a todos los req u isito s de u n bu en m uestreo, siem pre
se ten d rán , con todo, algunos e rro res ajenos a ésta. La teo ría de
las p ro b ab ilid ad es nos p e rm ite ap re c ia r los riesgos d e erro res
de selección, o sea d e aquellos e rro re s introducidos en v irtu d del
hecho de que las m u estras varían de u n a a otra. Los e rro res no
de m uestreo , en cam bio, son e rro res d e m edición. E n efecto,
en un estudio1 que com porte u n a en tre v ista o u n cuestionario,
h a b rá siem p re e rro re s d e respuesta. E n algunos casos, tal como
en la edad de las personas, p o r ejem plo, p u ed e darse u n conjun­
to d e e rro res que conduzcan a u n sesgo* m anifiesto. E n otros
ejem plos, e n cam bio, los erro res de re sp u esta p o d rá n deberse
m ás o m enos al azar. Y los propios sesgos del en trev istad o r p u e­
d en a fe c ta r sus resultados.
E n este tex to no podem os e n tra r a estu d ia r detalladam ente las
olases de posibles e rro res no de m uestreo. V ale la pena, sin em ­
bargo, m en cio nar un pu n to sum am ente im p o rtan te. No se gana
n ad a en re d u cir los erro res d e m u estreo p o r debajo d e cierto ni­
vel, en com paración con los e rro re s no de m u estreo . Si estos dos
tipos de erro res pueden suponerse independientes uno de otro, la
situación se puede re p re se n ta r p o r m edio de u n diagram a, com o
el de la fig u ra X X I.l. El e rro r to ta l es así u n a función de dos

Error de muestreo

Error no de muestreo
Fig. X X I.l. Relación en tre el error total y tos errores de
m uestreo y no de m uestreo.

fuentes in dependientes de erro r, y no se puede re d u cir sustancial­


m ente, a m enos que se controlen sim ultáneam ente los dos tipos.
Si las equivocaciones ajenas al m uestreo, tales com o los erro res
de re sp u esta o de entrevista, son grandes, n o tiene objeto to m ar
una m u e stra grande con el p ro p ó sito de re d u cir el e rro r están d ar
de la estim ación, ya que el e rro r to ta l e sta rá d eterm in ad o en p ri­
m er térm in o p o r el largo d e la base del triángulo. Y en form a
análoga, si se desea h ac er todo lo posible p a ra re d u cir los erro res
no de m u estreo a u n m ínim o, se rá co n trap ro d u cen te servirse de
u n a m u e stra pequeña, con lo que se te n d rá u n e rro r m ayor
de m u estreo. D eberá, p o r consiguiente, m an ten e rse u n equilibrio
ap ro p iad o e n tre los erro res de m u estreo y los no de m uestreo. El
cuidado en la investigación lim ita el tam año efectivo d e la m ues­
tra y viceversa. P o r desgracia, los e rro res n o de m u estreo son
p o r ló re g u la r difíciles de apreciar. Sin em bargo, si los erro res
pueden se r apreciados, el diseño to tal m ás eficaz se rá aquel con
respecto al cual los dos lados del triángulo sean iguales. Conviene
ten er p re sen te este hecho.

Glosario
Muestreo por conglomerados
Fracción de m uestreo
Muestreo sencillo al azar
Muestreo estratificado
Muestreo sistemático

B ibliografía
1. Cochran, W. G., Sampling Techniques, John Wiley & Sons, Inc.,
Nueva York, 1953.
2. Hansen, M. H., W. N. Hurwitz y W. G. Madow, Sampie Survey
Methods and theory, vol. 1, John Wiley & Sons, Inc., Nueva York,
1953.
3. Kish, L., "Confidence Intervals for Clustered Samples”, American
Sociological Review, vol. XXII, pp. 154-165, abril de 1957.
4. Kish, L., "Selection of the Sampie”, en L. Festinger y D. Katz
(eds.), Research Methods in the Behaviorat Sciences, The Dryden
Press, Inc., Nueva York, 1953, cap. 5.
5. Kish, L .: Survey Sampling, John Wiley & Sons, Inc., Nueva York,
1965.
6. Lazerwitz, B em ard: “Sampling Theory and Procedures”, en H. M.
Blalock y Ann B. Blalock (ed.), Methodólogy in Social Research,
McGraw-Hill Book Company, Nueva York, 1968, cap. 8.
APÉNDICES
T o d a vez que la m ayoría d e los estudiantes h a b rá n olvidado m u­
cho de lo que ap ren d iero n en el álgebra elem ental, u n breve
resu m en de algunas de las operaciones algebraicas básicas les
re su lta rá sin du d a ú til. Algunas de estas reglas serán expuestas
m ás ad elan te en fo rm a m uy concisa. Si se necesita u n repaso m ás
extenso, d eb erá co n su ltarse un texto sobre álgebra.
Una de las cosas básicas que hay que re c o rd a r a propósito de
las operaciones aritm éticas y algebraicas es que el orden en que
dichas operaciones se efectúan reviste sum a im portancia. En
té rm in os generales, en p resencia de u n a expresión relativam ente
com plicada se o p era del in te rio r al exterior. C onvendrá re te n er
m ás o m enos las siguientes reglas.

1. D esarrollo de una sum a o una diferencia al cuadrado.

(a b )2 “ a2-f- 2ab -f- b2 o? + b2

(a — b )2 = a2— 2ab + fe2 ^ a2 — b2

Lo inverso se verifica al tra ta r con raíces cuadradas

\ / a 2 + la b + b2 = \ / ( a + b )2 — a + b

D efinitivam ente no es cierto que

■\ / a 2 + b2 = a + b

2. D ivisión entre una sum a o una diferencia. Aun siendo cierto


que
a+ b a b
c c c

n o podem os con todo sim plificar ta n fácilm ente las expresiones

a a
------ o ------
b+c b —c

A s í, p o r e j e m p l o : ------------ ¥ • --------1—
b+ c b c
3. D ivisión entre una fracción. Si el denom inador es él m ism o
una fracción, podem os p o n er el denom inador del denom inador
en el n u m era d o r com o sigue:

a c ac
b /c b b

a /b a d ad
Y en fo rm a a n á lo g a :
c /d b e be

c+d a (c + d )
— a-
b / ( c + d)

4. M ultiplicación de potencias. Si tenem os el p ro d u c to de un


núm ero elevado a la potencia a y el m ism o nú m ero a la potencia
b, podem os su m a r los exponentes. Así, p o r ejem plo :

X cX b = I« + íy X * x 2 = X»

P ero : + X» + y X* + X 2 = X ? (X + 1)

Y en fo rm a análoga, al dividir sustraem os los exponentes:

Xa X*
-------- = : X a -¡> y ---------- - X l - X
Xi y *2
E n p a rtic u la r:
Xa
■= = X o= 1
Xa

Así, pues, cu alquier n ú m ero real (excepto ce ro ) elevado a la p a ­


tencia 0 es igual a 1.
5. E xp o n en tes negativos. Un n ú m ero elevado a u n a potencia
negativa p u ed e escrib irse como' su nú m ero recíproco elevado a
la p o tencia positiva. P or e je m p lo :

1 1
X -« = ------ y X ~ 2= ■
Xa X2

6. Su p resión o adición de paréntesis. Aquí seguim os la regla


de pro ced er d e d en tro p a ra afuera. Un signo negativo antepuesto
a u n p arén tesis significa que cad a térm ino d en tro del p arén tesis
h a de cam b iar de signo al su p rim irse el paréntesis. O s e a :
a (b — c ) = ab — ac
y —[a — (& — c ) ] = —[a — b + c] = —a + b — c

y a — [& — (c — <2)2] = a — [fe — (c 2 — 2cd + d2)]


= a - Ib - c2 4- 2cd - d 2]
= a — b + c2 — 2 cd. + d2

Y en fo rm a análoga, hem os de cam b iar los signos de todas las


can tid ad es que in troduzcam os en u n p arén tesis si éste va prece­
dido del signo negativo. Así, p u e s :

a — b — c = a — (b + c)

y a — b + c — d = (a — b) + (c — d ) = —(& — a) — (d — c)

E m p leo de los signos de sum a total. En estad ística es necesario


con frecuencia servirse de fórm ulas que com portan sum as de
n u m ero sas cantidades. A título de sustituto- taquigráfico de la
p lena e sc ritu ra de cada u n a de dichas sum as nos servim os de
la le tra griega 2 (sigm a m ayúscula), que indica la sum a total.
A m an era de regla general, siem pre que dicho signo aparece sig­
n ifica que to d as las cantidades que figuran a su d erecha h an de
su m arse. E n lu g ar de servim os de letra s to talm en te d istin tas
p a ra cada u n a de las cantidades a su m a r ( v . g r a , b, c, d, e , f , . . . ) ,
p o r lo re g u lar hacem os uso de u n a sola le tra (generalm ente X,
Y o Z ), ju n to con u n subíndice i, j o k, que puede to m a r cualquier
valor num érico que deseem os. P or lo regular, aunque no siem ­
pre, la p rim e ra m a rc a se re p re se n ta rá p o r m edio del sím bolo X 1(
la segunda p o r X 2, y así sucesivam ente. Nos servim os, pues, de
2 com o sigue:

2 X i = X t + X 2 + X s + .. . + X N
i= i
Las notaciones a rrib a y abajo de la 2 se em plean p a ra indicar
que i tom a todos los valores sucesivos 1, 2, 3, e tc é te ra h asta N.
E n fo rm a análoga, podríam os esc rib ir:

2 X t = X3 ++ X s + X0+ X 7+ X 8
i= 3
E n este ú ltim o caso, los sím bolos nos indican que hem os de adi­
cionar las m arcas de las observaciones tres a ocho.
Si seguim os las reglas generales del álgebra, podem os d erivar
c iertas reglas que h an de aplicarse a las sum as totales. La m a­
y o ría d e estas reglas se en u n c ia rán con poca o nin g u n a explica­
ción, y a que re su lta n obviam ente de la definición de 2 y de re ­
glas m uy sencillas del álgebra.

1. 2 Xf = XS + x¿* + x!? + - ■■+ XJ


i= l

2. 2 X iY i = X 1Y 1 + X 2Y 2 + X 3Y 3 + • • • + X NY N
i—1

3. 2 (Xi + Yt) =.(x1+ y1) + (x,3+ ya) + - • ■+ (x, + y2,)


i—1
= (X j + x2+ • • • + X N)
+ (^1 + 3^2 + ‘ ' ' +
N 1/
= 2 Xi+ 2 Yi
i~l i—1
N ¿V y
2 ( * , - 7 , ) = S X¡ — 2 F j (véase 3)
<=i 1=1 i=l
ar N
2 ( X í + Y í ) ^ 2 w + 2 **7 * + *7 )
i=i í= i
N y jí
= 2 2 2 1 ¡ y ¡ + 2 Ti2
i=l i==l
N N
* 2 X f + 2 y 4a.
Í=1 i=»l
Not a: El fa c to r 2 puede po n erse delante del segundo térm ino, lo
N
que d a: 2 2 X tY 4 (véase 6).
6. Si k es u n a co n stan te:

2 k X i — kXx + k X 2 + ■ ■ ■+ kXjf
<=»i
= k ( X 1 + Xo + • • • + X N) = k 2 X¡
t= i
7. ( 2 X ¡)2 = (X j -(- X 2 + ■ ■ ■+ X¡f )2
.<=i
= X*2 + + • • • + Z v2 + 2 X xX 9
+ 2 X ^ 3 + • • • + 2XN_ 1X N
¥ ' X 12 + X 2z + • • • + X J

E n otro s té rm in o s : hem os d e d istin g u ir e n tre


N N
S li2 y (2 X»)2
t= i «=i

E n ocasiones p o d rá re su lta r asim ism o conveniente expresar


u n a sum a en térm inos de u n a doble sum a to tal sobre dos índices
i y /. Cada can tidad a su m ar puede escribirse con un doble SUb-
Ar M
índice (i/). La cantidad 2 2 X is significa que p rim ero suma-
i= l/= l
m os el segundo subíndice / de 1a M, y luego, de d en tro a fuer
sum am os i de 1 a N. Así, pues:
N M N
2 2 X ^ 2 + X i2 + X i3 + • • ■ + X iM)
i=l j= l i =1
= (-^n + x 12+ • • ■+ X 1M) + (X 21 + X ¡2 + • • •
+ X-2x) + ' ‘ + (X m + X S2 + ' ' ' + X NM).

Y en fo rm a análoga:

I (2 X 4,-)2 = 2 (X 41 + X i2 + • • • + X iM)2
<=i i i=i

Operaciones con núm eros m uy grandes o m uy pequeños. Al


o p erar con núm eros m uy grandes o m uy pequeños, sobre todo
al elevar al cu ad rad o o al ex traer la raíz cuadrada, re su lta a m e­
nudo conveniente servirse de las potencias d e 10. Toda vez que
101 = 10, 102 = 100, 103 = 1 000, etcétera, contando el nú m ero de
lugares ya sea a la d erecha o a la izquierda del decim al podem os
escrib ir cu alq uier cifra com o nú m ero e n tre 0 y 10 m ultiplicado
p o r u n a d eterm in ad a potencia de 10. Así, p o r ejem plo:

13 = 1.3(10) = 1.3 X 101


138 = 1.38(100) = 1.38 X 102
1 382 = 1.382( 1 000) = 1.382 X 103
Si querem os elevar al cuadrado la cantidad 1 382, te n d re m o s:

1 382a = (1.382 X 103)2 - X 3822 x 10e

= 1.9099 X 1 000 000 = 1 909 900

R esulta así m ucho m ás fácil colocar el p u n to decim al.


Al ex tra er la raíz cuadrada, lo m ás sencillo consiste en servir-
se de p o tencias pares de 10. T oda vez que y lÓ Ó = V Í 0 F = 10 y
\ /1 0 000 = V IO 4 = 102 = 100 y, en general,

^/ÍO 2k - io»

en tan to que

V 1 000 = V 103 = 10\/10 y V 10°000 = v i o 5= í o o v i o

vemos q ue re su lta siem pre posible sacar potencias p ares de diez


fu era del radical, en tan to que esto no es así con las potencias
im pares. P o r consiguiente, al ex tra er u n a raíz cuadrada, podem os
co n tar el número- d e pares de dígitos a d erecha o izquierda del
decim al y ex p resar la cantidad original com o nú m ero en tre 1 y
100 m u ltip licado p o r u n a potencia p a r d e 10.

13 = 1.3(10) = 1.3 X 101


138 = 1.38(100) = 1.38 x 10*
1 382 = 1.382(1 000) = 1.382 x 10^
1 382 461 = 1.382461 x 10»

1 3 = 1.3 x 1 0 -1
.13 = ——
10
1.3 1.3
loo =ToT=L3x I0^

'00M3 = w W = 1 3 x l ° - ‘
Número Cuadrado Raiz'Cuadrade Número Cuadrado RaíziCuadrada
1 1 1.0000 3l 9 61 5.5678
2 4 1.4142 32 10 24 5.6569
3 9 1.7321 33 10 89 5.7446
4 16 2.0000 34 1156 5.8310
5 25 2.2361 35 12 25 5.9161
6 36 2.4495 36 12 96 6.0000
7 49 2.6458 37 13 69 6.0828
8 64 2.8284 38 14 44 6.1644
9 81 3.0000 39 15 21 6.2450
10 100 3.1623 40 16 00 6.3246
U 121 3.3166 41 16 81 6.4031
12 144 3.4641 42 17 64 6.4807
13 169 3.6056 43 18 49 6.5574
14 196 3.7417 44 19 36 6.6332
15 2 25 3.8730 45 20 25 6.7082
16 2 56 4.0000 46 21 16 6.7823
17 2 89 4.1231 47 22 09 6.8557
18 3 24 4.2426 48 23 04 6.9282
19 3 61 4.3589 49 24 01 7.0000
20 4 00 4.4721 50 25 00 7.0711
21 4 41 4.5826 51 2601 7.1414
22 4 84 4.6904 52 27 04 7.2111
23 5 29 4.7958 53 2809 7.2801
24 5 76 4.8990 54 2916 7.3485
25 625 6.0000 55 3025 7.4162
26 676 5.0990 56 3136 7.4833
27 7 29 5.1962 57 32 49 7.5498
28 7 84 5.2915 58 33 64 7.6158
29 841 5.3852 59 34 81 7.6811
30 900 5.4772 60 3600 7.7460
F u e n t e : H. Sorenson, Statistics for Students Psychology and Education,
McGraw-Hill Book Company, Nueva York, 1936, cuadro 72, pp. 347-359, con
la amable autorización del autor.
Número Cuadrado Raíz Cuadrada Número Cuadrado Raíz Cuadrada
61 37 21 7.8102 101 102 01 10.0499
62 38 44 7.8740 102 1 04 04 10.0995
63 39 69 7.9373 103 1 0609 10.1483
C4 40 96 8.0000 104 10816 10.1980
65 42 25 8.0623 105 1 10 25 10.2470
66 43 56 8.1240 106 1 12 36 10.2956
67 44 89 8.1854 107 1 14 49 10.3441
68 46 24 8.2402 108 1 16 64 10.3923
69 47 61 8.3066 109 1 18 81 10.4403
70 49 00 8.3666 110 12100 10.4881
71 50 41 8.4261 111 123 21 10.5357
72 51 84 8.4853 112 125 44 10.5830
73 53 29 8.5440 113 127 69 10.6301
74 54 78 8.6023 114 129 96 10.8771
75 56 25 8.6603 115 132 25 10.7238
78 57 76 8.7178 118 134 58 10.7703
77 59 29 8.7750 117 136 89 10.8167
78 60 84 8.8318 118 139 24 10.8628
79 62 41 8.8882 119 141 61 10.9087
80 8400 8.9443 120 144 00 10.9545
81 65 81 9.0000 121 146 41 11.0000
82 87 24 9.0554 122 148 84 11.0454
83 88 89 9.1104 123 15129 11.0905
84 70 56 9.1652 124 153 78 11.1355
85 72 25 9.2195 125 156 25 11.1803
88 73 96 9.2736 128 158 78 11.2250
87 75 69 9.3274 127 16129 11.2694
88 77 44 9.3808 128 163 84 11.3137
89 79 21 9.4340 129 166 41 11.3578
90 8100 9.4868 130 169 00 11.4018
91 82 81 9.5394 131 17161 11.4455
92 84 64 9.5917 132 174 24 11.4891
93 88 49 9.6437 133 176 89 11.5326
94 8836 9.6954 134 179 56 11.5758
95 9025 9.7468 135 182 25 11.6190
S6 9216 9.7980 136 184 96 11.6619
97 94 09 9.8489 137 187 69 11.7047
98 96 04 9.8995 138 190 44 11.7473
99 9801 9.9499 139 193 21 11.7808
100 100 00 10.0000 140 19600 11.8322
úme Cuadrado Raíz Cuadrada Número Cuadrado Raíz Cuadrada
141 198 81 11.8743 181 3 27 61 13 4536
142 2 0164 11.9164 182 3 31 24 13.4907
tO fcO to to co to to to to

143 2 04 49 1i .9583 183 3 34 89 13.5277


144 2 07 36 12.0000 184 3 38 56 13.5647
145 2 10 25 12.0416 185 3 42 25 13.6015
146 2 13 16 12.0830 186 3 45 96 13.6382
147 2 16 09 12.1244 187 3 49 69 13.67-Í8
148 2 19 04 12.1655 188 3 53 44 13.7113
149 2 22 01 12:2066 189 3 57 21 13.7477
150 2 25 00 12.2474 190 36100 13.7840
151 2 28 01 12.2582 191 3 64 81 13.8203
M W SO W W W M W W W

152 2 3104 12 328S 192 3 68 64 13 8564


153 2 34 00 12.3693 193 372 49 13 8924
154 2 37 16 12.4097 194 3 76 36 13.9281
155 2 40 25 12.4499 195 3 80 25 13.9642
156 2 43 36 12.4900 196 3 84 16 14.0000
157 2 46 49 12.5300 197 3 88 09 14.0357
158 2 49 64 12.5693 193 3 92 04 14.0712
159 2 52 81 12.6095 199 3 9601 14.1067
160 2 56 00 12.6491 200 4 00 00 14.1421
161 2 59 21 12.6886 201 4 04 01 14.1774
to to to to ÍO

162 2 62 44 12.7279 202 4 0804 14.2127


163 2 65 69 12.7671 203 412 09 14.2478
164 2 68 96 12.8062 204 4 16 16 14.2829
1C5 2 72 25 12.8452 205 4 20 25 14.3178
166 2 75 56 12.8841 2Í)G 4 2436 14.3527
167 2 78 89 12.2228 207 4 28 49 14 3875
to to to to

168 2 $2 24 12.9615 208 4 32 64 14.4222


169 2 85 61 13.0000 209 4 36 81 14.4568
170 2 89 00 13.0384 210 4 41 00 14.4914
171 2 92 41 13.0767 211 4 45 21 14.5258
172 2 95 84 13.1149 212 4 49 44 14,5602
173 2 99 29 13.1529 213 4 53 69 14.5945
174 3 02 76 13.1909 214 4 57 96 14.6287
175 3 06 25 13.2288 215 4 62 25 14.6629
176 3 09 76 13.2665 216 4 66 56 14.6969
177 3 13 29 13.3041 217 4 70 89 14.7309
178 3 16 84 13.3417 218 4 75 24 14.7648
179 3 20 41 13.3791 219 4 79 61 14.7986
180 3 24 00 13.4164 220 48400 14.8324
Número Cuadrado RaíziCuadrada Número Cuadrado Raiz Cuadrada
221 4 88 41 14.8661 261 6 8121 16.1555
222 4 92 84 14.8997 262 6 86 44 16.1864
223 4 97 29 14.S332 263 69169 16.2173
224 5 01 76 14.9666 264 6 96 96 16.2481
225 5 06 25 15.0000 265 7 02 25 16.2783
220 510 76 15.0333 263 7 07 56 10.3095
227 515 29 15.0665 267 712 89 16.3401
228 519 84 15.0997 268 718 24 16.3707
229 5 24 41 15.1327 269 7 23 61 16.4012
230 5 29 00 15.1658 270 .7 29 00 16.4317
231 5 33 61 15.1987 271 7 34 41 16.4621
232 5 38 24 15.2315 272 7 39 84 16.4924
233 5 42 89 15.2643 273 7 45 29 16.5227
234 5 47 56 15.2971 274 7 5076 16.5529
235 5 52 25 15.3297 275 7 56 25 16.6831
236 5 56 96 15.3623 276 7 6176 16.6132
237 5 6169 15.3948 277 7 67 29 16.6433
238 5 66 44 15.4272 278 7 72 84 16.6733
230 6 71 21 15.4596 279 7 7841 16.7033
240 5 76 00 15.4919 280 7 84 00 16.7332
241 £80 81 15.5242 281 7 89 61 16.7631
242 5 85 64 15.5563 282 7 95 24 16.7929
243 5 90 49 15.5885 283 800 89 16.8226
244 595 36 15.6205 284 806 56 16.8523
245 60025 15.6525 285 812 25 16.8819
246 6 05 16 15.6844 286 81796 16.9115
247 61009 15.7162 287 8 23 69 16.9411
248 615 04 15.7480 288 8 29 44 16.9706
259 6 20 01 15.7797 289 83521 17.0000
250 6 2500 15.8114 290 8 4100 17.0294
251 6 3001 15.8430 291 846 81 17.0587
252 635 04 15.8745 292 852 64 17.0880
253 6 40 09 15.9060 293 8 5849 17 1172
254 6 45 16 15.9374 294 8 64 36 17.1464
255 650 25 15 9687 295 « 70 25 17.1756
256 665 36 16.0000 296 8 76 16 17.2047
257 6 60 49 16.0312 297 8 82 09 17.2337
258 6 65 64 16.0624 298 8 88 04 17.2627
259 6 70 81 16.0935 299 8 9401 17.2916
260 67600 16.1245 300 900 00 17.3205
Número Cuadrado Raíz Cuadrada Número Cuadrado Raíz Cuadrada
.01 9 06 01 17.3494 341 1162 81 18.4662
302 912 04 17.3781 342 1169 64 18.4932
303 91809 17.4069 343 11 76 49 13.5203
304 9 2416 17.4356 344 11S3 36 18.5472
305 9 30 25 17.4642 345 11 9025 18.5742
306 036 36 17.4929 346 11 97 16 18.6011
307 9 42 49 17,5214 347 12 04 09 18.6279
303 948 64 17.5499 348 12 11 04 18.6548
309 9 54 81 17.5784 349 12 18 01 18.6815
310 96100 17.6068 350 12 25 00 18.7083
311 9 6721 17.6352 351 12 32 01 18.7350
312 973 44 17.6635 352 12 39 04 18.7617
313 9 79 69 17.6918 353 12 46 09 18.7883
314 9 85 96 17.7200 354 12 5316 18.8149
31o 9 92 25 17.7482 355 12 C0 25 18.8414
310 9 98 56 17.7764 356 12 67 36 18.8680
317 100489 17.8045 357 12 74 49 18.8944
318 1011 24 17.8326 358 12 81 64 18.9209
319 IQ 17 61 17.8606 359 12 8881 18.9473
320 102400 17.8885 360 12 9600 18.9737
321 1030 41 17.9165 361 13 03 21 19.0000
322 1036 84 17.9444 362 13 10 44 19.0263
323 10 43 29 17.9722 363 13 17 69 19.0526
324 10 49 76 13.0000 364 13 24 96 19.0788
325 1056 25 18.0278 365 13 32 25 19.1050
326 10 62 76 18.0555 366 13 39 56 19.1311
327 10 69 29 18.0831 367 13 43 89 19.1572
323 10 75 84 18.1108 368 13 5424 19.1833
329 10 82 41 18.1384 369 13 61 61 19.2091
330 10 89 00 18.1659 370 13 69 00 19.2354
331 1095 61 18.1934 371 13 76 41 19.2614
332 1102 24 18.2209 372 13 83 84 19.2873
333 1108S9 18.2483 373 13 91 29 19.3132
334 11 15 56 18.2757 374 13 98 76 19.3391
335 1122 25 18.3030 375 14 05 25 19.3649
336 1128 96 18.3303 376 14 13 76 19.3907
337 11 35 69 18.3576 377 14 21 29 19.4165
338 11 42 44 18.3848 378 14 28 84 19.4422
339 1149 21 18.4120 379 14 36 41 19.4679
340 11 56 00 18.4391 380 14 44 00 19.4936
Número Cuadrado Raíz Cuadrada Número Cuadrado Raíz Cuadrada
381 14 51 61 19.5192 421 17 72 41 20.5183
382 14 59 24 19.5448 422 17 80 84 20,5426
383 1466 89 19.5704 423 17 89 29 20.5670
384 1474 56 19.5959 424 17 97 76 20.5913
385 14 82 25 19.6214 425 1806 25 20.6155
386 14 89 96 19.6469 426 18 14 76 20.6398
387 14 97 69 19.6723 427 1823 29 20.6640
388 15 05 44 19.6977 428 18 31 84 20.6882
389 15 13 21 19.7231 429 1840 41 20.7123
390 15 2100 19.7484 430 18 49 00 20.7364
391 15 28 81 19.7737 431 1857 61 20.7605
392 15 36 64 19.7990 432 186624 20.7846
393 15 44 49 19.8242 433 18 74 89 20.8087
394 15 52 36 19.8494 434 18 83 56 20.8327
395 15 60 25 19.8746 435 18 92 25 20.8567
396 15 6816 19 8987 436 19 00 96 20.8806
397 15 76 09 19.9249 437 19 09 69 20.9045
398 15 84 04 19.9499 438 1918 44 20.9284
399 15 92 01 19.9750 439 19 27 21 20.9523
400 16 00 00 20.0000 440 19 3600 20.9762
401 16 0801 20.0250 441 19 44 81 21.0000
402 16 16 04 20.0499 442 19 53 64 21.0238
403 16 2409 20.0749 443 19 62 49 21.0476
404 16 32 16 20.0998 444 19 71 36 21.0713
405 16 40 25 20.1246 445 19 80 25 21.0950
406 16 48 36 20.1494 446 19 89 16 21.1187
407 10 56 49 20.1742 447 19 98 09 21.1424
408 16 64 64 20.1990 448 20 07 04 21.1660
409 16 72 81 20.2237 449 20 16.01 21.1896
410 16 8100 20.2485 450 20 25 00 21.2132
411 16 8921 20.2731 451 203401 21.2368
412 1697 44 20.2978 452 20 43 04 21.2603
413 17 05 69 20.3224 453 20 52 09 21.2838
414 17 13 96 20.3470 454 20 6118 21.3073
415 17 22 25 20.3715 455 20 7025 21.3307
416 17 30 56 20.3961 456 20 79 36 21.3542
417 17 3889 20.4206 457 20 88 49 21.3776
418 17 47 24 20.4450 458 20 97 64 21.4009
419 17 55 61 20.4695 459 210681 21.4243
420 17 64 00 20.4939 460 2116 00 21.4476
Número Cuadrado RaizCuadrada Número Cuadrado RaizCuadrada
461 2125 21 21 4709 501 25 10 01 22.3830
462 213444 21 4942 502 25 20 04 22.4054
463 2143 69 21.6174 503 253009 22.4277
464 2152 96 21 5407 504 254016 22.4499
465 2162 25 21.5639 505 255025 22.4722
466 217156 21.5870 606 25 6036 22.4944
467 21 8089 21.6102 507 25 70 49 22.5167
468 219024 21.6333 508 25 80 64 22.5389
469 219961 21.6564 509 25 9081 22.5610
470 22 09 00 21 6795 510 260100 22.5832
471 22 1841 21 7025 511 261121 22.6053
472 22 27 84 21 7256 512 25 21 44 22.6274
473 22 37 29 21 7486 513 26 3169 22.6495
474 22 46 76 21 7715 514 264196 22.6716
475 22 56 25 21 7945 515 2652 25 22.6936
476 22 65 76 21.8174 516 22 62 56 22,7156
477 22 75 29 21.8403 51? 267289 22,7376
478 22 84 84 21.8632 518 268324 22.7596
479 2294 41 21 8861 519 26 9361 22.7816
480 23 0400 21.9089 520 270400 22.8035
481 2313 61 21.9317 521 2714 41 22.8254
482 23 23 24 21.9545 522 27 24 84 22:8473
483 23 3289 21.9773 523 27 35 29 22.8692
484 23 42 56 22.0000 524 27 4576 22.8910
485 23 52 25 22.0227 525 27 5625 22.9129
486 23 61 96 22.0454 526 27 6676 22.9347
487 23 71 69 22 0681 527 27 77 29 22.9565
488 23 8144 22.0007 528 27 87 84 22.9783
489 23 9121 22 1133 529 27 98 41 23.0000
490 24 0100 22.1359 530 2809 00 23.0217
491 24 10 81 22 1585 531 28 19 61 23.0434
492 24 20 64 22 1811 532 28 3024 23.0651
493 24 30 49 22.2036 533 28 40 89 23.0868
494 24 40 36 22.2201 534 28 5156 23.1084
495 24 50 25 22.2486 535 28 62 25 23.1301
496 24 60 16 22.2711 536 28 72 96 23.1517
497 24 70 09 22.2935 537 28 83 6ft 23.1733
498 24 80 04 22.3159 538 28 94 44 23.1948
499 24 90 01 22 3383 539 29 0521 23.2164
500 25 00 00 22.3607 510 29 1000 23.2379
Número Cuadrado Raíz Cuadrada Número Cuadrado Raíz Cuadrada
541 29 26 81 23.2594 581 33 75 61 24.1039
542 29 37 64 23.2809 582 33 87 24 24.1247
543 29 48 49 23.3024 583 33 98 89 24.1454
544 29 59 36 23.3238 684 34 10 56 24.1661
545 29 70 25 23.3452 585 34 22 25 24.1868
546 29 81 16 23.3666 586 34 33 96 24.2074
547 29 92 09 23.3880 587 34 45 69 24.2281
548 30 03 04 23.4094 588 34 57 44 24.2487
549 30 14 01 23 4307 589 34 69 21 24.2693
550 30 25 00 23.4521 690 34 8100 24.2399
651 30 36 01 23.4734 691 34 92 81 24.3105
552 30 47 04 23.4947 592 35 04 64 24.3311
553 30 58 09 23.5160 593 35 1649 24.3516
554 306916 23.5372 594 3528 36 24.3721
555 30 80 25 23.5584 695 35 40 25 24.3926
556 30 91 36 23.5797 596 35 52 16 24.4131
557 31 02 49 23.6008 597 35 64 09 24.4336
558 3113 64 23.6220 598 35 76 04 24.4540
559 31 24 81 23.6432 599 35 88 01 24.4745
660 313600 23.6643 600 36 00 00 24.4949
661 31 47 21 23.6854 601 36 12 01 24.5153
562 31 58 44 23.7065 602 36 24 04 24.5357
563 31 69 69 23.7276 603 36 36 09 24.5561
564 31 80 96 23.7487 604 36 48 16 24.5764
565 31 92 25 23.7697 605 36 60 25 24.5967
566 32 03 56 23.7908 606 36 72 36 24.6171
537 32 14 89 23.8118 607 36 84 49 24.6374
668 32 26 24 23.8328 608 36 9664 24.6577
669 32 37 61 23.8537 609 37 08 81 24.6779
670 32 49 00 23.8747 610 37 21 00 24.6982
671 32 60 41 23.8956 611 37 3321 24.7184
672 32 71 84 23.9165 612 37 45 44 24.7385
673 32 83 29 23.9374 613 37 57 69 24.7588
674 32 94 76 23.9583 614 37 69 96 24.7790
675 33 06 25 23.9792 615 37 82 25 24.7992
S76 33 17 76 24.0000 616 37 94 56 24.8193
577 33 29 29 24.0208 617 3806 89 24.8395
578 33 40 84 24.0416 618 38 19 24 24.8596
579 33 52 41 24.0624 619 38 31 61 24.8797
580 33 64 00 24.0832 620 38 44 00 24.8998
lúmei Cuadrado Raíz Cuadrada Número Cuadrado RaízCuadrada
621 38 56 41 24.9199 661 43 69 21 25.7099
622 38 68 84 24.9399 662 43 82 44 25.7294
623 38 8129 24.9600 663 43 95 69 25.7488
624 38 93 76 24.9800 664 44 08 96 25.7682
625 39 06 25 25.0000 665 44 22 25 25.7876
626 39 1876 25.0200 666 44 35 56 25.8070
627 39 31 29 25.0400 667 44 48 89 25.8263
628 39 43 84 25.0599 668 44 62 24 25.8457
629 39 56 41 25.0799 669 44 75 61 25.8650
630 39 69 00 25.0998 670 44 89 00 25.8844
631 39 81 61 25.1197 671 45 02 41 25.9037
632 39 94 24 25.1396 672 4515 84 25.9230
633 4006 89 25.1595 673 4529 29 25 9422
634 4019 56 25.1794 674 45 42 76 25.9615
635 40 32 25 25.1992 675 45 56 25 25.9808
636 4044 96 25.2190 676 45 69 76 26.0000
637 4057 69 25.2389 677 45 83 29 26 0192
638 40 70 44 25.2587 678 45 96 84 26.0384
639 40 83 21 25.2784 679 46 10 41 26.0576
640 40 96 00 25.2982 680 4624 00 26.0768
641 41 08 81 25.3180 681 46 37 61 26.0960
642 4121 64 25.3377 682 46 51 24 26 1151
643 4134 49 25.3574 683 46 64 89 26.1343
644 41 47 36 25.3772 684 46 78 56 26 1534
645 416025 25.3969 685 46 92 25 26.1725
646 41 73 16 25.4165 686 47 05 96 26 1916
647 41 86 09 25.4362 687 47 19 69 26.2107
648 41 99 04 25.4558 688 47 33 44 26.2298
649 42 12 01 25.4755 689 47 47 21 26.2488
650 42 25 00 25.4951 690 47 6100 26.2679
651 423801 25.5147 691 47 74 81 26.2869
652 42 51 04 25.5343 692 47 88 64 26.3059
653 42 64 09 25.5539 693 48 02 49 26.3249
654 42 77 16 25.5734 694 48 16 36 26.3439
42 90 25 25.5930 695 48 30 25 26.3629
43 03 36 25.6125 693 48 44 16 26.3818
43 16 49 25.0320 697 48 58 09 26.4008
4329 64 25.6515 698 48 72 01 26 4197
43 42 81 25.6710 699 48 88 01 26 4386
43 56 00 25.6905 700 49 00 00 26 4575
Número Cuadrado RaizCuadrada Número Cuadrado RaizCuadrada
701 49 14 01 28.4764 741 54 90 81 27.2213
702 49 2804 26.4953 743 55 05 64 27.2397
703 49 42 09 26.5141 743 55 20 49 27.2580
704 49 56 16 26.5330 744 55 35 36 27.2764
705 49 70 25 26.5518 745 55 50 25 27.2947
706 49 84 36 26.5707 746 55 65 16 27.3130
707 49 98 49 26.5895 747 55 80 09 27.3313
708 50 12 64 26.6083 748 65 95 04 27.3496
700 50 26 81 26.6271 749 56 1001 27.3679
710 50 4100 26.6458 750 56 25 00 27.3861
711 5055 21 26.6646 751 56 40 01 27.4044
712 5069 44 26.6833 752 56 55 04 27.4226
713 5083 69 26.7021 753 56 70 09 27.4408
714 60 97 96 26.7208 754 66 85 16 27.4591
715 5112 25 26.7395 755 57 00 25 27.4773
716 61 2656 26.7582 756 57 15 36 27.4955
717 51 40 89 26.7769 757 57 30 49 27.5136
718 51 55 24 26.7955 758 57 45 64 27.5318
719 51 69 61 26.8142 759 57 60 81 27.5500
720 518400 26.8328 760 57 76 00 27.5681
721 51 98 41 26.8514 761 57 91 21 27.5862
722 52 12 84 26.8701 762 58 06 44 27.6043
723 62 27 29 26.8887 763 58 21 69 27.6225
724 62 4176 26.9072 764 58 36 96 27.6405
725 62 56 25 26.9258 765 58 52 25 27.6586
726 52 70 76 26.9444 766 68 67 66 27.6767
727 62 85 29 26.9629 767 58 82 89 27.6948
728 5299 84 26.9815 768 58 98 24 27.7128
729 53 14 41 27.0000 769 59 13 61 27.7308
730 53 2900 27.0185 770 59 29 00 27.7489
731 53 43 61 27.0370 771 59 44 41 27.7669
732 63 58 24 27.0555 772 59 59 84 27.7849
733 53 72 89 27.0740 773 59 75 29 27,8029
734 53 87 56 27.0924 774 59 90 76 27.8209
735 54 02 25 27.1109 775 60 06 25 27.8388
736 54 16 96 27.1293 776 60 21 76 27.8568
737 54 31 69 27.1477 777 60 37 29 27.8747
73S 54 46 44 27.1662 778 60 52 84 27.8927
739 54 61 27 27.1846 779 60 68 41 27.9106
740 54 7600 27.2029 780 60 84 00 27.9285
Número Cuadrado RaízCuadrada Número Cuadrado RaízCuadrada
781 60 99 61 27.9464 821 67 40 41 28.6531
782 61 15 24 27.9643 822 67 56 84 28.6705
783 61 30 89 27.9821 823 67 73 29 28.6880
784 61 46 56 28.0000 824 67 89 76 28.7054
785 61 62 25 28.0179 825 68 06 25 28.7228
780 61 77 96 28.0357 826 68 22 76 28.7402
787 61 93 09 28.0535 827 68 39 29 28.7576
788 62 09 44 28.0713 828 68 55 84 28.7750
789 62 25 21 28.0891 829 68 72 41 28.7924
790 62 41 00 28.1069 830 68 89 00 28.8097
791 62 56 81 28.1247 831 69 05 61 28.8271
792 62 72 64 28.1425 832 69 22 24 28.8444
793 62 88 49 28.1603 833 69 38 89 28.8617
794 63 01 36 28.1780 834 69 55 56 28.8791
795 63 20 25 28.1957 835 69 72.25 28 8964
796 63 30 16 28.2135 836 69 88 96 28.9137
797 63 52 09 28.2312 837 70 05 69 28.9310
798 63 6804 28.2489 838 70 22 44 28.9482
799 63 84 01 28.2666 839 70 39 21 28.9655
800 64 00 00 28.2843 840 7056 00 28.9828
801 64 1601 28.3019 841 707281 29.0000
802 64 32 04 28.3196 842 70 89 64 29.0172
803 64 4809 28.3373 843 71 06 49 29.0345
804 64 04 16 28.3549 844 71 23 36 29.0517
805 64 80 25 28.3725 845 71 40 25 29.0689
800 64 96 36 28.3901 846 71 57 16 29.0861
807 65 12 49 28.4077 847 71 74 09 29.1033
808 65 28 64 28.4253 848 71 91 04 29.1204
809 05 44 81 28.4429 849 72 08 01 29.1376
810 65 61 00 28.4G05 850 72 25 00 29.1548
811 65 77 21 28.4781 851 72 42 01 291719
812 65 93 44 28.4956 852 72 59 04 29.1890
813 66 09 69 28 5132 853 72 76 09 29.2062
814 66 25 96 28.5307 854 72 93 16 29.2233
815 06 42 25 28 5482 855 73 10 25 29 2404
816 66 58 56 28.5657 S50 73 27 36 29 2575
817 66 74 89 28.5832 857 73 44 49 29.2746
818 66 91 24 28.6007 858 73 61 64 29.2916
819 67 07 61 28.6082 859 73 78 81 29.3087
820 67 24 00 28.6356 860 73 96 00 29.3258
Número Cuadrado RaizCuadrada Número Cuadrado RaizCuadrada.
861 7413 21 29.3428 901 811801 30.0167
862 74 3044 29.3598 902 813604 30.0333
863 744769 29.3769 903 815409 30.0500
864 74 6496 29.3939 904 817216 30.0666
865 7482 25 29.4109 905 819025 30.0832
866 74 99 56 29.4279 906 820836 30.0993
867 7516 89 29.4449 907 82 2649 30.1164
868 75 34 24 29.4618 908 824464 30.1330
869 75 5161 29.4788 909 82 6281 30.1496
870 75 69 00 29.4958 910 828100 30.1662
871 758641 29.5127 911 829921 30.1828
872 760384 29.5296 912 831744 30.1993
873 762129 29.5466 913 8335 69 30.2159
874 763876 29.5635 914 835396 30.2324
875 765625 29.5804 915 83 72 25 30.2490
876 76 73 76 29.5973 916 83 9056 30.2655
877 76 9129 29.6142 917 840889 30.2820
878 770884 29.6311 918 842724 30.2985
879 772641 29.6479 919 84 45 61 30.3160
880 774400 29.6648 920 84 6400 30.3315
881 77 6161 29.6816 921 84 82 41 30.3480
882 77 7924 29.6985 922 85 00 84 30.3645
883 77 96 89 29.7153 923 851929 30.3809
884 7814 56 29.7321 924 85 37 76 30.3974
885 7832 25 29.7489 925 855625 30.4138
886 7849 96 29.7658 926 85 74 76 30.4302
887 786769 29.7825 927 85 93 29 30.4467
888 78 85 44 29.7993 928 861184 30.4331
889 790321 29.8161 929 8630 41 30.4795
890 792100 29.8329 930 86 49 00 30.4959
891 79 3881 29.8496 931 866761 30.5123
892 79 56 64 29.8664 932 868624 30.5287
893 79 74 49 29.8831 933 87 04 89 30.5450
894 79 92 36 29.8998 934 87 2356 30.5614
895 801025 29.9166 935 8742 25 30.5778
890 802816 29.9333 936 87 6096 30.5941
897 8046 09 29.9500 937 8779 69 30.6105
898 80 64 04 29.9666 938 87 9844 30.6268
899 80 82 01 29.9833 939 881721 30. (5431
900 8100 00 30.0000 940 883600 30.6594
C uadro A [ conclusión ]

Número Cuadrado RaizCuadrada Número Cuadrado Rafe Cuadrada


941 88 54 81 30.6757 971 94 28 41 31.1609
942 88 73 64 30.6920 972 94 47 84 31.1769
943 88 92 49 30.7083 973 94 67 29 31.1929
VTB
f%AA 89 11 36 30.7246 974 94 8676 31.2090
945 89 3025 30.7409 976 9506 25 31.2250
946 89 4916 30.7571 976 95 25 76 8JL.2410
947 89 6809 30.7734 977 96 45 29 31.2570
948 89 8704 30.7896 978 9564 84 31.2730
949 90 06 01 30.8058 979 95 84 41 31.2890
960 902500 30.8221 980 9604 00 31.3050
961 9044 01 30.8383 981 96 23 61 31.3209
962 90 63 04 30.8545 982 96 43 24 31.3369
963 90 82 09 30.8707 983 96 62 89 31.3528
954 910116 30.8869 984 96 82 56 31.3688
956 9120 25 30.9031 985 97 02 25 31.3847
950 91 39 36 30.9192 986 97 21 96 31.4006
957 91 5849 30.9354 987 97 41 69 31.4166
958 91 77 64 30.9516 988 97 61 44 31.4325
959 91 96 81 30.9677 989 97 81 21 31.4484
960 92 16 00 30.9839 990 98 0100 31.4643
961 92 35 21 31.0000 991 98 20 81 31.4802
962 92 54 44 31.0161 992 98 40 64 31.4960
963 92 73 69 31.0322 993 98 60 49 31.5119
964 92 92 96 31.0483 994 98 80 36 31.5278
965 93 12 25 31.0644 995 99 00 25 31.5436
966 93 31 56 31.0805 996 99 20 16 31.5595
967 93 50 89 31.0966 997 99 40 09 31.5753
968 93 70 24 31.1127 998 99 60 04 31.5911
969 93 89 61 31.1288 999 99 80 01 31.6070
970 94 09 00 31.1448 1000 100 00 00 31.6228
10 09 73 25 33 76 52 01 86 34 67 35 48 76 80 95 00 91 17 39 29 27 49 45
37 54 20 48 05 64 89 47 42 96 24 80 52 40 37 20 63 61 04 02 00 82 29 16 65
08 42 26 89 53 19 64 50 93 03 23 20 90 25 60 15 95 33 47 64 35 08 03 3606
99 01 90 25 29 09 37 67 07 15 38 31 13 11 65 88 67 67 43 97 04 43 62 76 59
12 80 79 99 70 80 15 73 61 47 64 03 23 66 53 98 95 11 68 77 12 17 17 68 33
€6 06 57 47 17 34 07 27 68 50 36 69 73 61 70 65 81 33 98 85 11 19 92 91 70
31 06 01 08 05 45 57 18 24 06 35 30 34 26 14 86 79 90 74 39 23 40 30 97 32
85 26 97 76 02 02 05 16 53 92 68 66 57 48 18 73 05 38 52 47 18 62 38 85 79
63 57 33 21 35 05 32 54 70 48 90 55 35 75 48 28 46 82 87 09 83 49 12 56 24
73 79 64 57 53 03 52 96 47 78 35 80 83 42 82 60 93 52 03 44 35 27 38 84 35
98 52 01 77 67 14 90 56 86 07 22 10 94 05 58 60 97 09 34 33 50 50 07 39 98
11 80 50 54 31 39 80 82 77 32 50 72 56 82 48 29 40 52 42 01 52 77 56 78 51
83 45 29 96 34 06 28 89 80 83 13 74 67 00 78 18 47 54 06 10 68 71 17 78 17
88 @8 54 02 00 86 50 75 84 01 36 76 66 79 51 90 36 47 64 93 29 60 91 10 62
99 59 46 73 48 87 51 76 49 69 91 82 60 89 28 93 78 56 13 68 23 47 83 41 13
65 48 11 76 74 17 46 85 09 50 58 04 77 69 74 73 03 95 71 86 40 21 81 65 44
80 12 43 56 35 17 72 70 80 15 45 31 82 23 74 21 11 57 82 53 14 38 55 37 63
74 35 09 98 17 77 40 27 72 14 43 23 60 02 10 45 52 16 42 37 96 28 60 26 55
69 91 62 68 03 66 25 22 91 48 36 93 68 72 03 76 62 11 39 90 94 40 05 64 18
09 89 32 05 05 14 22 56 85 14 45 42 75 67 88 96 29 77 88 22 54 38 21 45 98
91 49 91 45 23 63 47 92 76 86 46 16 28 35 54 84 75 08 99 23 37 08 92 00 4S
80 33 69 45 98 26 94 03 68 58 70 29 73 41 35 53 14 03 33 40 42 05 08 23 41
44 10 48 19 49 85 15 74 79 54 32 97 92 65 75 57 60 04 08 81 22 22 20 64 13
12 55 07 37 42 11 10 00 20 40 12 86 07 46 97 96 64 48 94 39 28 70 72 58 15
63 60 64 93 29 16 50 53 44 84 40 21 95 25 63 43 65 17 70 82 07 20 73 17 90
61 19 69 04 46 26 45 74 77 74 51 92 43 37 29 65 39 45 95 93 42 58 26 05 27
15 47 44 52 66 95 27 07 99 53 59 36 78 38 48 82 39 61 01 18 33 21 15 94 66
94 55 72 85 73 67 89 75 43 87 54 62 24 44 31 91 19 04 25 92 92 92 74 59 73
42 48 11 62 13 97 34 40 87 21 16 86 84 87 67 03 07 11 20 59 25 70 14 66 70
23 52 37 83 17 73 20 88 98 37 68 93 59 14 16 26 25 22 96 63 05 52 28 25 62
04 49 35 24 94 75 24 63 38 24 45 86 25 10 25 61 96 27 93 35 65 33 71 24 72
00 54 99 76 54 64 05 18 81 59 96 11 96 38 96 54 69 28 23 91 23 28 72 95 29
35 96 31 53 07 26 89 80 93 54 33 35 13 54 62 77 97 45 00 24 90 10 33 93 33
59 80 80 83 91 45 42 72 68 42 83 60 94 97 00 13 02 12 48 92 78 56 52 01 06
46 05 88 52 36 01 39 09 22 86 77 28 14 40 77 93 91 08 36 47 70 61 74 29 41
32 17 90 05 97 87 37 92 52 41 05 56 70 70 07 86 74 31 71 57 85 39 41 18 33
69 23 46 14 06 20 11 74 52 04 15 95 66 00 00 18 74 39 24 23 97 11 89 63 38
19 56 54 14 30 01 75 87 53 79 40 41 92 15 85 66 67 43 68 06 84 96 28 52 07
45 15 51 49 38 19 47 60 72 46 43 66 79 45 43 59 04 79 00 33 20 82 66 95 41
94 86 43 19 94 36 16 81 08 51 34 88 88 15 53 01 54 03 54 56 05 01 45 11 76
F u e n t e : The Rand Corporation, A Million Random Digits, Free Press,
Glencoe, 111., 1955, pp. 1-3, con la amable autorización del editor.
98 08 62 48 26 45 24 02 84 04 44 99 90 88 96 39 09 47 34 07 35 44 13 18 80
33 18 51 62 32 41 94 15 09 49 89 43 54 85 81 83 69 54 19 94 37 54 87 30 43
80 95 10 04 06 96 38 27 07 74 20 15 12 33 87 25 01 62 52 98 94 62 46 11 71
79 75 24 91 40 71 96 12 82 96 69 88 10 25 91 74 85 22 05 39 00 38 75 95 79
18 63 33 25 37 98 14 50 65 71 31 01 02 43 74 05 45 56 14 27 77 93 89 19 33
74 02 94 39 02 77 65 73 22 70 97 79 01 71 19 62 52 75 80 21 80 81 45 17 48
64 17 84 56 11 80 99 33 71 43 05 33 51 29 69 66 12 71 92 55 36 04 09 03 24
11 66 44 98 83 62 07 98 48 27 59 38 17 15 39 09 97 33 34 40 88 46 12 33 56
48 32 47 79 28 31 24 96 47 10 02 29 53 68 70 32 30 75 75 46 15 02 00 99 94
69 07 49 41 38 87 63 79 19 73 35 58 40 44 01 10 51 82 16 15 01 84 87 69 38
09 18 82 00 97 32 82 53 95 27 04 22 08 63 04 83 38 «8 73 74 64 27 85 80 44
90 04 58 54 97 51 98 15 06 54 94 93 88 19 97 91 87 07 61 50 68 47 66 46 69
73 18 95 02 07 47 67 72 52 69 62 29 06 44 64 27 12 46 70 13 41 36 18 27 60
75 76 87 64 90 20 97 18 17 49 90 42 91 22 72 95 37 50 58 71 -93 82 34 31 78
54 01 64 40 56 66 28 13 10 03 00 68 22 73 98 20 71 46 32 95 07 70 61 78 13
08 35 86 99 10 78 54 24 27 85 13 66 15 88 73 04 61 89 75 63 31 22 30 84 20
28 30 60 32 64 81 33 31 05 91 40 51 00 78 93 32 60 46 04 75 94 11 90 18 40
63 84 08 62 33 81 59 41 36 28 51 21 69 02 90 28 46 66 87 95 77 76 22 07 91
91 75 75 37 41 61 61 36 22 69 50 23 39 02 12 55 78 17 66 .14 83 48 34 70 55
89 41 69 26 94 00 39 75 83 91 12 60 71 76 46 48 94 97 23 06 94 64 13 74 08
77 51 30 38 20 86 83 42 99 01 68 41 48 27 74 61 00 81 39 0) 72 89 35 56 07
19 60 23 71 74 69 97 92 02 88 65 21 02 97 73 74 28 77 52 51 65 34 43 74 15
21 81 85 93 13 93 27 88 17 67 05 68 67 31 66 07 08 28 60 46 31 85 33 84 52
61 47 46 64 99 68 10 72 36 21 94 04 99 13 46 42 83 60 91 91 08 00 74 64 40
99 65 96 83 31 62 53 52 41 70 69 77 71 23 30 74 81 97 81 42 43 86 07 28 34
33 71 34 80 07 93 68 47 28 69 51 92 66 47 21 68 30 32 98 22 «3 17 49 39 72
85 27 48 68 93 11 30 32 92 70 28 83 43 41 37 73 51 59 04 00 71 14 84 36 43
84 13 38 96 40 44 03 65 21 66 73 85 27 00 91 61 22 26 05 61 62 32 71 84 23
56 73 21 62 34 17 39 59 61 31 10 12 39 13 22 86 49 65 75 60 81 60 41 88 80
65 13 85 68 06 87 64 83 62 61 34 31 38 68 61 46 87 62 10 69 86 64 44 72 77
38 00 10 21 76 81 71 91 17 11 71 60 29 29 37 74 21 06 40 49 65 68 44 96 98
37 40 29 63 97 01 30 47 75 86 66 27 11 00 86 47 32 46 26 06 40 03 03 74 38
97 12 54 03 48 87 08 33 14 17 21 81 63 92 60 75 23 76 20 47 16 60 12 95 78
21 82 64 11 34 47 14 33 40 72 64 63 88 69 02 49 13 90 64 41 03 85 66 45 52
73 13 64 27 42 95 71 90 90 35 86 79 47 42 88 08 78 98 81 66 64 39 11 92 02
07 63 87 79 29 03 06 U 80 72 96 20 74 41 53 23 82 19 96 38 04 71 38 69 94
60 52 88 34 41 07 95 41 98 14 59 17 52 08 95 05 53 35 21 39 61 21 20 64 55
83 59 63 56 55 06 95 89 29 83 05 12 80 97 19 77 43 35 37 83 92 30 15 04 98
10 85 06 27 46 99 59 91 05 07 13 49 90 63 19 63 07 57 18 39 06 41 01 93 62
39 82 09 89 62 43 «2 26 31 47 64 42 18 08 14 43 80 00 93 61 31 02 47 31 67
CUADROS
C uadro B [ continuación ]

59 68 00 04 78 75 66 87 88 00 88 33 5S 44 86 23 76 SO 61 50 04 11 10 84 08
33 50 80 73 41 23 79 34 87 63 CO 82 29 70 22 17 71 90 42 07 96 95 44 99 53
30 69 27 06 63 94 68 81 61 37 56 19 68 00 91 82 06 70 34 00 06 46 26 92 00
85 44 39 66 69 18 28 83 74 37 48 83 22 40 41 08 33 70 66 70 96 29 99 08 36
27 20 76 02 84 13 19 27 22 94 07 47 74 40 08 en9 11
17 98 64 9 97 34 13 03 68
©1 30 70 68 Oí 19 07 32 42 10 38 69 95 37 28 28 82 53 67 93 28 97 66 62 52
m 43 49 46 88 84 47 31 80 22 62 12 69 84 08 12 84 38 26 90 09 81 69 31 46
48 SO 81 58 77 64 74 62 45 Si 35 70 00 47 54 83 82 45 26 92 64 13 05 61 60
06 91 34 61 97 42 67 27 80 01 11 88 30 95 23 63 01 19 89 01 14 97 44 03 44
10 46 61 60 19 14 21 03 37 12 Si 34 23 78 21 83 32 68 08 51 43 66 77 08 83
12 88 39 73 43 65 02 70 11 84 04 23 60 13 92 17 97 41 60 77 90 71 22 67 69
21 77 83 09 76 38 80 73 69 61 31 64 94 20 93 63 28 10 20 23 03 81 64 74 49
19 52 35 95 15 65 12 25 96 59 83 28 36 82 58 09 67 21 37 98 16 43 59 16 29
67 24 66 26 70 35 58 31 65 63 79 24 68 68 86 76 46 33 42 22 26 66 69 08 02
60 68 44 73 77 07 60 03 79 92 45 13 43 68 29 26 76 08 86 37 41 32 64 43 44

68 86 34 13 77 36 00 69 48 60 68 83 87 38 69 49 36 47 33 81 96 24 04 36 42
24 63 73 87 36 74 38 48 03 42 62 62 30 79 92 12 30 91 86 01 03 74 28 38 73
83 08 01 24 51 38 99 22 28 16 07 78 96 17 77 97 37 72 75 85 61 97 23 78 67
16 44 42 43 34 36 16 10 90 73 27 49 37 09 39 85 13 03 26 62 64 84 66 47 69
00 79 01 81 67 67 17 86 57 02 11 16 17 86 76 45 81 96 29 79 66 13 00 48 60
03 99 11 04 61 93 71 61 68 94 66 08 32 46 63 84 60 05 82 32 88 61 81 91 61
38 65 59 55 64 32 88 05 97 80 08 36 66 08 60 29 73 54 77 62 71 29 92 38 63
17 54 07 37 04 92 05 24 02 16 55 12 12 92 81 69 07 60 79 36 27 95 46 89 09
32 64 35 23 61 96 81 90 68 31 00 91 19 89 36 76 35 69 37 79 80 86 30 05 14
69 67 26 87 77 39 61 03 69 06 14 06 04 08 19 29 64 96 96 16 33 66 46 07 80
24 12 26 66 91 27 09 90 04 94 14 84 64 66 72 01 96 87 71 00 90 89 97 67 64
61 19 63 02 31 92 90 20 17 73 41 83 95 63 82 17 26 77 09 43 78 03 87 02 67
30 63 22 17 04 10 27 41 22 02 39 68 62 33 09 10 06 10 88 29 66 98 66 64 86
03 78 89 75 99 76 80 72 07 17 74 41 66 31 66 36 20 83 33 74 87 63 90 88 23
48 22 86 33 70 85 78 34 70 19 63 16 26 74 33 35 66 36 29 72 16 81 86 03 11
60 36 69 40 63 36 07 63 30 40 42 61 42 92 07 01 91 82 83 16 98 95 37 32 31
83 79 94 24 02 60 62 33 44 42 34 99 44 13 74 70 07 11 47 36 09 95 81 80 66
32 96 00 74 06 30 40 98 32 32 09 38 64 16 00 U 13 30 76 86 16 91 70 62 63
10 32 25 38 45 67 02 «6 26 06 66 49 76 86 46 78 13 m 66 69 19 64 09 94 13
ti 22 09 47 47 07 39 03 74 08 4$ 60 92 39 29 27 48 24 64 76 86 24 43 61 69
31 76 !S 72 00 08 08 00 63 39 16 47 04 83 66 88 66 12 26 96 03 15 21 92 21
88 49 20 93 82 14 46 40 46 04 20 09 49 89 77 74 84 39 34 13 22 10 97 85 08
30 03 44 77 44 07 48 18 38 28 73 78 80 65 33 28 69 78 04 05 94 20 62 03 80
22 38 84 88 m 27 49 00 87 48 60 63 04 61 28 74 02 28 46 17 82 03 71 02 68
78 21 21 09 03 36 00 20 13 86 44 37 21 64 89 66 74 11 40 14 87 48 13 72 20
41 84 1)8 45 47 48 85 05 23 26 34 67 75 83 00 74 91 06 43 45 19 32 58 15 49
40 35 23 30 49 69 24 89 34 60 45 30 50 75 21 61 31 83 18 55 14 41 37 09 51
i i 08 79 62 94 14 01 33 17 92 59 74 76 72 77 76 50 33 45 13 39 66 37 75 44
62 70 10 83 37 56 30 38 73 15 56 52 06 06 76 11 65 49 98 93 02 18 16 81 61
£7 27 53 68 93 81 30 44 85 85 68 65 22 73 76 92 85 25 58 66 88 44 80 35 84
20 83 77 31 £6 70 28 42 43 26 79 37 69 52 20 01 15 96 32 67 10 62 24 83 91
16 63 38 49 24 90 41 59 36 14 33 52 12 66 65 55 82 34 76 41 86 22 53 17 04
92 69 44 82 97 39 90 40 21 15 59 58 94 90 67 66 82 14 15 75 49 76 70 40 37
77 61 31 SO 19 88 15 20 00 80 20 55 49 14 09 96 27 74 82 57 50 81 69 76 16
88 63 83 24 80 45 13 46 35 45 59 40 47 20 59 43 94 75 16 80 43 85 25 96 93
25 18 30 18 89 70 01 41 50 21 41 29 06 73 12 71 85 71 59 57 58 97 11 14 03
SS 23 10 76 29 37 23 93 32 95 05 87 00 11 19 92 78 42 63 40 13 47 76 56 22
SS 81 54 36 25 18 63 73 75 09 82 44 49 90 05 04 92 17 37 01 14 70 79 39 97
64 39 71 16 92 05 32 78 21 62 20 24 78 17 59 45 19 72 53 32 83 74 52 25 67
04 51 62 56 24 95 09 66 79 40 43 46 08 55 58 15 19 11 87 82 16 93 03 33 61
83 76 16 08 73 43 25 38 41 45 60 83 32 59 83 01 29 14 13 49 20 36 80 71 20
14 33 70 63 45 80 85 40 92 79 43 52 90 63 18 38 38 47 47 61 41 19 63 74 80
51 32 19 22 46 80 08 87 70 74 88 72 25 67 36 63 16 44 94 31 66 91 93 16 78
72 47 20 00 08 80 se 01 SO02 94 81 33 19 00 54 15 58 34 36 35 35 25 41 31
06 49 65 63 06 93 12 81 84 64 74 45 79 05 61 72 84 81 18 34 79 98 20 84 16
39 62 87 24 84 82 47 42 55 93 48 54 53 52 47 18 61 91 36 74 18 61 U 92 41
81 01 61 87 11 53 34 24 42 76 75 12 21 17 24 74 62 77 37 07 58 31 91 59 97
07 63 61 61 20 82 64 12 28 20 92 90 41 31 41 32 39 21 97 63 61 19 96 79 40
90 n 70 42 35 13 57 41 72 00 69 90 26 37 42 78 46 42 25 01 18 62 79 08 72
40 13 82 81 93 29 59 38 86 27 94 97 21 15 98 62 09 53 67 87 00 44 15 89 97
34 41 43 21 67 86 88 75 50 87 19 15 20 00 23 12 30 28 07 83 32 62 46 86 91
63 43 97 53 63 44 98 91 68 22 36 02 40 09 67 76 37 84 16 05 65 96 17 34 88
67 04 90 90 70 93 39 94 55 47 94 45 87 42 84 05 04 14 98 07 20 28 83 40 60
76 49 £0 41 46 52 16 29 02 86 54 15 83 42 43 46 97 83 54 82 59 36 29 59 38
01 70 43 05 52 04 73 72 10 31 75 05 19 30 29 47 66 56 43 82 99 78 29 34 78
Fracciones del área total (10 000) bajo la curva normal, correspondientes a
distancias entre la media y las ordenadas situadas a Z unidades de desvia­
ción estándar de la media.
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 0000 0040 0089 0120 0159 0199 0239 0279 0319 0359
0.1 0398 0438 0478 0517 0557 0596 0633 0675 0714 0753
0.2 0793 0832 0871 0910 0948 0987 1026 1064 1103 1141
0.3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517
0.4 1554 1591 1628 1684 1700 1738 1772 1808 1844 1879
0.5 1915 1950 1985 2018 2054 2088 2123 2157 2190 2224
0.6 2257 2291 2324 2357 2389 2422 2454 2486 2518 2549
0.7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852
0.8 2881 2910 2939 2967 2995 3023 3051 3078 3103 3133
0.9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3389
1.0 3413 3438 3461 3485 3508 3531 3554 3577 3599 8621
1.1 3643 3665 3686 3713 3729 3749 3770 3790 3810 3830
1.2 3349 3869 3888 3907 3925 3944 3962 3980 3997 4015
1.3 4032 4049 4066 4083 4099 4115 4131 4147 4162 4177
1.4 4192 4207 4222 4236 4251 4265 4279 4292 4306 4319
1.5 4332 4345 4357 4370 4382 4394 4406 4418 4430 4441
1.6 4452 4463 4474 4485 4495 4505 4515 4525 4535 4545
1.7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4833
1.8 4641 4649 4656 4664 4671 4678 4686 4693 4699 4706
1.9 4713 4719 4726 4732 4738 4744 4750 4768 4762 4767
2.0 4773 4778 4783 4788 4793 4798 4803 4808 4812 4817
2.1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857
2.2 4861 4865 4868 4871 4875 4878 4881 4884 4887 4890
2.3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916
2.4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936
2.5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952
2.6 4953 4955 4Ü56 4957 4959 4960 4961 4962 4963 49G4
2.7 4965 4960 .4067 4968 4969 4970 4971 4972 4973 4974
2.8 4974 4975 4976 4977 4977 4978 4979 4980 4980 4981
2.9 49S1 4982 4983 4984 4984 4984 4985 4985 4986 4986
3.0 4988.5 4987 4987 4988 4988 4988 4989 4989 4989 4990
3.1 4990.0 4991 4991 4991 4992 4992 4992 4992 4993 4993
3.2 4993.129
3.3 4995.166
3.4 4996.631
3.5 4997.674
3.6 4998.409
3.7 4998.922
3.8 4999.277
3.9 4999.519
4.0 4999.G83
4.5 4999.966
5.0 4999.997133
Fuente : Harold O. Rugg, Statistical Methods Applied to Educaticm, Hough-
ton Mifflin Company, Boston, 1917, apéndice al cuadro III, pp. 389-390, con
la amable autorización del editor.
Cuadro D. D istribución de t
Nivel de significación para la prueba de una sola cola
.10 .05 .025 .01 .005 .0005
OI
Nivel de significación para la prueba de dos colas
.20 .10 .05 .02 .01 .001
1 3.078 6.314 12.706 31.821 63.657 636.619
2 1.886 2.920 4.303 6.965 9.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.859
6 1.440 1.943 2.447 3.143 3.707 5.959
7 1.415 1.895 2.365 2.898 3.493 5.405
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.659 3.012 4.221
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073
16 1.337 1.746 2.120 2.583 2.921 4.015
17 1.333 1.740 2.110 2.567 2.898 3.085
18 1.330 í .734 2.101 2.552 2.878 3.922
19 1.328 1.729 2.093 2.539 2.861 3.883
20 1.325 1.725 2.086 2.528 2.845 3.850
21 1.323 1.721 2.080 2.518 2.831 3.819
22 1 321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2 >83 3.674
29 1.311 1.699 2.045 2.462 2.756 3.659
30 1.310 1.697 2.042 2.457 2.750 3.646
40 1.303 1.684 2.021 2.423 2.704 3.551
60 1.296 1.671 2.000 2.390 2.660 3.460
120 1.289 1.658 1.980 2.358 2.617 3.373
oo 1.282 1.645 1.660 2.326 2.576 eazsF.SEewHmix-scr
3.291*.»»
Fuente: El cuadro D es una abreviación del cuadro III de Statistical
Tables for Biological, Agricultural and Medical Research (ed. 1948), de R. A.
Fisher y F. Yates; publicada por Oliver & Boyd, Ltd., Edimburgo y Lon­
dres, con la autorización de los autores y editores.
Cuadro E . Valores críticos de r en la prueba de las
secuencias P = .05
En la prueba de las secuencias de las muestras, cualquier valor de r igual
o menor que el que figura en el cuerpo del cuadro es significativo al nivel
de .05 con dirección no anticipada, o al nivel .025 con dirección anticipada.
2 3 4 6 6 7 8 9 10 11 12 13 14 -15 16 17 18 19 20

4 2
6 2 2 3
6 2 3 3 3
7 2 3 3 4 4
8 2 2 3 3 4 4 5
9 2 2 3 4 4 5 5 6
10 2 3 3 4 5 5 6 6 6
11 2 3 3 4 5 6 6 6 7 7
12 3 3 4 4 5 6 6 7 7 8 S
13 2 3 4 4 5 6 6 7
14 2 3 4 5 5 6 7 W
ff
8
8
8
8
9
9
9
9 10
15 2 3 4 S 6 6 7 8 8 9 e 10 10 11
16 2 3 4 5 6 6 7 8 8 9 10 10 11 11 11
17 2 3 4 5 0 7 7 8 9 9 10 10 11 11 12 12
18 2 3 4 6 7 8 8 9
5 10 10 11 11 12 12 13 13
19 O
2 O 4 5 6 7 8 8 9 10 10 11 12 12 13 13 14 14
20 2 O 4 5 S 7 8 9 9 10 11 31 12 12 13 13 14 14 15

F u e n t e : F. S. Swed y C. Eisenhart, "Tables for Testing Randomness of


Grouping in a Sequence of Alternatives”, Annals of Mathematical Statistics,
vol. 14, pp. 83-86, 1943, con la amable autorización de los autores y el editor.
Cuadro F.Cuadro de probabilidades asociadas a valores tan pe­
queños com o los valores observados de U en la prueba de Mann-
W hitney ( con dirección anticipada) *
«a 3 JV3
i 2 3 1 2 3 4
0 .250 .100 .050 0 .200 .067 .028 .014
1 .500 .200 .100 1 .400 .133 .057 .029
2 .750 .400 .200 2 .600 .267 .114 .057
3 .600 .350 3 .400 .200 .100
4 .500 4 .600 .314 .171
5 .650 5 .429 .243
6 .571 .343
7 .443
8 .557

Nt ** 5 N'i =» 6

0 .167
2

.047
3
.018
4
.008
5
.004
Xj
0
1
.143
2
.036
3
.012
4

.005
5
.002
6
.001
3 .333 .095 .036 .016 .008 i .286 .071 .024 .010 .004 .002
2 .600 .190 .071 .032 .016 2 .428 .143 .048 .019 .009 .004
3 .667 .286 .125 .056 .028 3 .571 .214 .083 .033 .015 .008
4 .429 .196 .095 .048 4 .321 .131 .057 .026 .013
6 .571 .286 .143 .075 5 .429 .190 .086 .041 .021
8 .393 .206 .111 6 .571 .274 .129 .063 .032
7 .500 .278 .155 7 .357 .176 .089 .047
8 .607 .365 .210 8 .452 .238 .123 .066
9 452 .274 9 .548 .305 .165 .090
10 .548 .345 10 .381 .214 .120
11 .421 11 .457 .268 155
12 .500 12 .545 .331 .197
13 .579 13 .396 .242
14 .465 .294
15 .535 .350
16 .409
17 .469
18 .531
F u e n t e : H. B. Mann y D. R. Whitney, "On a Test of Whether One of
Two Random Variables is Stochastically Larger than the Other”, Annals
of Mathematical Statistics, vol. 18, pp. 52-54, 1947, con la amable autorización
de los autores y el editor.
* Si ]a dirección no ha sido anticipada se duplicarán las probabilidades.
Cuadro F [continuación ]
Ns = 7

NJVi 1 2 3 4 5 6 7
U\
0 .125 .028 .008 .003 .COI .001 .000
1 250 .056 017 .006 .003' .001 001
2 .375 .111 .033 .012 .005 .002 .001
3 .500 .167 .058 .021 .009 .004 .002
4 .625 .250 .092 .036 .015 .007 .003
5 .333 .133 .055 .024 .011 .006
6 .444 .192 .082 .037 .017 .009
7 .556 .253 .115 .053 .026 .013
8 .333 .158 .074 .037 .019
9 .417 .206 101 .051 .027
10 .500 .264 .134 .069 .036
11 .583 .324 .172 .090 .049
12 .394 .216 .117 .064
13 .464 .265 147 .082
14 .538 .319 .183 .104
15 .378 .223 .130
16 .438 .267 .159
17 .500 .314 .191
18 .562 .365 .228
19 .418 .267
20 .473 .310
21 .527 .355
22 .402
23 .451
24 .500
25 .649
CUADROS

Cuadro F [conclusión]
N2 = 8

V /. 1 2 3 4 5 6 7 8
u\
0 .111 .022 .006 .002 .001 .000 .000 .000
i .222 .044 .012 .004 .002 .001 .000 .000
2 .333 .089 .024 .008 .003 .001 .001 .000
3 .444 .133 .042 .014 .005 .002 .001 .001
4 .656 .200 .067 .024 .009 .004 .002 .001
5 .267 .097 .036 .015 .006 .003 .001
6 356 .139 .055 .023 .010 .005 .002
7 .444 .188 .077 .033 .015 .007 .003
8 .656 .248 .107 .047 .021 .010 .005
9 .315 .141 .064 .030 .014 .007
10 .387 .184 .085 .041 .020 .010
11 .461 .230 .111 .054 .027 .014
12 .639 .285 142 .071 .036 .019
13 .341 177 .091 .047 .025
14 .404 .217 .114 .060 .032
15 .467 .262 .141 .076 .041
16 .633 .311 .172 .095 .052
17 .362 .207 .116 .065
18 .416 .245 .140 .080
19 .472 .286 .168 .097
20 .528 .331 .198 .117
21 .377 .232 .139
22 .426 .268 .164
23 .475 .306 .191
24 .525 .347 .221
25 .389 .253
26 .433 .287
27 .478 .323
28 .622 .360
29 .399
30 .439
31 .480
32 .520
Cuadro G. Cuadro de valores críticos de U en la prueba
de M ann-W hitney
Valores críticos de U a a = .001 con dirección anticipada, o a a = -002
c.on dirección sin anticipar.
\JV» 9 10 11 12 13 14 15 16 17 18 19 20
1
2
3 0 0 0 0
4 0 0 0 1 1 1 2 2 3 3 3
5 1 1 2 2 3 3 4 6 5 6 7 7
6 2 3 4 4 5 6 7 8 9 10 11 12
7 3 5 6 7 8 9 10 11 13 14 15 16
8 S 6 8 9 11 12 14 15 17 18 20 21
9 7 8 10 12 14 15 17 19 21 23 25 26
10 8 10 12 14 17 19 21 23 25 27 29 32
11 10 12 15 17 20 22 24 27 29 32 34 37
12 12 14 17 20 23 25 28 31 34 37 40 42
13 14 17 20 23 26 29 32 35 38 42 45 48
14 15 19 22 25 29 32 36 39 43 46 50 54
15 17 21 24 28 32 36 40 43 47 51 55 59
16 19 23 27 31 35 39 43 48 52 56 60 65
17 21 25 29 34 38 43 47 52 57 61 66 70
18 23 27 32 37 42 46 51 56 61 66 71 76
19 25 29 34 40 45 50 55 60 66 71 77 82
20 26 32 37 42 48 54 59 65 70 76 82 88
Fuente: D. Auble, “Extended Tables for the Mann-Whitney Statistics”,
Bulletin of the Institute of Educational Research at Indiana University,vol.
1, núm. 2, cuadros 1, 3, 5 y 7, 1953, con la amable autorización del editor;
tal como ha sido adaptada por S. Siegel, en Nonparametric Statistics, Mc-
Graw-Hill Book Company, Nueva York, 1956, cuadro K.
VAT,
v ,\ 9 10 11 12 13 14 15 16 17 18 19 20

1
2 0 0 0 0 0 0 1 1
3 1 1 1 2 2 2 3 3 4 4 4 5
4 3 3 4 5 5 6 7 7 8 9 9 10
5 5 6 7 S 9 10 11 12 13 14 15 16
6 7 8 9 11 12 13 15 16 18 19 20 22
7 9 11 12 14 16 17 19 21 23 24 26 28
8 11 13 15 17 20 22 24 26 28 30 32 34
9 14 16 18 21 23 26 28 31 33 36 38 40
10 16 19 22 24 27 30 33 36 38 41 44 47
IX 1S 22 25 28 31 34 37 41 44 47 SO 53
12 21 24 28 31 35 38 42 46 49 83 56 60
13 23 27 31 35 39 43 47 51 55 59 63 67
14 26 30 34 38 43 47 51 56 60 65 69 73
15 28 33 37 42 47 51 56 61 66 70 75 80
16 31 36 41 46 51 56 61 66 71 76 82 87
17 33 38 44 49 55 60 66 71 77 82 88 93
18 36 41 47 53 59 65 70 76 82 88 94 100
19 38 44 50 56 63 69 75 82 88 94 101 107
20 40 47 53 60 67 73 80 87 93 100 107 114
ViV, 9 10 11 12 13 14 15 16 17 18 19 20
VN
i
2 0 0 0 1 1 1 1 1 2 2 2 2
3 2 3 3 4 4 5 5 6 6 7 7 8
4 4 5 6 7 8 9 10 n 11 12 13 13
5 7 8 9 11 12 13 14 15 17 18 19 20
6 10 11 13 14 16 17 19 21 22 24 25 27
7 12 14 16 18 20 22 24 26 28 30 32 34
8 15 17 19 22 24 26 29 31 34 36 38 41
9 17 20 23 26 28 31 34 37 39 42 45 48
10 20 23 26 29 33 36 39 42 45 48 52 55
11 23 26 30 33 37 40 44 47 51 55 58 62
12 26 29 33 37 41 45 49 53 57 61 65 69
13 28 33 37 41 45 60 54 69 63 67 72 76
14 31 36 40 45 50 55 59 64 67 74 78 83
15 34 39 44 49 54 59 64 70 75 80 85 90
16 37 42 47 53 59 64 70 75 81 86 92 98
17 39 45 51 57 63 67 75 81 87 93 99 105
18 42 48 55 61 67 74 80 86 93 99 106 112
19 45 52 58 65 72 78 85 92 99 106 113 119
20 48 55 62 09 76 83 90 98 105 112 119 127
9 10 11 12 13 14 15 10 17 18 rj 20

1 0 0
2 1 1 1 2 2 2 3 3 3 4 4 4
3 3 4 5 5 8 7 7 8 9 9 10 11
4 6 7 8 9 10 11 12 14 15 16 17 18
5 9 11 12 13 15 16 18 19 20 22 23 25
6 12 14 16 17 19 21 23 25 26 28 30 32
7 15 17 19 21 24 26 28 30 33 35 37 39
8 18 20 23 26 28 31 33 36 39 41 44 47
9 21 24 27 30 33 36 39 42 45 48 51 54
10 24 27 31 34 37 41 44 48 51 55 58 62
11 27 31 34 38 42 46 50 54 57 61 65 69
12 30 34 38 42 47 51 55 60 64 68 72 77
13 33 37 42 47 51 56 61 65 70 75 80 84
14 36 41 46 51 56 61 66 71 77 82 87 G2
15 39 44 50 55 61 66 72 77 83 88 94 100
16 42 48 54 60 65 71 77 83 89 95 101 107
17 45 51 57 64 ‘70 77 83 89 96 102 109 115
18 48 55 61 68 75 82 88 95 102 109 116 123
19 51 58 65 72 80 87 94 101 109 116 123 130
20 54 62 69 77 84 92 100 107 115 123 130 138
C uadro H. C uadro de valores críticos de T en la prueba de pares
asociados y órdenes provistos de signo, de W ilcoxon

Nivel de significación, dirección anticipada


.025 .01 .005
N
Nivel de significación, dirección
sin anticipar
.05 .02 .01
0 0 _ —
7 2 0 —
8 4 2 0
9 6 3 2
10 3 5 3
11 11 7 5
12 14 10 7
13 17 13 10
14 21 16 13
15 25 20 16
10 30 24 20
17 35 23 23
18 40 33 28
19 46 38 32
20 52 43 38
21 59 49 43
22 m 56 49
23 73 62 55
24 81 69 61
25 89 77 68
Fuente: F. Wilcoxon, Some Rapid Approximate Statistical Procedures,
American Cyanamid Company, Nueva York, 1949, cuadro_ I, p. 13, con la
amable autorización del autor y el editor; tal como ha sido adaptada por
S. Siegel en Nonparametric Statistics, McGraw-Hill Book Company, Nueva
York, 1956, cuadro G.
Cuadro I. D istribución de la.
P robabilidad

df .99 .93 .95 .90 .80 .70 .50 .30 .20 .10 .05 .02 M .001

1 .03157 .0*628 .00393 .0158 .0642 .148 .455 1.074 1 642 2.706 3.841 5.412 6.635 10.G27
2 .0231 .0104 .103 .211 .440 713 1.386 .%2.408 3.219 4.605 5.991 7.824 9.210 13.815
3 .115 .185 .352 .584 1.005 1 424 2.366 3.665 4.642 6.25Í 7.815 9.837 11.341 16.268
4 .297 .429 .711 1.064 2.649 2.195 3.367 4.878 5.989 7.779 9.488 U 668 13.277 18.465
5 .554 .752 1 145 1.610 2.343 3 000 4.351 6.064 7.289 9.236 11.070 13.388 15.086 20.£’7

6 .872 1.134 1.635 2.204 3.070 3.828 5.348 7.231 8.558 10.645 12.592 15.033 16.812 22.457
7 1.229 1.564 2.167 2.833 3.822 4.671 C.346 8 383 9.803 12.017 14.067 16 622 18.475 24.322
8 1.646 2.032 2.733 3.490 } 594 5.527 7.344 9.524 11.030 13.362 15.507 18.168 20.090 26.125
9 2.038 2.532 3.325 4.168 5.380 6.393 8 343 10.656 12.242 14.C84 16.919 19.679 21.666 27.877
10 2.558 3.059 3.940 4.865 6.179 7.267 9.342 1J.781 13.442 15.SS7 18.307 21.161 23.209 39.588

11 3.C53 3.609 4.575 5.578 C.989 8.148 10.341 12.899 14.631 17.275 19.675 22.618 24.725 3I.2C4
12 3.571 4 178 5.226 6.304 7.807 9 034 11.340 14.011 15.812 18:549 21.026 24.054 20.217 32.800
13 4.107 4.765 5.892 7.042 S.634 9.926 12.340 15.119 16.985 19.812 22.362 25.472 27.G88 34.528
14 4.650 5.308 6.571 7 790 9.4S7 10 S21 13.339 16.222 18.151 21.064 23.68$ 26.873 29.141 33.123
15 5.229 5.985 7.261 8.547 10.307 11.721 14.339 17.322 19.311 22.307 24.996 28.259 30.578 37.CP?

16 5 812 8.JB14 7.962 9.312 11 152 12.624 15.338 18.418 20.465 23-542 26.296 29.633 32.C00 39.252
17 6.408 7.255 8.672 10.085 12.002 13.531 16 338 19 511 21.615 24.769 27.587 30.995 33.409 40.790
18 7 015 7.906 9 290 10.865 12 357 14.440 17.338 20.601 22.760 25.989 28.889 S2.346 34.805 42.312
19 7 633 3.567 10.117 11 651 12 716 15 352 18 338 21.689 23.900 27.204 30.144 33.687 38.191 43.620
20 8 260 9.237 10.851 12.443 14 578 10 266 19 337 22.775 25.038 28.412 31.410 35.020 37.566 4S.315

21 8.857 9.935 11.591 13.240 15 445 17.1S2 20 337 23.858 23.171 29 615 32.871 36.343 38.932 48.797
22 9 542 10.600 12 338 14.041 16.314 18.101 21.337 24 939 27.301 30 813 33.924 37.659 49.289 48.268
23 10.196 11.293 13.091 14.848 17.187 19.021 22.337 26 018 28.429 32.007 35.172 38.968 41.638 49.728
24 10.836 11 992 13.848 15.659 18.062 19.943 23 337 27.096 29.553 33.196 36.415 40.270 42.980 51.179
25 11.524 12.657 14.611 16.473 18.940 20.8G7 24.337 23.172 30.675 34.382 37.652 41.566 44.314 52.620

26 12.198 13.409 15.379 17.292 19.820 21.792 25.339 29.246 31 795 35 563 38.835 42.856 45.642 64.052
27 12.879 14.126 19.151 18.114 20.703 22.719 26.336 30.319 32.912 36.741 40.113 44.140 46.963 55.476
28 13.565 14.847 16.928 18.-039 21 588 23.647 27.336 31.391 34.027 37.916 41.337 45.419 48.278 56.893
29 14.258 15.574 17 708 19.788 22 475 24.577 28.323 32.461 35.139 39.087 42.557 46.693 49.588 58.302
30 14.953 16.200 13.493 20.599 23.364 25.508 29.336 33.530 36.250 40.256 43.773 47.9C2 50.892 59.703

Para valores mayores de df, la expresión — y/2df — 1 puede utilizarse


como una desviación normal, con variancia de unidad, recordando que la
probabilidad para x2 corresponde a la de una sola cola de la curva normal.
F : El cuadro I es una reimpresión del cuadro IV de Statistical
Tables for Biological, Agricultural and Medical Research (ed. 1948), de R.
uente

A. Fisher y F. Yates, publicada por Oliver & Boyd, Ltd., Edimburgo y Lon­
dres, con autorización de los autores y los editores.
Cuadro J. D istribución d e F
p = .05
\» 1 1 2 3 4 5 6 8 24 (O
n s\
1 161.4 199.5 215.7 224.6 230.2 234.0 23S .'3 243.9 249.0 254.3
2 18.51 19.00 19.16 19.25 19.30 19.33 19.37 19.41 19.45 19.58
3 10.13 9.55 9.28 9.12 9.01 8.94 8.84 8.74 8.64 S.S3
4 7.71 6.94 6.59 6.39 6.26 6.16 6.04 5.91 5.77 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.82 4.68 4.53 4.36
G 5.99 5.14 4.76 4.53 4.39 4.28 4.15 4.00 3.84 3.67
7 5,59 4.74 4.35 4.12 3.97 3.87 3.73 3.57 3 A l OO•¿«V »
t<l>
8 5.32 4.46 4.07 3.84 3.69 3.58 3.44 3.28 3.12 2.93
9 5.12 4.2Q 3.86 3.63 3.48 3.37 3.23 3.07 2.90 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.07 2.91 2.74 2.54
11 4.84 3.98 3.59 3.36 3,20 3.09 2.95 2.79 2.61 2.40
12 4 75 3.88 3.49 3.26 3.11 3.00 2.85 2.69 2.50 2.30
13 4 67 3.80 3.41 3.18 3.02 2.92 2.77 2.60 2.42 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.70 2.53 2.35 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.64 2.48 2.29 2.07
16 4 49 3.63 3.24 3.01 2.85 2.74 2.59 2.42 2.24 2.01
17 4 45 3.59 3.20 2.96 2.81 2.70 2.55 2,38 2.19 1.96
18 4:41 3.55 3.16 2.93 2.77 2.60 2.51 2.34 2.15 1.92
19 4.38 3.52 3.13 2.90 2.74 2.63 2.48 2.31 2.11 1.88
20 4.35 3.49 3.10 2.87 2.71 2.60 2.45 2.28 2.08 1.84
21 4.32. 3.47 3.07 2.84 2.68 2.57 2.42 2.25 2.05 1.81
22 4.30 3.44 3.05 2.82 2.66 2.55 2.40 2.23 2.03 1.78
23 4.28 3.42 3.03 2.80 2.64 2.53 2.38 2.20 2.00 1.76
21 4.26 3.40 3.01 2.78 2.62 2.51 2.36 2.18 1.98 1.73
25 4.24 3.38 2.99 2.76 2.60 2.49 2.34 2.16 1.93 1.71
26 4.22 3.37 2.98 2.74 2.59 2.47 2.32 2.15 1.95 1.69
27 4.21 3.35 2.96 2.73 2.57 2.46 2.30 2.13 1.93 1.67
28 4.20 3.34 2.95 2.71 2.56 2.44 2.29 2.12 1.91 1.65
29 4.18 3.33 2.93 2.70 2.54 2.43 2.28 2.10 X.90 1.64
30 4.17 3.32 2.92 2.69 2.53 2.42 2.27 2.09 1.89 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.18 2.00 1.79 1.51
60 4.00 3.15 2.76 2.52 2.37 2.25 2.10 1.92 1.70 1.39
120 3,92 3.07 2.68 2.45 2.29 2.17 2.02 1.83 1.61 1.25
OO 3.84 2.99 2.60 2.37 2.21 2.09 1.94 1.75 1.52 1.00
Los valores de nx y n.¿ representan los grados de libertad asociados a las
estimaciones mayores y menores respectivamente de la variancia.
Fuente: El cuadro J es una abreviación del cuadro V de Statistical Tables
for Biological, Agricultural and Medical Research (ed. 1948), de R. A. Fisher
y Yates, publicada por Oliver & Boyd, Ltd., Edimburgo y Londres, con
autorización de los autores y los editores.
C u a d ro J [ c o n tin u a c ió n ]
p = .01
sim tm n n E

2 3 4 6 8 12 24 eo
6
1 4052 4999 5403 6625 5764 5853 5981 6108 6234 6366
2 93 49 99 o í 99 .17 99 25 99 30 99.33 39.36 89 42 99 46 99 50
3 34 12 S!) 81 29 46 28 71 28 24 27 91 27 49 27 05 26 60 26 12
4 21 20 18 00 16 69 15 98 15 52 15 21 14 80 14 37 13 §3 13 46
5 16 26 13 27 12 06 11 39 10 97 10 67 10 27 9 80 9 47 9 02
6 13 74 10 92 9 78 9 15 8 75 8 47 8 10 7 72 7 31 6 88
7 12 25 9 55 8 45 7 85 7 46 7 19 6 84 6 47 6 07 5 65
8 11 26 8 65 7 59 7 01 6 63 6 37 6 03 5 67 5 28 4 86
9 10 56 8 02 6 99 6 42 6 06 5 80 5 47 5 11 4 73 4 31
10 10 04 7 56 6 55 6 99 5 64 5 39 5 06 4 71 4 33 3 91
11 9 65 7 20 6 22 5 67 S 32 5 07 4 74 4 40 4 02 3 60
12 9 33 6 93 5 95 5 41 8 03 4 82 4 SO 4 16 3 78 3 36
13 9 07 6 70 5 74 5 20 4 86 4 62 4 30 3 96 3 59 3 16
14 8 86 6 51 5 56 5 03 4 69 4 46 4 14 3 80 3 43 3 OCf
15 8 68 6 30 5 42 4 89 4 56 4 32 4 co 3 67 3 28 2 87
16 8 53 6 23 5 29 4 77 4 44 4 20 3 89 3 S5 3 18 2 75
17 8 40 6 11 5 18 4 67 4 34 4 10 3 79 3 45 3 08 2 65
18 8 28 6 01 5 09 4 58 4 25 4 01 3 71 3 37 3 00 2 57
19 8 18 5 83 5 01 4 60 4 17 3 94 3 63 3 30 2 92 2 43
20 8 10 5 85 4 94 4 43 4 10 3 87 3 55 3 23 2 86 2 42
21 8 02 5 78 4 87 4 37 4 04 3 81 O 51 3 17 2 80 2 36
22 7 94 5 72 4 82 4 31 3 69 3 76 3 45 3 12 2 75 2 31
23 7 88 5 66 4 76 4 26 3 94 3 71 3 41 3 07 2 70 2 26
24 7 82 5 81 4 72 4 22 3 90 3 67 3 36 3 03 2 66 2 21
25 7 77 5 57 4 68 4 18 3 83 3 63 3 32 2 99 62 2 .17
2
26 7 72 5 53 4 64 4 14 3 82 3 59 3 29 2 95 2 58 2 13
27 7 68 5 49 4 60 4 11 3 78 3 56 3 26 2 93 2 55 2 10
28 7 64 5 45 4 57 4 07 3 75 3 53 3 23 2 90 2 52 2 06
29 7 60 5 42 4 54 4 04 3í 3 50 3 20 2 87 2 49 2 03
30 7 56 5 39 4 51 4 02 3 70 3 47 3 17 2 84 2 47 2 01
40 7 31 5 18 4 31 3 83 3 51 3 29 2 99 2 66 2 29 i 80
60 7 08 4 98 4 13 3 65 3 34 3 12 2 82 2 50 2 12 i 60
120 8 85 4 79 3 95 3 48 3 17 2 98 2 63 2 34 1 95 i 38
QO 6 64 4 60 3 78 3 32 3 02 2 80 2 51 2 18 1 79 i 00
rtgaumuw itfso rzesí

Los valores de y n3 representan los grados de libertad asociados a las


estimaciones mayores y menores respectivamente de ¡a vaiiancia.
Cuadro J [ c o n c lu s ió n ]
p = .001

»«\ 1 2 3 4 8 0 3 32 i 24 03

i 405284 500000 540378 662E00 576405 585S37 598144 610667 Ó23497 636'íl.5
2 998.5 899.0 999.2 939.2 899.3 S99.3 999.4 999.4 999.5 (999.5
3 167.6 148.5 141.1 137.1 134.S 132.8 130.6 123.3 125.9 ¡123.5
4 74.14 61.25 66.18 63.44 51.71 50.53 49.00 47.41 45.77 44.í>5
5 47.04 38.61 33.20 31.09 29.75 28.84 27.84 26.4f; 25.14 23.78

6 35.51 27.00 23.70 21.00 20.83 20.03 19.03 17.99 16.89 15.75
7 29.22 21.69 18.77 17.19 16.21 15.52 14.83 13.71 12.73 11 .í>9
8 25.42 18.49 15.83 14.39 13.49 12.86 12.04 11.19 10.30 9.24
9 22.86 16.39 13.90 12.56 11.71 11.13 10.37 9.57 8,72 7.81
10 21.04 14.91 12.55 XI.28 10.48 9.92 9.20 8.45 7.64 6.76
11 19.89 13.81 11.53 10.35 0.58 9.0o 8.35 7.63 6.85 6.00
12 18.64 12.97 10.80 9.63 8.89 8.38 7.71 7.00 6.25 5.42
13 17.81 12.31 10.21 9.07 8.35 7.86 7.21 6,52 5.78 4.97
14 17.14 11. 0.73 8.62 7.92 7.43 6.80 6.13 5.41 4.60
15 16.59 11.34 9.34 8.25 7.57 7.09 6.47 5.81 5.10 4.31
16 16.12 10.97 9.00 7.94 7.27 6.81 6.19 5.55 4.85 4.06
17 15.72 Í0.6S 8.73 7.68 7.02 6.56 5.96 5.32 4.63 3.85
18 15.38 10.39 8.49 7.46 6.81 6.35 5.76 5.13 4.45 3.67
19 15.08 30.13 8.28 7.26 6.61 6.18 5.59 4.97 4.29 3.52
20 14.82 9.95 8.10 7 40 6.46 6.02 5.44 4.82 4.15 3.33
21 14.59 9.77 7.94 6.95 6.32 5.88 5.31 4.70 4.03 3.2G
22 14.38 9.61 7.80 6.81 6.19 5.76 5.19 4.58 3.92 3.15
23 14.19 9.47 7.67 6.69 6.08 5.65 5.06 4.48 3.82 3.05
24 14.03 9.34 7.55 6.69 5.98 5.55 4.99 4.39 3.74 2.97
25 13.88 9.22 7.45 6.49 6.88 5.46 4.91 4.31 3.66 2.89
26 13.74 9.12 7.33 6.41 5.80 5.38 4.83 4.24 3.59 2.82
27 13.61 9.02 7.27 6.33 5.73 5.31 4.76 4.17 2.52 2.75
28 13.50 8.93 7.19 6.25 5.66 5.24 4.69 4.11 3.46 2.70
29 13.39 8.85 7.12 6.19 5.59 5.18 4.64 4.05 3.41 2.64
30 13.29 8.77 7.05 6.12 5.63 5.12 4.58 4.0Q 3.36 2.59
40 12.61 8.25 6.60 5.70 5.13 4,73 4.21 3.24 3.01 2.23
60 11.97 7.76 6.17 B.31 4.76 4.37 3.87 3.31 2.69 1.90
120 11.38 7.31 5.79 4.95 4.42 4.04 3.55 3.02 2.40 1.56
00 10.83 6.91 6.42 4.62 4.10 3.74 3.27 2.74 2.13 1.00
,,
Los valores de n, y rt2 representan los grados de libertad asociados a las
estimaciones mayores y menores respectivamente de la variancia.
C u a d ro K . V a lo r e s d e z p a ra v a lo r e s d a d o s d e r

r .000 .001 r002 ,C03 .004 .005 .006 .007 .008 .009

.000 .0000 .0010 .0020 .0030 .0040 .0050 ,0060 .0070 .0030 ,0090
.010 .0100 .0110 .0120 .0130 .0140 .0150 .0160 .0170 .OlSQ .0190
.020 .0200 .0210 .0220 .0230 .0240 .0250 .0260 .0270 .0280 .0290
.030 .0300 .0310 .0320 .0330 .0340 .0350 .0360 .0370 .0380 .0390
.0 4 0 .0400 .$410 .0420 .0430 .0440 .0450 .0460 .0470 .0480 .04 9 0

.050 .0501 .0511 .0521 .0531 .0541 .0551 .0561 .0571 .0581 .0591
.060 .0601 .0611 .0821 .0631 .0641 .0651 .0631 .0671 .0681 .0691
.070 .0701 .0711 .0721 .0731 .0741 .0751 .,0761 .0771 .0783 .0792
,080 .0802 .0812 .0822 .0832 .0842 .0852 .0862 .0872 .0882 .0892
.000 .0902 , ;0912 .0922 .0933 .0943 .0953 .0963 .0973 .0983 .0993
.100 .1003 .1013 .1024 .1034 .1044 .1054 .1064 .1074 .1084 .1094
.110 .1105 .1115 .1125 .1135 .1145 .1155 1165 .1176 .1185 .1195
.120 .1206 .121$ .1226 .1236 .1246 .1257 .1267 .1277 .1287 .1297
.130 .1308 .1318 .1323 .1338 .1348 . 1358 .1368 .1379 .1389 .1399
.140 . J.409 .1419 .1430 .1440 .1450 .1460 .1470 .1481 .1491 .1501
.150 .1511 .1522 .1532 .1542 .1552 .1563 .1573 .1583 .1593 .1604
.160 .1614 .1624 .1634 .1844 .1655 .1665 .1676 .1686 .1698 .1706
.170 .1717 .1727 .1737 . 1748 .1758 .1763 .1779 .1789 .1799 .1810
.180 .1820 .1830 ♦1841 .1851 .1861 .1872 .1882 .1892 .2903 .1913
.190 .1923 .1934 !l944 . 1054 .1965 .1975 .1986 .1996 .2007 .2017
.200 .2027 .2038 .2048 .2059 .2069 .2079 .2090 .2100 .2111 .2121
.210 .2132 .2142 ,2153 .2163 .2174 .2184 .2194 .2205 .2215 .2226
.220 .2237 .2247 .2258 .2268 .2279 .2289 .2300 .2310 .2321 .2331
.230 .2342 .2353 >2363 .2374 .2384 .2395 .2405 .2416 .2427 .2437
.240 .2448 .2458 .2469 .2480 .2490 .2501 .2511 .2522 .2533 .2543
.250 .2554 .2565 .2575 ;2586 .2597 .2608 .2618 .2629 .2640 .2650
.260 .2661 .2672 .2682 .2693 .2704 .2715 .2726 .2736 .2747 .2758
.870 .2769 .2779 .2760 .2801 .2812 .2823 .2833 .2844 .2855 .2866
.280 .2877 *2888 .2898 .2909 .2920 .2931 ,2842 .2953 .2964 2975
.290 .2986 .2927 .3008 .3019 .3029 .3040 .3051 .3062 .3073 .3084
.800 .3095 .310$ .3117 .3128 .3139 .3150 .3161 .3172 .3183 .3105
.810 .3206 .3217 .3228 .3239 .3250 .3261 .3272 .3283 .3294 .3305
.330 .3317 .3328 .3339 .3350 .3361 .3372 .3384 .3395 .3406 .3417
.330 .3428 .3439 .3451 .3462 .3473 .3484 .3490 .3507 .3518 .3530
.340 .3541 .3552 ,3564 .3575 .3586 .3597 .3609 .3620 .3632 .3643
.350 .3654 .3666 .3677 .3689 .3700 .3712 .3723 .3734 .3743 .3767
.360 .3769 .3780 .3792 .3803 .3815 .3826 .3838 .3S5Ó .3861 .3873
.370 .3884 .3896 .3907 .3919 .3931 .3942 .3954 .3966 .3977 .3989
.330 .4001 .4012 .4024 .4036 .4047 .4059 .4071 .4083 .4094 .410$
.390 .4118 .4130 .4142 .4153 .4165 .4177 .4189 .4201 .4213 .4225
.400 .4230 .4243 .4260 .4272 .4284 .4298 .4308 .4320 .4332 .4344
.410 .4350 .4308 .4380 .4.392 .4404 .4418 .4429 .4441 .4453 .4405
.420 .4477 .4489 .450! .4513 .4526 .4538 .4550 .4562 .4574 .4587
.430 .4599 .4611 .4623 .4636 .4648 .4660 .4673 .4685 .4607 .4710
.440 .4722 .4735 .4747 .4760 .4772 .4784 .4797 .4809 .4822 .4835
.450 .4847 .4860 .4872 .4885 ,4897 .4910 .4923 .4935 .4948 .4961
.460 .4973 .4985 .4999 .5011 .5024 .5037 .5049 .6062 .6075 .6083
.470 .5101 .5114 .5126 .5139 .51512 .5165 .6178 .5191 .6204 .6217
.430 .5230 .5243 .5256 .5279 .5282 .5285 .5308 .5321 .6334 .5347
.490 .5361 •53j 4 .5387 .5400 .5413 .6427 .6440 .5453 .6466 .5480

F uente: Albert E. Waugh, Statistical Tables and Problems, McGraw-Hill


Book Company, Nueva York, 1952, cuadro All, pp. 40-41, con la amable auto-
rización del autor y el editor.
Cuadro K [ conclusión]
ttwnrtamraMCEgg

T .000 .001 ] .002 .003 .004 .005 -C O G .007 .009


500 5493 5506 5520 .6533 5547 .ssr.o .5573 .5587 .5000 .5614
510 5027 5041 5054 S f ifiS . 508 1 5095 . 5709 .5722 . 5730 .5750
520 57G3 5777 5791 5805 .5818 . 5832 . 5840 . 5800 . 5874 .583S
530 .5901 591r> .5929 51'4 3 . 5957 .5971 5985 .5999 .0013 .0027
540 6012 0056 6070 .0084 .0098 0112 .0127 .6141 .6155 .6170
550 6184 6198 .6213 .6227 0241 .6256 .6270 .6285 .6299 .6314
500 «32S 0343 .0353 6372 6387 .6401 .6416 .6431 .0440 .0400
570 0475 6490 .6505 6520 . 6535 .0550 .G5G5 .6579 . 0594 .6610
580 0025 .0640 0055 6070 0085 . 6700 .0715 .6731 .6746 .6761
590 6777 0792 C807 6823 0838 . 0354 .6869 .6835 .6900 .6916
600 .6931 .6947 6963 .6978 .6994 .7010 .7020 .7042 .7057 .7073
.610 7089 .7105 7121 7137 7153 7109 .7185 .7201 .7218 .7234
620 7250 .7206 7283 7299 .7315 .7332 .7348 .7364 .7381 .7393
630 7414 .7431 .7447 7464 .7481 .7497 .7514 .7531 .7548 .7565
<340 7582 7599 7616 7033 7650 .7667 .7084 .7701 .7718 .7736

.650 .7753 7770 7788 7805 .7823 .7840 .7858 .7875 .7803 .7910
CGO 7928 7940 .79G4 7981 .7999 .8017 .8035 8053 .8071 .8039
670 8107 812G 8144 8102 .8180 .8199 .8217 .8236 .8254 .827»
080 8291 8310 8328 .8347 8300 .8385 .8404 .8423 .8442 .8461'
690 8480 8Í99 8518 .8537 .8550 .8576 .8595 .8614 .8034 .8653
700 8073 8003 87 *2 .8732 .8752 .8772 .8792 .8812 .8832 .8852
710 8872 8S92 -8912 8933 .8953 .8973 .8994 .9014 .9035 .9058
720 9070 9007 9118 9139 9160 .9181 .9202 .9223 .9245 .9260
730 .9287 9309 .9330 9352 .9373 .9395 .9417 .9439 .9461 .9483
740 9505 9527 0549 .9571 .9594 .9610 .9039 9601 .9684 .9707
750 9730 .9752 .9775 .9799 .9822 .9845 .9808 .9892 .9915 .9939
760 9902 9986 1.0010 1.0034 1.0058 1.0082 1.0100 1.0130 1.0154 1.0179
770 i 0203 1 0228 1.0233 I .0277 1.0302 1.0327 1.0352 '1 .0 3 7 8 1.0403 5.0428
780 1 0454 l 0479 1 0505 i 0531 1.0557 1.0583 1.0009 1.0035 1.0601 1.0688
790 1 0714 l 0741 1.0708 1.0795 1.0822 1.0849 1.0876 1.0903 1.0931 í.o o sa
800 1 0986 1.1014 t .1041 1.1070 1.1098 1.1127 1.1155 1.1184 1.1212 1.1241
850 l 1270 I 1299 1.1329 1 1358 1.1388 1 1417 1.1447 1.1477 1.1507 1.1538
820 1 1568 1 1599 1 1030 1.1600 1 1092 l . 1723 1.1754 1.1786 l . 1817 1.1849
830 1 1870 1 1913 1.1946 1 1979 1.2011 1.2044 1.2077 12111 1.2144 1.2178
840 1.2212 1.2246 1 2280 1.2315 1.2349 1.2384 1.2419 1.2454 1.2490 1.2526

850 1.2561 1 2598 1.2634 1 2670 1.2708 1.2744 1.2782 1.2819 1.2857 1 .2S95
.SCO l 2934 1.2972 1.3011 1 3050 1.3089 1.3129 1.3168 1.3209 1.3249 1.3290
.870 1 3331 l .3372 l 3414 1 3456 1.3498 1.3540 1.3583 1.2620 I . 3670 1.3714
880 1 3758 I 3S02 1 3847 1.3892 1.3938 1.3984 1.4030 1.4077 1.4124 1.4171
.890 1 4219 1.4268 1 4310 1 4300 1.4415 1.4405 1.4516 1. .4566 1.4018 1.4670

.900 1 4722 1.4775 1.4828 1.4883 1.4937 1.4992 1.5047 1.5103 1.5100 1.5217
.910 1 5275 1 5334 l .5393 1.5453 1.5513 1.5574 1.5030 1.5093 1 .57G2 1.5825
.920 1 5890 1.5950 1 .0022 l 0089 1.0157 1.6226 1.6290 1.6300 1.0438 1.6510
.930 1.6584 l.GG59 1.6734 1.0821 1.0888 1.0907 1.7047 1.7129 1.721L 1.7295
.940 í .7380 1,7407 1.7555 1.7045 1.7736 1.7828 1.7923 1.8019 1.8117 1.8216

.950 1.8313 1.3421 1.8527 l 8035 1.8745 1.8857 1.8972 1.9090 1.9210 1.9333
.960 1.9459 1.9588 1 .9721 1.9857 1.9990 2.0140 2.0287 2.0439 2.0595 2.0756
.970 2 0923 2 .1095 2.1273 2 1457 2 .1649 2.1847 2.2054 2.2209 2.2494 2,2729
.980 2.2076 2.3223 2 3507 2.3790 2.4101 2.4426 2.4774 2 .5147 2.5 5 5 0 2.5988
.990 2.0407 2 .6990 2.7587 2 8257 2.9032 2.9945 3.1 0 6 3 3 .2504 3.4 5 3 4 3.8002
L ......
r 2
.9999 4.95172
.99999 6.10303
IV .l. H istogram a de intervalos iguales . . . . . . 61
IV .2. H istogram a de intervalos desiguales y altu ras p ro ­
porcionales a las f r e c u e n c ia s .....................................62
ÍV.3. H istogram a de intervalos desiguales y áreas p ro ­
porcionales a las f r e c u e n c ia s .....................................62
IV.4. Polígono de f r e c u e n c i a ................................................. 63
IV .5. Ojiva que re p resen ta u n a distribución de frecuen­
cia ac u m u la tiv a ................................................................. 64
V.l. Relación en tre la asim etría y las posiciones rela­
tivas de la m edia y la m e d i a n a . ...............................83
V.2. Una distribución b i m o d a l ...........................................86
V II.1. Com paraciones de curvas lisas con histogram as de
am plitudes diferentes de i n t e r v a l o ........................ 105
VII.2. C om paración de las áreas debajo de la curva y de­
b a jo del r e c t á n g u l o .......................................................106
VII.3. F orm a general de la curva n o r m a l ........................ 107
VII.4. Com paración de curvas norm ales de igual desvia­
ción e stán d a r pero de m edias diferentes . . . 108
VII.5. C om paración de dos curvas norm ales de m edias
iguales pero con desviaciones e stán d a r diferentes 109
VII.6. Com paración de una curva norm al con curvas de
su m ism a desviación están d a r pero d istin tas en
cuanto a las c i m a s ....................................................... 109
VII.7. Áreas debajo de la curva n o r m a l ...............................110
VII.8. C om paración de las form as e stá n d a r y general de
la curva n o r m a l .............................................................112
VII.9. Curva norm al, con porción achurad a rep resen tan ­
do el área en u n a sola c o l a ...........................................113
V II. 10. Curva norm al, con porciones achuradas p resen tan­
do áreas en am bas c o l a s ...........................................114
V II.ll. Curva n orm al con porción achurada, represen tan­
do el área en tre dos ordenadas . . . . . . 114
IX .1. Oscilación de la proporción de éxitos aproxim án­
dose al lím ite de . 5 0 ....................................................... 130
IX.2. R epresentación geom étrica de probabilidades, con
áreas proporcionales a P(A), P( B) y P( A & B ) . . 136
599
X .l. C om paración de las regiones críticas de pru eb as
de u n a sola cola y de dos colas, em pleando el ni­
vel de significación de . 0 5 ..........................................174
X I.l. C om paración de las distribuciones norm ales de
m u estreo p a ra m u estras de tam año diferente . . 188
X I .2. C om paración en tre las distribuciones de la pobla­
ción y de la m u e s t r a ...................................................... 189
XI.3. D istribución de la población de las probabilidades
de o b ten er caras de 1, 2, 3, 4, 5 o 6 con un dado
p e r f e c to .............................................................................. 192
XI.4. D istribución de m u estreo de las m edias de las ca­
ras, con dados perfectos y m uestras de tam año 2 192
XI.5. D istribución de m uestreo de las m edias de las ca­
ras, con dados perfectos y m u estras de tam año 3 193
XI.6. D istribución norm al de m uestras, con área achu­
ra d a rep resen tan d o un a región crítica de u n a sola
cola al nivel de significación de . 0 5 ........................197
X II.1. Com paración de las distribuciones de m u estreo de
u n a estim ación sesgada, con alta eficiencia, y una
estim ación no sesgada, de eficacia m enor . . . 214
XII.2. C om paración de intervalos de confianza con la dis­
tribu ción de m uestreo de la m edia, m ostrando p o r
qué los intervalos de confianza del 95 p o r ciento
com prenden ¡x el 95 p o r ciento de las veces . . . 217
X II.3. D istribución de intervalos variables de confianza
con resp ecto a un valor fijo del parám etro u . . 218
XII.4, C om paración de un intervalo de confianza del 95
p o r ciento con pru eb as de hipótesis al nivel de .05
m o stran d o el no rechazo de la m edia hip o tética jij,
que queda dentro! del intervalo1, y el descarte de la
(i2 hipotética, que queda fu era del intervalo . . 220
X IV .l. Funciones de potencia p a ra p ruebas de dos colas,
con a = .05, p ara m u estras de tam año variable . . 258
XIV.2. D erivación de la fuerza com o función de ([i — [x0) 260
XIV.3. C om paración de funciones de potencia p a ra p ru e­
b as de u n a y dos colas, con a = .05. a) R echace si
Z > 1.645. b) Rechace si Z < — 1.645. c) Rechace
si Z > 1.96 o si Z < - 1.96 ........................................... 261
X V II.l. F orm a general de la regresión de Y sobre X, o cur­
so de las m edias de los valores de Y p a ra valores
fijos de X ..........................................................................380
XVII.2. La ecuación lineal de regresión, m o stran d o in te r­
pretacio nes geom étricas de a y ¡3 ...............................382
XVII.3. La d istrib u ció n n o rm al b i v a r i a b l e ........................ 385
XVII.4. D iagram a de d ispersión y re c ta de m ínim os cu a­
d rad o s ............................................................. ...... 386
XVI 1.5. E cuación de m ínim os cuadrados, que m inim iza las
sum as de los cu adrados de las distancias vertica­
les y estim a la regresión de Y so b re X . . . . 388
XVII.6. D iagram a de dispersión y re c ta de m ínim os cua­
d rad o s p a ra los datos del cu ad ro X V II.1 . . . 392
XVI 1.7. D iagram a de dispersión que m u e stra las diferentes
fuerzas y direcciones de las relaciones en tre X y Y 393
XVII.8. D iagram a de d ispersión de u n a relación no lineal
perfecta, en que r — 0 ................................................. 395
XVII.9. D iagram as de dispersión que m u estran los efectos
posibles de valores extrem os de I . . . . . 398
XVII.10. D iagram a de dispersión que no m u estra relación
alguna den tro de u n reco rrid o lim itado de v aria­
ción de X, pero con relación positiva sobre el re­
corrido to ta l.........................................................................399
X V II.11. R epresentación geom étrica que m u e stra las desvia­
ciones resp ecto de la m edia Y com o u n a sum a de
desviaciones resp ecto de la re c ta de m ínim os cua­
d rad os y desviaciones de la re cta de m ínim os
cuadrados respecto d e la Y ........................................... 408
X V III.1. R epresentación geom étrica del hecho de que la
hipótesis de {3 = 0 es equivalente a la hipótesis
Hi = (Ja = • ■• = M*..........................................................
X V III.2. B anda de confianza con respecto de la recta de
m ínim os c u a d r a d o s .................................................... 422
XV III.3. Ecuación logarítm ica de m ínim os cuadrados de la
fo rm a Y = a + b log X .............................................. 427
X V III.4. C om paración de las desviaciones respecto de la rec­
ta de m ínim os cuadrados con las desviaciones re s­
pecto de las m edias de las c a te g o rías......................428
X IX .l. In terp retac ió n geom étrica de la regresión m últiple
de Y sobre I ] y I 3 .....................................................449
XIX.2. Plano de m ínim os cuadrados, que reduce al m íni­
m o las sum as de las desviaciones al cuadrado en
la dim ensión vertical Y .............................................. 450
XIX.3. R ectas de m ínim os cu ad rados indicando los resi­
du o s e n tre : a) Y y X 2, y b) e n tre X x y X 2 . . . 451
XIX.4. Las seis flechas causales posibles en tre X , Y y Z . 462
XIX.5. Relaciones causales posibles en tre X, Y y Z, to­
m an d o a Y com o variable dependiente y excluyen­
do la causalidad en dos d ir e c c io n e s .........................463
XIX .6. F o rm as de polinom ios de segundo, terc ero y cuar­
to g r a d o s ..........................................................................480
XIX.7. D atos hipotéticos con u n a p arábola de m e jo r aju ste 481
XX. 1. D atos hipotéticos que indican u n a débil correlación
to tal e n tre X y Y, p e ro correlaciones m ás fu ertes
d en tro de las categorías de A .....................................493
XX.2. D atos hipotéticos que indican u n a fu e rte correla­
ción to tal en tre X y Y, p ero correlaciones m ás dé­
biles d en tro de las categorías de A .........................494
XX.3. R ectas de pendientes iguales, que indican no in­
teracció n ................................... .......................................... 503
XX.4. C om paración e n tre re ctas separadas de m ínim os
cu ad rad o s y rectas a través de las m edias de cate­
gorías, p ero todas tienen la m ism a p endiente bw . 505
XX.5. In te rp re ta c ió n geom étrica de los cálculos de las
m edias Y a j u s t a d a s ....................................................... 512
XX.6. In terp retac ió n geom étrica de las m edias aju stad as
de Y m ediante deslizam iento de las m edias de ca­
tegorías paralelam ente a la re cta de pendientes b,„ 513
X X I.1. R elación e n tre el e rro r to tal y los erro res de m ues­
treo y no de m u e s t r e o ................................................. 554
111.1. N úm ero de delincuentes y de no delincuentes en
dos localidades hipotéticas . ..................................... 44
111.2. Proporciones de delincuentes y de 110 delincuentes
en dos localidades h ip o té tic a s .................................... 44
111.3. D istribución de los núm eros y porcentajes de ca­
sos trata d o s p o r tres agencias hipotéticas de servi­
cios d o m é s t i c o s ............................................................. 46
111.4. D istribución en porcentajes de los casos tratad o s
p o r tres agencias hipotéticas de servicios dom és­
ticos, con los porcentajes dispuestos verticalm ente 47
111.5. D istribución en p o rcentajes de los casos tratados
p o r tres agencias hipotéticas de servicios dom és­
ticos, con los porcentajes calculados horizontal-
m ente .......................................................................48
IV. 1. D istribución d e la frecuencia, con datos agrupados
en intervalos de 5 p o r c i e n t o .............................. 55
IV.2. D istribución de la frecuencia, con datos agrupados
en intervalos de 10 p o r ciento . . . . . . . 55
IV.3. D istribución de las frecuencias con datos agrupa­
dos en intervalos de 20 p o r c i e n t o .................. 56
IV.4. D istribución de frecuencia cum ulativa . . . . 60
V .l. Cálculo de la m edia de datos agrupados p o r el m é­
todo l a r g o .................................................................. 75
V.2. Cálculo de la m edia de datos agrupados p o r el m é­
todo c o r t o .................................................................. 77
V.3. Cálculo de la m edia da datos agrupados por el m é­
todo corto y de las desviaciones graduales . . 78
V.4. Cálculo de la m ediana de datos agrupados . . . 79
VI. 1. Cálculo de la desviación e stán d a r utilizando datos
a g r u p a d o s ............................................................... 100
XIV. 1. Cálculos p ara la p ru eb a de dos m uestras de Smir-
nov ............................................................................280
XIV.2. Cálculos de la p ru eb a de W ilcoxon de pares aso­
ciados ..................................................................... 282
XV .l. Cálculos de la ^ - c u a d r a d a ................................ 294
XV.2. Cálculo de la x-cuadrada sirviéndose de la fórm ula 295
603
XV.3. Cálculo de la ^-cuadrada p a ra una tabla de contin­
gencia de 3 x 3 ...................................................299
XV.4. C uadro m aestro p a ra correlacionar cuatro variables 322
XV.5. Serie de tablas de contingencia que relacionan dos
variables con dos controles sim ultáneos . . . . 323
XV .o.................................................................................................... 324
X V I.l. D atos p a ra el análisis de v a r ia n c i a .............. 333
XVI.2. R epresentación sim bólica de los datos p a ra el aná­
lisis de la v a r i a n c i a .............................................335
XVI.3. Cálculos p a ra el análisis de la variancia . . . . 342
XVI.4. D atos p a ra el análisis de variancia en dos form as 350
XVI.5. Cálculos p a ra el análisis de variancia, de dos fo r­
m as con p ru e b a de i n t e r a c c i ó n .............................. 357
XVI.6. Cálculos p a ra el análisis de variancia en dos fo r­
m as, con la interacción añadida den tro del térm i­
no de e r r o r ....................................................... 359
XVI.7. D atos y cálculos p a ra el análisis de variancia con
rangos d e K ru s k a l-W a llis ...........................................366
XVI.8. D atos y cálculos p a ra la p ru eb a de F riedm an . . 369
XVII. 1. D atos p a ra un p roblem a de correlación . . . . 390
XVII.2. D atos clasificados cruzados p a ra o b ten er correla­
ciones de datos a g r u p a d o s ...........................................404
XVII.3. Cálculos de la correlación de datos agrupados . . 405
XVII.4. Relaciones num éricas e n tre r, r2, 1 — r2 y ■y'l — 411
X V III.l. P ru eb a de análisis de variancia de la hipótesis g= 0 416
XVIII.2. P ru eb a de análisis de variancia p a ra el caso de no
l i n e a l i d a d ......................................................................... 429
XVIII.3. Cálculo del coeficiente de S pearm an de la correla­
ción de r a n g o ................................................................... 435
XVIII.4. Datos com parados p a ra el cálculo de la ta u de
K endall a p a rtir de datos a g r u p a d o s ........................ 440
X IX .l. P rueba de análisis de variancia p a ra la significa­
ción de la correlación m ú ltip le . . . . . . 485
XIX.2. P ru eb a de análisis de variancia p a ra la significa­
ción de la correlación p arcial rls..¿ ........................ 486
XX. 1. Cálculos p a ra el análisis de covariancia . . . 499-501
XX.2. P ru eb a de análisis de variancia p a ra la interacción 506
XX.3. P rueba de análisis de variancia p a ra la significa­
ción de la correlación prom edio intraclase ( q Z t -a ) 509
XX.4. P ru eb a de análisis de variancia p a ra la significa­
ción de las diferencias en tre m edias ajustadas . . 515
X X I.1. D atos p a ra calcular estim aciones de p arám etro s
de m u estras e s tr a tif ic a d a s .......................................... 545
A. C uadro de cuadrados y raíces cuadradas . . 565-577
B. N úm eros a l e a t o r i o s ................................................. 578-581
C. Áreas b ajo la curva n o rm a l..................................................582
D. D istribución de t ....................................................................583
E. V alores críticos de r en la p ru eb a de las secuen­
cias P = .05 ..................................................................................... 584
F. C uadro de probabilidades asociadas a valores tan
pequeños com o los valores observados de V en la
p ru e b a de M ann-W hitney (con dirección antici­
p a d a ) .............................................................................. 585-587
G. C uadro de valores críticos de U en la p ru eb a de
M ann-W hitney............................... .............................. 588-591
H. C uadro de valores críticos de T en la pru eb a de
p ares asociados y órdenes provistos de signo, de
W i l c o x o n ..................................................................................592
I. D istribución de la x2 ............................................................ 593
J. D istribución de F ....................................................... 594-596
K. Valores de la z p a ra valores dados de r . . . 597-598
Prefacio .................................................................................................................................... 9

P rim era P oste


I n t r o d u c c ió n
I. I n tr o d u c c ió n : o b je tiv o s y lím ite s d e la e s ta d ís tic a . 15

1 .1 . F u n c i o n e s d e l a e s t a d í s t i c a . . . . . . . 16
1 .2 . E l l u g a r d e l a e s t a d í s t i c a e n e l p r o c e s o d e l a
i n v e s t i g a c i ó n ....................................................................................... 19
1 .3 . A d v e r t e n c i a ........................................................................................ 2 0

B ib l io g r a f í a ................................................................................................. 21

I I . T e o r í a , m e d i c i ó n y m a t e m á t i c a s .............................................. 2 2

1 1 .1 . T e o r í a e h i p ó t e s i s : d e f i n i c i o n e s o p e r a t i v a s . . 22.
1 1 .2 . E l n i v e l d e m e d i c i ó n : e s c a l a s n o m i n a l e s , o r d i ­
n a l e s y d e i n t e r v a l o ............................................................... 2 6
1 1 .3 . M e d i c i ó n y e s t a d í s t i c a .......................................................3 2
1 1 .4 . O r g a n i z a c i ó n d e l l i b r o .......................................................3 7

B i b l io g r a f í a .................................................................................................4 0

S e g u n d a P arte
E s t a d ís t ic a d e s c r ip t iv a u n iv a r ia d a

I I I . E s c a la s n o m ín a le s : p ro p o rc io n e s , p o r c e n ta je s y ra ­
z o n e s ............................................................................................... .43

1 1 1 .1. P r o p o r c i o n e s ................................................................................4 3
1 1 1 .2 . P o r c e n t a j e s .................................................................................. 4 5
1 1 1 .3 . R a z o n e s ..............................................................................................4 9

B i b l io g r a f í a .................................................................................................5 2

IV . E s c a la s d e in te r v a lo : d is tr ib u c io n e s d e f re c u e n c ia
y r e p r e s e n t a c i ó n g r á f i c a ...............................................................53

I V . 1. D i s t r i b u c i o n e s d e f r e c u e n c i a : a g r u p a m i e n t o d e
l o s d a t o s ....................................................................................... 53
I V .2 . D i s t r i b u c i o n e s d e f r e c u e n c i a c u m u l a t i v a . . 60
I V .3 . P r e s e n t a c i ó n g r á f i c a : h i s t o g r a m a s , p o l í g o n o s
d e fre c u e n c ia y o jiv a s , ............................................ 61

B i b l io g r a f í a .................................................................................................6 6
606
V .l. La m edia aritm é tic a . ...................................... 67
V.2. La m e d i a n a ................................................................. 71
V.3. Cálculo de la m edia y la m ediana de datos ag ru ­
p ados .............................................................................73
V.4. Com paración de la m edia y la m ediana . . . 81
V.5. O tras m edidas de tendencia c e n tral . . . . 85
V.6. Deciles, cuartiles y p e r c e n tile s ...........................86
B i b l io g r a f í a ........................................................................ 88

VI. Escalas de in terv alo: m edidas de dispersión . . . 90


V I.1. El r e c o r r i d o ...............................................................90
VI.2. La desviación c u a r t i l ................................................. 92
VI.3. La desviación m e d i a .............................................92
VI.4. La desviación e s t á n d a r ........................................... 93
VI.5. El coeficiente de v a r ia b ilid a d ...............................101
VI.6. O tras m edidas r e s u m i d a s .....................................102
B i b l io g r a f í a ...........................................................................103

V II. La distribución n o r m a l ..................................................104


V II.1. D istribuciones de frecuencias finitas versus in­
finitas .......................................................................... 104
VII.2. F orm a general de la curva n o rm al . . . . 107
VII.3. Áreas bajo la curva n o r m a l ...............................109
VII.4. Ilustraciones suplem entarias del em pleo de la
tab la n o r m a l ..............................................................113
B i b l io g r a f í a ...........................................................................116

T ercera P a rte
E s t a d ís t ic a in d u c t iv a

V III. In trod ucción a la estad ística in d u c tiv a ..................... 119


V III.1. E stad ístic a y p a rá m e tro s ....................................119
V III.2. Pasos en la verificación de u n a hipótesis . . 120
V III.3. La falacia de a firm a r el consecuente . . 123
V III.4. La fo rm a de las hipótesis estadísticas . 121
B i b l i o g r a f í a ...........................................................................I ■’l

IX . P r o b a b ilid a d ...................................................... I
IX .l. P robabilidad a p r i o r i ........................ I
IX.2. P ropiedades m atem ática* ti» Ihn |ir<ili«ltilltlnil>*i I \1
IX.3. P e r m u t a s ....................................................................145
IX.4. V alores e s p e r a d o s ................................................. 151
IX.5. In dependencia y m uestreo aleatorio . . . . 153
B ibliografía . ....................................................................159

X. P ruebas de hip ó tesis: la distribución binom ial . . 160


X .l. La distrib ución de m u estreo binom ial . . . 160
X.2. Pasos en las p ru eb as e s ta d ís tic a s .........................164
X.3. Aplicaciones de la b in o m ia l.....................................177
X.4. Extensiones del b in o m io ...........................................181
X.5. S u m a r i o ..........................................................................183
B i b l io g r a f í a ...........................................................................186

XI. P ruebas de m u estras sim ples que im plican m edias y


proporciones ....................................................................... 187
X I.l. D istribución en m uestreo de las m edias . . . 187
XI.2. P ru eb a p a ra la m ed ia de la población, cono­
ciendo a .........................................................................194
XI .3. La distribución t de S t u d e n t ............................199
XI.4. P ru ebas que co m portan proporciones . . . 204
B i b l io g r a f í a ........................................................................210

X II. E stim ación de pu n to e i n t e r v a l o ...........................211


X II.l. E stim ación del p u n t o ........................................... 212
X II.2. E stim ación del i n t e r v a l o .....................................215
XII.3. in te rv a lo s de confianza p a ra o tros tip os de
p r o b le m a s ...................................................................221
XII.4. D eterm inación del tam año de la m u estra . . 224
B i b l io g r a f í a ........................................................................227

C u a rta P a rte
E s t a d í s t i c a s b iv a ria d a s y m u l ti v a r i a d a s
X III. P ruebas d e dos m u e s tra s : diferencia de las m edias
y las p ro p o rcio n es................................................ 231
X II I.l. P ru eb a de la d iferencia de las inedias . . 231
X III.2. D iferencia d e p r o p o r c io n e s ...............................240
X III.3. In terv alo s de c o n f ia n z a .....................................245
X III.4. M uestras d ep en d ien tes: pares asociados . . 246
X III.5. C om entarios a p ro p ó sito de los esquem as ex­
p erim entales y p ru e b as de significación . . 248
XIV. E scalas o rd in ales: p ru e b as n o p aram étricas de dos
m u e s tra s ................................................................................ 256
X IV .l. F uerza y eficiencia de la f u e r z a ..................... 257
XIV.2. La p ru e b a de las secuencias ( r u n s ) de Wald-
W o l f o w i t z ............................................................263
XIV.3. La p ru e b a de M ann-W hitney o de W ilcoxon 269
XIV.4. La p ru e b a de Kolm ogorov-Sm irnov . . 277
XIV.5. La p ru e b a de W ilcoxon de p ares asociados y
órdenes provistos de s i g n o ............................280
XIV.6. R e s u m e n ................................................................ 284
B i b l i o g r a f í a ....................................................................... 288

XV. E scalas nom inales : problem as de contingencia , . 289


X V .l. La p ru e b a de la ^ - c u a d r a d a ........................... 289
XV.2. La p ru e b a exacta de F i s h e r ............................301
XV.3. M edidas de la fuerza de la relación . . . . 306
XV.4. C ontrol de o tra s variables . . . . . . . 319
B i b l i o g r a f í a ....................................................................... 330

XVI. Análisis de la v aria n cia.................................................... 332


X V I.L Análisis sim ple d e la v a r ia n c ia ..................... 332
XVI.2. C om paración de m edias específicas . . . 343
XVI.3. Análisis bim odal de la variancia . . . . 349
XVI.4. A lternativas n o p aram étrica s del análisis de
v a r ia n c ia ................................................................ 365
X V I.5. M edidas de asociación: correlación in traclase 370
B i b l io g r a f í a ........................................................................376

X V II. Correlación y r e g r e s i ó n .............................................. 377


X V II.1. R egresión lineal y m ínim os cuadrad os . . 377
XVII.2. C o rre la c ió n ..........................................................393
B i b l io g r a f í a ....................................................................... 413

X V III. C orrelación y regresión [ conclusión] ....................... 414


X V III.l. P ru eb a de significación e intervalos de con­
fianza ...................................................................
X V III.2. C orrelación no lineal y regresión .
X V III.3. Efectos de los erro res de m edición .
XVIII.4. Escalas o rd in ales: correlación de inni">■
B i b l io g r a f í a ......................................

XIX . Correlación m últiple y parclnl ,


X IX .l. R egresión m ú ltip le y m ínim os cuadrados . . 447
XIX.2. C orrelación p a r c i a l ................................................451
XIX.3. C orrelación p arcial e in terp re tacio n es cau­
sales ...........................................................................461
XIX.4. M ínim os cuadrados m últiples y los coeficien­
tes b e t a ................................................................... 469
XIX.5. Correlación m últiple . ..................................... 473
XIX .6. R egresión m ú ltip le y no linealidad . . . 479
XIX.7. P ruebas de significación e intervalos de con­
fianza ......................................................................... 484
B i b l i o g r a f í a .......................................................................... 489

XX. Análisis de covariancia y variables sim uladas . . .491


XX.1. Relación de dos escalas de intervalo, control
de la escala n o m i n a ] ...........................................492
XX.2. Pvdación de u n a escala de intervalo y u n a es­
cala nom inal, co ntrol de la escala d e intervalo 510
XX.3. Extensiones del análisis de covariancia . . . 516
XX.4. Análisis de la variable s im u la d a .......................... 517
XX.5. O bservaciones f i n a l e s ...........................................521
B i b l io g r a f í a .......................................................................... 526

Q u in ta P a rte
M u e s tr e o
XXI. M u e s t r e o ................................................................................ 531
X X I.1. M uestreo aleatorio s e n c illo ........................... 532
XXI.2. M uestreo s is te m á tic o ........................................537
XXI.3. M uestreo e s tra tif ic a d o ......................................539
XXI.4. M uestreo p o r c o n g lo m e r a d o s ..................... 546
XXI.5. M uestreo sin p r o b a b i l i d a d ........................... 552
XXI.6. E rro res no de m u estreo y tam año de la
m u e s t r a .................................................................... 553
B ib l io g r a f í a ...........................................................................554

Apén d ices
I. R esum en de operaciones a lg e b r a ic a s .........................559

C u a d r o s ................................................................... .............................. 565

Indice de f i g u r a s ................................................................................599
ín d ice de c u a d r o s ..............................................................................603
Este libro se terminó de imprimir y encuadernar
en el mes de junio de 1994 en los talleres de En­
cuadernación Progreso, S. A. de C. V. (iepsa),
Calz. de San Lorenzo, 244; 09830 México, D. F.
Se tiraron 2 000 ejemplares.

También podría gustarte