Está en la página 1de 16

1381

Tamao de la muestra y anlisis de asociacin

Fernardo Corts

I...Presentacin del problema


Consideraciones de orden tcnico, entre las que se cuentan la naturaleza del marco muestral, los niveles de confianza con que se desea trabajar y los errores mximos que estamos dispuestos a tolerar, permiten establecer el nmero de unidades que debern componer la muestra. Por otra parte, en toda investigacin por muetreo existen restricciones presupuestarias que llegan a expresarse en un tamao muestral mximo posible. . La comparacin entre el tamao de muestra que emerge de argumentos tcnicos, con el que surge de consideraciones econmicas puede dar lugar a tres situaciones: i) Las restricciones presupuestarias arrojan un tamao de muestra mayor que el determinado por consideraciones tcnicas. En esta situacin el investigador puede tomar uno de dos caminos: mantener los niveles de precisin previamente establecidos y usar slo una parte del presupuesto, o bien gastar todo el dinero disponible con lo cual se puede aumentar los niveles de confianza o disminuir los tamaos esperados de los errores muestrales. ii) 'El tamao de muestra determinado tcnicamente es mayor que el permitido por las restricciones presupuestarias. En este caso habra que examinar los efectos que tendr sobre los niveles de precisin y de error el hecho de usar como tamao de muestra el nmero de observaciones permitidas por las restricciones financieras. En caso de que al realizar este anlisis se tenga como resultado que con el tamao de muestra econmico no se cumple las condiciones tcnicas mnimas, ser necesario tratar de acopiar mayor cantidad de recursos monetarios de manera que el nmero de observaciones muestrales se encuentre en el interior de la regin tcnicamente aceptable. Si estos esfuerzos resultasen infructuosos slo quedara abierta la alternativa de abandonar la idea de o?tener informacin a travs de procedimientos muestrales. iii) Coincidenera entre el tamao de muestra econmico y tcnico. Este caso no involu-

1382

TAMAO DE LA MUESTRA REVISTA MEXICANA DE SOCIOLOGA

1383

era ningn problema de decisin, aunque raras veces se presenta en situa_ ciones prcticas. Es usual que al examinarse los factores que subyacen a la determinac" del tamao de muestra se desplieguen argumentos de orden tcnicolo~ financiero anlogos a los que hemos presentado. Sin embargo, rara v ) se hace explcita la relacin entre los objetivos de la investigacin muestr~ y el nmero de observaciones que de ellos se derivan. a En efecto, gran parte de la teora del muestreo se dedica a los problemas de estimacin de parmetros poblacionales de carcter descriptivo como son las medias y variantes poblacionales. Los procedimientos de determ]; nacin de tamao de muestra no escapan a esta limitacin en la medida que usualmente responden a preguntas relativas a estimaciones de promedios o de totales. Pero, en ciencias sociales es corriente extraer muestras para analizar relaciones entre variables, las cuales, adems, casi siempre son cualitativas. En este tipo de estudio rara vez interesa conocer los valores poblacionales de medidas descriptivas. El propsito central de utilizar procedimientos muestrales como instrumento de recoleccin de informacin consistira bsicamente en estudiar la presencia o ausencia, la forma y la fuerza de la relacin entre variables. En consecuencia, el problema de determinacin de tamao de muestra abandona el mbito de la estadstica descriptiva de variables mtricas para ubicarse dentro de la estadstica de atributos. La estadstica de atributos no slo permite estudiar el grado de relacin entre pares de variables, sino tambin trabajar simultneamente con el cruce de tres o ms variables. La introduccin de variables cualitativas en el anlisis estadstico, establece una demanda creciente de observaciones, que de no satisfacerse conduce a una inadecuacin en la aplicacin de algunas tcnicas de anlisis. Consideremos, a manera de ejemplo, que estamos interesados en apoyar empricamente la hiptesis de una fuerte relacin entre la composicin o.rgnica del capital y el nivel de conflicto abierto que afecta al sector industrial de una sociedad. Supongamos que contamos con una serie cronolgica de datos por empresas en que se ha consignado tanto la composicin orgnica del capital como el nmero de huelgas que las ha afectado. Con esta informacin podramos construir una tabla de dos por dos como puede verse en el cuadro l. El cruce de variables ha hecho caso omiso de la fecha a que se refieren los datos, sin embargo sta puede ser informacin de importancia si la hiptesis tambin sostiene que la relacin entre las dos variables est afectada po.r la ubicacin estratgica de las empresas en el modelo de acumulacin. x, De esta manera, el sostn emprico de las ideas expuestas requiere del anlisis estadstico de unas tablas como las de el cuadro 2. *
La clasificacin de las empresas en la dicotoma estratgica-no estratgica hace uso de la informacin cronolgica en la medida que la ubicacin de una empresa determinada en una u otra de las dos categoras depender de la importancia de la rama de actividad dentro del modelo de acumulacin.

CUADRO

f
ORGANICA

COMPOSICION

DEL CAPITAL
ALTA ALTO NUMERO .DE HUELGAS BAJO

(C. O. C.)
BAJA

CUADRO 2
ESTRATEGICA (C.O.C.) ALTA ALTO
NUMERO DE

NO ESTRATEGICA (C.O.C,1 BAJA ALTO ALTA BAJA

HUELGAS BAJO
(2.0)

BAJO
(2. b)

El nmero de casillas ha pasado de cuatro (4) a ocho (8) con ~a introduccin de la tercera variable dicotomizada. A g.rosso modo podnamos afirmar que la incorporacin de la tercera variable dicotomizada ha mul2 tiplicado por dos los requerimientos de informacin: hemos pasado de 2 casillas a 22 X 2 = 23 casillas. . En consecuencia el nmero de observaciones necesarias para estimar la media muestral,' con ciertos mrgenes de precisin y con niveles proba, "1 1 que se rebilsticos dados, slo por casualidad podra ser sirm ar a aq~e. e quiere para estimar la fuerza de la relacin entre dos o mas. vanables _d atributos. Por lo tanto, no debe extraarnos que al determll1ar tamano~ de muestras mediante las frmulas que normalmente nos provee el muestre

1384

REVISTA MEXICANA 'DE SOCIOLOGA

TAMAO DE LA MUESTRA

1385,

aleatorio, stos resulten inadecuados para cumplir los requisitos estadsticos exigidos por el anlisis de asociacin. Ahora bien, el objetivo bsico de este trabajo es el de estudiar las pecu_ liaridades que surgen en el muestreo cuando nos interesa determinar el nmero de observaciones que nos permiten realizar el anlisis de asociacin al nivel de las exigencias impuestas por los objetivos de la investigacin. Con este propsito en perspectiva hemos optado por presentar, en primer lugar, las ideas fundamentales que dicen relacin con el clculo de tamao de muestra en muestreo aleatorio simple. Al mismo tiempo delineamos aquellas caractersticas del anlisis de asociacin que tienen injerencia directa sobre el nmero de observaciones necesarias para satisfacer los requerimientos impuestos por los mtodos estadsticos. A continuacin se propone un procedimiento para determinar el tamao de la muestra que cumpla, por una parte, con los requerimientos tcnicos que derivan del anlisis estadstico de atributos y que por otra, se vincule a los requerimientos 'impuestos por las necesidades del anlisis terico. Antes de entrar al corpus de este trabajo es necesario aclarar que la solucin que proponemos se deriva de la aplicacin de un criterio que puede o no ser objeto de discusiones. Sin embargo, en esencia, el mensaje que deseamos transmitir se refiere a la no consistencia lgica entre los mtodos comunes en uso para determinar tamaos de muestras y el tipo de preguntas que emergen desde el mbito de las ciencias sociales respecto al nmero de observaciones necesarias para estar en condiciones de realizar un anlisis estadstico que permita el cruce simultneo de un conjunto determinado de variables cualitativas.

II. El tamao de muestra en muestreo aleatorio simple

Uno de los aspectos bsicos que se debe considerar al aplicar un muestreo se refiere al nmero de unidades que conformarn la muestra. En la seccin anterior hemos destacado la importancia prctica que tiene para cualquier investigacin muestral el disponer de una idea acerca de las ~on~ecuencias (en trminos de tamao de muestra) que se derivan de los cnt.enos tcnicos. A continuacin nos preocuparemos por estudiar las vinculaCIOnes terics entre las normas de precisin y el tamao de la muestra. . El primer elemento que se asocia con el tamao de la muestra (Sll~bolizado por n) es la discrepancia mxima que el investigador est dJ.spuesto .a aceptar (denotada por d) entre la media muestral y e1 pro m~ de la poblaci6n. Si bien an no se conoce la media muestra (x), porqu~ la determinaci6n del tamao de muestra es previo al muestreo mismo, ni

tampoco se sabe el valor de la media poblacional (Il), ello no impide que el investigador pueda fijar de antemano el error mximo que est, dispuesto a admitir, o en otros trminos, la discrepancia mxima admisible entre x y Il. Hay que destacar que d es el elemento que introduce el criterio bsico que gua el clculo del tamao de la muestra: estimar la media de la poblacin Il, con un nivel de precisin prefijado. En otros trminos, se trata de obtener un nmero de unidades muestra les tal que permita cumplir con el criterio de que la media muestral mo se desve de la poblacional en ms que una cierta cantidad. A medida que es mayor el valor del error mximo admisible (es decir, en cuanto menor es la precisin) que se exige en la investigacin menor ser el tamao de la muestra y a mayor precisin mayor tamao demuestra. En otros trminos la relacin entre n y d es inversa. ' El segundo elemento que se asocia con n es, el coeficiente de coriianza (simbolizado por t). El hecho que el error mximo admisible se defina como d = x - Il, implica que ser imposible garantizar que en una muestra especfica se alcance un valor igualo menor que el fijado Previamente por el investigador. El tamao que asuma d depender directamente del valor de la variable aleatoria x, es decir, de la muestra particular que haya sido seleccionada. En consecuencia, estaremos incapacitados para realizar previsiones puntuales referidas a d, pero ello no' impide que tomemos precauciones para garantizar que un porcentaje alto de las muestras posibles de ser seleccionadas cumplan con la condicin de generar errores muestra les menores o iguales al fijado por el investigador, .Ahora bien, en el grfico hemos representado la distribucin de frecuencia de las medias muestrales e incluido el criterio que plantea que el error de muestreo no debe ser superior a d. La aplicacin de este criterio genera dos lmites, uno superior (L.) Y otro inferior (L [) que definen un conjunto de valores de medias muestrales que cumplen con la condicin de precisin (que la discrepancia con Il sea menos que d). Como las medias muestrales tienden a distribuirse conforme una distribucin t de Student," la proporcin de muestras que entregarn como resultados' medas aritmticas en el intervalo definido por los lmites superior e inferior ser igual al rea que le corresponda en la curva de probabilidades. En consecuencia esta rea puede ser interpretada como el nivel de confianza que se utiliza para tomar la muestra. En el grfico hemos supuesto (cUlva 1) que el nivel de confianza es igual a 0.95. Es decir, que esperamos que de' cada 1'00 muestras 95 entreguen como resultado
Segn el teorema central del Imite las medias muestrales tienden a distribuirse normalmente en la medida que n tiende a infinito. Cuando se desconoce 'la varianza de la 'poblacin (0'2) Y se estima a travs de la varianza muestral entonces la variable aleatoria -;: sigue una distribucin t de Student. Al respecto ver por ejemplo; 'Lowell Wlnc Statistics for Scientists arul Engineers, Prentice Hall; 1964, p. 250.

1386

REVISTA

MEXICANA

DE SOCIOLOGA TAMAO DE LA MUESTRA

1387

valores para x en el intervalo definido por L y L. Y que slo en 5 de cada 100 muestras el valor de la media muestral escapar a estos lmites.
6RAF'ICO
f

fex)

--~t-----~--~------~~~~~ x
---:_;t~I~_~t~----------------~o~----------------L--L----~~ .. r +~I t
x-f.A. (1) E~ e~ grfico hemos agregado un eje horizontal t, paralelo al eje de abscisa x y que se relaciona con ste a travs de:

t"=---_

s/yn
~onde. todos los trminos han sido previamente definidos exce to s ue simboliza la desviacin tpica muestral, ** La variabl t' pd ' q ., e correspon e a una estan dari anzacion de x y la f' lId f" corr . ormu a que a e me establece una regla de . espoA nden;la entre los ejes horizontales que hemos incluido en el grf ICO. traves de . t es posible acce d er a las ta bl as de la distribucin . " . , de S d t~ ent y determma: la probabildau que corresponde al intervalo. n aumento. del m.vel de confianza, por ejemplo de 0.95 a 0.99 tendr d os efectos posibles" 1) Un' 1 ' h . .,' mcremento en e valor de d, siempre que no ublese alteracin en la curva de probabilidades ( biar . ., ni su dispersin) el Ilei , . ~o cam rara s~ pOSlcIOn . que se re ejara en un crecimiento del coeficiente de confianza t En el gr fi d . . . .; a.l~o se pue e apreciar que el nuevo error mxime admisihh- d , queda definido por los lmites L' Y L' 8 , lo que se traduce en

mayores valores en la escala del coeficiente de confianza t. Por lo tanto, a mayores niveles de confianza correspondern mayores coeficientes de confianza. ii) Un cambio en la dispersin de la curva si decidimos mantener constante el error mximo admisible. En efecto, si se decide mantener d, la nica alternativa de incluir una mayor porcin de rea bajo la curva consistir en disminuir su variabilidad. La dispersin de la distribucin de probabilidades (que responde a la frmula si Y n) se puede disminuir a travs de un aumento del tamao de la muestra o bien bajando el valor de la dispersin representada por s. Esta ltima alternativa queda fuera de las posibilidades de manejo del investigador ya que se relaciona con la dispersin de la poblacin, la que es un dato: en general a mayor dispersin de la poblacin corresponder un mayor valor de s. En consecuencia, el nico camino viable para aumentar el nivel de confianza ser el de tomar muestras con un nmero mayor de unidades, lo que nos permite concluir que dado el error mximo admisible, a mayores niveles de confianza correspondern mayores tamaos de muestras. Por otra parte habr una relacin directa entre la dispersin de la distribucin de frecuencias y el tamao de la muestra. Independientemente del nmero de unidades que compongan la poblacin (N), mientras mayor sea la concentracin de la variable, menor ser el n necesario para estimar f.A. con un d fijo y un nivel de confianza dado. Es evidente que si el tamao de la poblacin Al es sustanciahnente menor que el de la poblacin Az, pero a diferencia de Al, A2 presenta escasa dispersin, seguramente el tamao de muestra requerido ser menor (manteniendo los dems factores constantes). En el caso lmite en que una poblacin tenga varianza cero, bastar con una muestra de tamao uno para estimar la medida de la poblacin. Tal sera el caso, por ejemplo, en que se intenta estimar la estatura promedio de una poblacin en la que todos los miembros miden exactamente 1.72 mts. o bien, en que se trata de estimar la tasa de desocupacin de una poblacin plenamente ocupada. En general, el tamao de la poblacin tendr una relacin directa con el nmero de unidades que debern componer la muestra. Si mantenemos constantes los restantes elementos que juegan en la determinacin de n (d, t, 82), tendremos que a mayor N deber corresponder tambin un n mayor. Hemos visto que el tamao de muestra que surge de argumentos nicamente tcnicos se relaciona directamente con: i) el nivel de confianza, ii) la dispersin de la distribucin y iii) el tamao de la poblacin. E inversamente con el error mximo admisible. El n que deber tomarse en una situacin concreta surgir de la consideracin simultnea de todos estos factores, los cuales se conjugan en la siguiente expresin matemtica: no (2)
n=---

**

La varanza muestral varianza poblacional.

con

. enommador

(n -1)

es el estimador

no sesgado de la

1+N

no

1388 donde: (3)

REVISTA

MEXICANA

DE SOCIOLOGA TAMAO DE LA MUESTRA

1389

no=---

En la medida que el tamao de la pobl . . d ". . acion nen e a 1l1fmto Ia (2) tiende a confundirse con la (3) E d . u lOa Igualdad . . s ecrr rm n-n cia (3) nos entrega una frmula para cal l N-?Ico- _o en consecuen_ cu ar e tamano d l cuan d o e 1 tamano de la poblacin pued . e a muestra e ser consIderado . f . el punto d e vista del muestreo aplicad 1 m lmto. Desde lizar (3) siempre que la fraccin de m:e~:!.~:o( i~)res recomiendan utiy otros en aqullos casos en que sea infer n sea m~nor que 0.10 deber utilizarse slo si es adecuado ior a 0.05. La Igualdad (2) suponer que la p bl . , . concepto que se define como complementario l d bOl ~:1O? ~s .Emita, a e po acion infinj Has ta este punto hemos considerado l l ' . a. en la d:terminacin del tamao de mu~sStr: em~:t~s teclllcos. que juegan y se combman en una expresin mate ' ti p o~a ?artIcular como ' . ma ica. era lo mas m t los propoSItos de este trabajo es deja l 1 por ante para r tivo central de esta frmula tiene que e aramenlte es~able~ido que el objeblaci 1 ver con a estImacl dI' po aciona. Es una respuesta a la re unta . D ' n:: a medida la muestra para estimar la media de gbl ., (e) que tamao debe ser admisible no mayor que d y con ~o ladclOn IA.. con un error mximo un ruve e confIanza d . L a respuesta a esta pregunta slo lid e a por ciento? con la de la pregunta rCul e's el por cadsua1 ad tender a confundirse numera e observa . se requieren para realizar un 'l" d . cionrs muestrales que . , ana ISIS e contIngen . slmultaneamente un cierto nm d' era en que se cruzan era e varIables cualit ti ( . cuatro variables) constituidas por al ' a vas ~ ejemplo dicotmicas una tricotmica gunas c~te?onas (por ejemplo, dos , y una tetracotomlca)? Pero antes de abandonar esta secci f . adicionales que si bien ti . n nos re errremos a un par de temas muestreo aplicado slo tie~~~nu~mPo:rtancia. ,desde el ~unto de vista del de este trabajn Ha id . 1 'da vmcu.laclOn tangenclal con el corazn . n SI o me UI os debid ' dI' remos contrapuntear 1 . o a que mas a e ante necesita. os pasos prevIOS a la lecci d requIere el pr edi . reco eCCI n e la muestra que oc rmienro tradicio 1 ' seccin IV. na Con aquel que proponemos en la

1:

El ea '1culo del tamao de muestra ' 1 ' sentado requiere dI" ,segun as formulas que hemos pre. ' e conOCImIento de la . . tanclas en las que a h vananza muestral en circunsno estas impasse se puend se a. proc:dido ~ tomar la muestra. Para resolver . e recurrir a 1) la nf ., vananzas otras m t ~ ormaClOn que entregan sobre ue censal o iii) la apulesr~;~qd hayan trabajado la variable; ii) informacin lcaClOn e una muestra de il . ., R.especto a la . f ., e 1 umInaCIOn o muestra piloto. '. In ormaclOn censal sob . InvestIgador no re vananza, resulta obvio que el espera encontrar la v . . ese caso lo ms probable ~Ianza que le Interesa, porque, en y por consiguiente no nec ~t q~e tambin se conozca la media aritmtica es! aria tomar una muestra. Lo que debe buscar

es informacin que le permita estimar la varianza. Por ejemplo, puede buscar la varianza de una variable que tenga una relacin conocida o posible de estimar con la que interesa o si la informacin est desfasada en el tiempo, postular hiptesis respecto al desarrollo temporal de "la variable, o de la variable relacionada. La alternativa de la muestra piloto es la ms utilizada, en investigaciones aplicadas debido al escaso desarrollo de los mtodos para utilizar la informacin censal y a la precaria accesibilidad a datos censales desagregados. La muestra de iluminacin tiene como objetivos bsiccs estimar la varianza para alimentar la frmula de tamao de muestra y probar los cuestionarios de la encuesta. Normalmente, no se plantea la posibilidad de usar la informacin de la muestra de iluminacin, en la muestra definitiva. Sin embargo bajo ciertas condiciones esto parece perfectamente posible. Si la variable tiempo no juega un papel determinante en las caractersticas de las distribuciones de las variables bajo estudio, si el tiempo que media entre la obtencin de la muestra piloto y la definitiva no es extremadamente prolongado y el cuestionario no presenta deficiencias graves en las variables ms importantes, se podran usar las observaciones de la muestra de iluminacin en la muestra final. Esta misma estrategia, se puede seguir en el caso en que el tiempo afecte sustancialmente las distribuciones de las variables, pero el penado entre la muestra de iluminacin y la definitiva sea lo suficientemente breve como para que el impacto no sea significativo. Debe entenderse que en este caso, se est suponiendo que el cuestionario no presenta mayores problemas. El tamao de muestra que entregan las frmulas se .refiere a slo una variable, en circunstancias que rara vez se toma una muestra para conocer las caractersticas de la distribucin de una variable. Lo ms usual es disear una muestra para investigar un conjunto de variables. Para alimentar la frmula, debe decidirse respecto a qu variable se va a calcular el tamao de la muestra. Ahora bien, podramos recurrir al criterio de calcularIo para aquella que sea ms exigente en trminos de unidades muestrales. En otros trminos para aquella variable que necesite un mayor nivel de confianza, una estimacin ms precisa y que tenga una mayor varianza. En este criterio, se cumplen los requisitos tcnicos de.Ias otras variables, con mayor rigurosidad que las planteadas por el investigado.r. Tambin se usa a veces un criterio promedio. Pero, antes de aplicar algunos de los criterios reseados, es conveniente clasificar las variables que se van a investigar, en aqullas que son esenciales para la investigacin y aqullas que no 10 son. Una vez hecha esta decisin podremos operar segn los criterios expuestos.

1390

REVISTA

MEXICANA

DE SOCIOLOGA TAMAO DE LA MUESTRA

111. El proceder del anls

lS e asOCIaClOn

'.

1391

A~ c~~oen la seccin anterior no r . mm~clOn del tamao de muestra e~ %:ndlmos agotar. el ~ema de deter_ no mtentaremos llevar a b estreo aleatono sImple en ' a asociacin en que se cruz:u :muulnt~ exposicin detallada del a~lisis e~ae t raremos 1a estructura de tabl aneamente varia s vana . bl es. Slo mo id as que se generan en t . spor consi erarse que este aspecto de la a lic " . d es;. t~po de estudios es el que se entronca directamente co PI acron el anahsls de asociacin El estudio del grado de relaci ne. argumento de este escrito se aborda a travs de la l I.of~ e~:re variabl-, cualitativas normalmente * ., e asi icacion en tabla d cron entregada por censos o encuestas U s cruza as de la informa_ tabla bidimensional de frecuen . na vez que disponemos de la eras, se puede contin 1 'l' . nan do 1a relacin original en l" uar e ana ISISexami id e mtenor de distint b lecti III OSya sea por una o por el d . . os su co ecttvos defi,E cruce e vanas va bl ' n esta perspectiva se amen dos alt . n~ es. sistiria en examinar el d d ernatlVas al mvestigador Una . gra o e asociaci t d .' concolectivos definidos por una tercera El n en:e os vanables en submen d 1 laci . otro camino lo e titui . . e a re acion en subcolectivos definidos . ons 1 uma el exaSI bien esta distincin parece se b por conjuntos de variables. ., 1 r asicamenr- formal . d 1 cion en a medida que enfocamo st di '. ' pler e ta connotade control de variables. s es a istincin desde el punto de vista Al estudiar, a travs de una tabla cruzad . la fuerza de la relacin entre d . bl a, la presencIa o ausencia y . ., di os vana es podemos 11 VISlOn Istorsionada de ell E f . egar a tener una bi a. n e ecto el nivel d " , imos puede estar condicionad ' e asocracir, que percise nos puede aparecer una rel~ ~?r una tercera variable y de esta manera Lazarsfeld ** plantea a ttul d CIO~,a~nque ella s~lo sea aparente. Paul cigeas y la cantidad da' e. ejernp o una relacin entre el nmero de e naCImIentos la cual d controla por la urbanizacin S ' .esaparece una vez que se a que en las zonas rurales don~ p~senta a los ojos del. investigador debido natalidad tiende a ser ms eleva~a ay una may?r cantIdad de cigeas la neamente menos nacimientos ci ..ea en las Cl~~ades donde hay simultrural y otro urbano y examin: lagu n~s.. ~l definir dos subcolectivos, uno ellos se controla la . bl .rb ~SOc~~clOn en el interior de cada uno de vana e ur amzaClOn aparente desaparece en el . teri d Y consecuentemente la relacin El anlis' dI. ~~ error e cada contexto. IS e a asoclaclOn entre un d . colectivos definidos por una t '1 par e vanables dentro de sub. ercera so o pe.rmite 1 1 ' una varIable cada vez Si bar e contro estadstico de . n em argo, puede acontecer que el nexo que
Decimos" " que normalmente porque I T . corporar variables cualitativas aunqu e ana IS1S de regresin tambin permite in. Ve' ,e este uso se en "*Lar p~r ejemplo: Johnston J. Econometric Meth d J c~elJtWra. muy poco difundido. ~ars eld Paul, "La interpretacin de la o. s. o n Iley, 1972. p. 176. de Investigacin" en: Boudon y Lazarsfeld ~ re~aclO~es estadsticas Como propiedad 1974, p. 29. ' eto ologra de lus Ciencias Sociales, Laia,

las une se encuentre afectado por ms de una variable. En este caso el control estadstico requerir que se definan subcolectivos a travs del cruce de ellas para luego proceder a caracterizar la asociacin. En este caso la estrategia del control de slo una tercera variable cada vez resultara inadecuado. Ahora bien, el control simultneo de varias variables origina un nmero de tablas igual al producto del nmero de categoras contenidas en cada variable. As por ejemplo, si se estudia la relacin entre dos variables en un subcolectivo definido por dos variables control, una dicotmica y otra tricotmica, entonces el nmero de tablas ser igual a 2 X 3 = 6, es decir se trata de estudiar la asociacin en seis subcolectivos. En funcin de los desarrollos que presentaremos ms adelante nos interesa distinguir los niveles en que estudiaremos la relacin, los cuales se definen en trminos del nmero de variables control utilizadas: si se usa una variable control diremos que las tablas se encuentran en el nivel 1, si son dos entonces las tablas se ubicarn en el nivel 2 y as sucesivamente; se dir que la tabla original est en el nivel cero. En la medida que aumenta el nivel en el cual deseamos estudiar los vnculos entre las variables, la cantidad de informacin por tabla disminuye en promedio. Un fenmeno similar ocurre dentro de un mismo nivel si se aumenta el nmero de categoras por variable. En otros trminos, la cantidad de informacin por tabla tender a disminuir en la medida que mayor sea el nmero de categoras involucradas en las variables de la relacin original y mayor sea el producto de las categoras que conforman las variables control. Este mismo hecho pero mirado al revs, nos dice que dada una cierta cantidad de informacin y el nmero de categoras de las variables, habr limitaciones al nmero de variables que se podr considerar simultneamente, es decir, habr un lmite al nmero mximo de variables que se podrn controlar simultneamente el cual en ocasiones puede llegar a ser extremadamente reducido (no ms de dos variables control). Esta restriccin estadstica puede llegar a ser tan fuerte que impida o restrinja el trabajo que haba sido diseado tomando en cuenta nicamente elementos tericos. En lugar de suponer que la cantidad de informacin estadstica est dada, podramos partir desde el dominio de la teora e intentar establecer de antemano la cantidad de niveles que resultaran adecuados, as como el nmero de categoras de cada variable, ambas, tanto las categoras como las variables, consistentes con las preguntas tericas que han originado la investigacin, y a continuacin preguntarse por el nmero de observaciones que se requieren para llevar a cabo el trabajo. Como se puede apreciar la interrogante que se ha levantado es bastante dife.rente a la planteada por la teora estadstica del muestreo. Para una mejor comprensin de las consideraciones que hemos expuesto procederemos a desarrollar un ejemplo. Supngase que un investigador
20

1392

REVISTA MEXICANA DE SOCIOLOGA

TAMAO DE LA MUESTRA

1393

est interesado en estudiar el comportamiento poltico de los trabajadores en funcin de sus inserciones en el aparato productivo. "* Para ello, define la variable radicalismo poltico y la dicotomiza en radicales y no radicales, a su vez, a los trabajadores los clasifica en manuales y no manuales. Al cruzar ambas variables se genera una tabla con la estructura de la siguiente.

TABLA
M

3
HU

MI R' R'

HU"' M

M'

R
NIVEL 2

R'

TABLA
M
R

f
MI M = MANUALES M' = NO MANUALES R = RADICALES R'

13.1)

13.2 )

H'U
M R NIVEL

H'U'
M'
R M

NIVEL

= NO RADICALES
2
R

M'

R' ,
(3.3) U U'

R'

Una vez que se ha analizado la tabla anterior, el investigador desea estudiar la relacin en los subcolectivos de hombres y mujeres, para lo cual genera las dos tablas cuya estructura se presenta a continuacin:

=
.=

URBANO. NO URBANO

13.4 )

TABLA
M

H
M'

H!
M

M'

~
NIVEL 1 RI (2.1) H H'

R R'

HOMBRE MUJER

(2.2)

Por ltimo, interesa estudiar la relacin en los subcolectivos hombre urbano, hombre rural; mujer urbana y mujer rural. Estos subcolectivos se obtienen, abriendo las tablas anteriores, en dos cada una, generndose de este modo cuatro tablas.
En ste artculo, se supone que el nmero de variables y sus caractersticas se determinan en funcin de la teora sustantiva que el investigador est manejando. En la redaccin de esta seccin slo 56 estn considerando las consecuencias del discurso terico.

Supongamos que los intereses tericos del investigador lo llevan a plantear el anlisis estadstico a travs de la estructura de tablas que hemos presentado. Se trata entonces de realizar un anlisis que llega hasta el segundo nivel. Segn la definicin de nivel que hemos entregado, la primera tabla ser de nivel cero porque no hay variables control. Las dos tablas que vienen a continuacin se encuentran en el nivel 1 porque hay una variable control, el sexo. Las cuatro tablas restantes se ubican en el nivel 2 porque los subcolectivos se definen por el cruce de las variables sexo y urbanizacin. El examen de las tablas puede llevar a concluir que el anlisis de asociacin consiste en la simple estratificacin de una poblacin en que se procede al estudio de la relacin entre atributos en el interior de cada estrato. De aqu no sera demasiado difcil extender un poco ms el razonamiento para concluir entonces que el diseo muestral apropiado para este tipo de, problemas seria el aleatorio estratificado. Sin embargo, no debe olvidarse que el diseo tiene como propsito central hacer ms eficiente. el proceso de estimacin de parmetros poblacionales descriptivos y que al cientfico social le interesa fundamentalmente disponer de un nmero de casos que le permita llevar a cabo los anlisis que se derivan de su pensamiento terico.

1394

REVISTA

MEXICANA

DE SOCIOLOGA

TAMAO

DE LA MUESTRA

1395

IV. Tamao de muestra y anlisis de asociacin

As como en la aplicacin usual del muestreo aleatorio simple interesa llegar a tener una idea aproximada respecto al nmero de observaciones que son necesarias para estimar la media de la poblacin con ciertos niveles de precisin y confianza, en el mbito del anlisis de asociacin tambin debemos preocuparnos por determinar un tamao de muestra tal que permita realizar la investigacin emprica en concordancia con nuestras preocupaciones tericas. La pregunta que nos hemos propuesto slo podr tener una respuesta si el discurso terico se encuentra lo suficientemente desarrollado como para ayudar a construir los indicadores empricos de las variables tericas as como sus categoras. En otros trminos, la condicin mnima que posibilita la elaboracin de una respuesta a la pregunta que nos hemos formulado ser la de un desarrollo terico que permita establecer un plan de cruces de variables. En esta seccin nos proponemos como problema indagar respecto a la posibilidad de levantar una respuesta a la pregunta sealada. Trabajaremos con el supuesto que el plan de cruces es conocido, esto quiere decir que dejamos fuera de nuestras consideraciones el examen de los vnculos entre las ideas tericas y su traduccin en un conjunto de tablas, definidas por el cruce simultneo de variables cualitativas. Las ideas centrales sern. desarrolladas, en un primer momento, sobre la base de las tablas que hemos presentado .en la seccin anterior y a continuacin se entregar una generalizacin de ellas. Nos preocuparemos entonces, por indagar acerca de los elementos determinantes del tamao de muestra en anlisis de asociacin. Para ello partiremos del cruce de cuatro variables dicotmicas. El criterio que usaremos para calcular el tamao de muestra se refiere a una de las restricciones que impone la teora estadstica para aplicar la prueba ji-cuadrada (X2) de independencia estadstica, la cual establece que se tendr una buena aproximacin del estadgrafo X2 discreto a la curva continua de probabilidades X2, cuando todas y cada una de las frecuencias esperadas sean por lo menos iguales a cinco. * La informacin que se presenta en el grfico 2 (p. 1395) pretende recoger los elementos ms relevantes que intervienen en la determinacin del tamao de muestra cuando se utiliza el criterio que las frecuencias esperadas deben ser mayores o iguales que cinco. Cada rectngulo se refiere al nivel (nmero de variables de control) que, en el ejemplo que estamos utilizando, alcanza el valor mximo dos. Dentro de cada uno de ellos hemos incluido el nmero de observaciones por tablas, donde el subndice nos permite identificar al nivel que nos referimos, de este modo no representa al
Ver por ejemplo, Paul Hoel Introduction
1962, p. 247.
/0

-o.'"

N ..J 14.1

>

zL-------~--------+---------~--------t_----~

c:
..J

I&l

>

zL-------------~r-----------~----------~

t\I

8 ::
~
Q::

c:
O
..J 14.1

Mothemacal

Statistics,

John Wiley,

>

lS96

REVISTA

MEXICANA

DE SOCIOLOGA

TAMAO

DE LA MUESTRA

1397

nmero de observaciones en la tabla original, mientras que n, y n' 1 simbolizan al nmero total de unidades muestrales que componen la tabla de hombres y mujeres respectivamente ; n2, n'2, n"2, n"'2 denotan el nmero de casos en las tablas de nivel dos para los hombres urbanos, hombres no urbanos, mujeres urbanas y mujeres no urbanas respectivamente. Los rectngulos estn unidos por unas lneas que llamaremos ramas y que se encuentran identificadas por un nmero dentro de crculo, donde adems hemos anotado la proporcin de observaciones de una rama de nivel inferior que pasan a formar parte de una tabla de nivel superior. As por ejemplo, P1 simboliza la proporcin de observaciones de nivel cero que pasarn a formar parte de la tabla de hombres de nivel 1. (1-P1) , la proporcin complementaria, es decir, la que formar la tabla de mujeres. Los productos no P1 y no (1-Pl), entregan como resultado el nmero de casos que esperamos encontrar en la tabla de hombres y mujeres respectivamente. Supongamos que P1 0.6; luego (f-P1) 0.4; si en la tabla original, en que se ha cruzado la insercin ocupacional con radicalismo poltico contamos con 200 observaciones (no = 200), entonces 120 de ellas (200 X 0.6) pasarn a la tabla en que se ha controlado por la categora hombres y las 80 (200 X 0.4) restantes a la tabla de mujeres. Entre los niveles 1 y 2 encontramos dos probabilidades en lugar de una y sus correspondientes proporciones complementarias, ellas son la probabilidad condicional P2 que se refiere a la proporcin de urbanos entre los hombres y su complemento (1 - P 2) a los no urbanos entre los hombres. De manera anloga se define P' 2 Y (1 - P ,2), pero esta vez para las mujeres. Siguiendo con nuestro ejemplo, supongamos que P2 0.4 Y que P '2 = 0.5; luego, de los 120 hombres que tenamos en la tabla de nivel 1;48 (120XO.4) pasarn a la tabla para los hombres urbanos y 72 (120 X 0.6) irn a conformar la tabla en que se han clasificado los hombres no urbanos. Las 80 mujeres se distribuirn por partes iguales (40 = 80 X 0.5) entre las clasificaciones para las mujeres urbanas y rurales. Las probabilidades P que hemos asociado a cada rama nos permiten separar del total de observaciones cuntas deben ir a cada cuadro, es decir, nos sirven para seguir la mecnica que gobierna el paso de informacin estadstica de un nivel a otro, por ello hemos optado por denominarlas probabilidades de distribuci6n. El subndice que hemos asociado a cada P se refiere al nivel de destino, de este modo P 1 nos indica que se aplica al nivel cero o nivel de origen, para distribuir las observaciones en el nivel 1, en tanto que las probabilidades P2 simbolizan las proporciones que aplicadas sobre los totales del nivel 1 permiten separar los casos que formarn las distintas tablas del nivel 2.

1] Tamao

de muestra

para el nivel:

a) O
b) 1

no n1, para la rama


llf 2

1 y n: para la rama 2 para las ramas 1, 2, 3 Y 4 que unen los

e) 2 : ns, n'2, n"2 y n

niveles 1 y 2, respectivamente.

2] Probabilidades a) 1

de distribucin

para el nivel de destino:

P1 para la rama 1 y (1 - P1) para la rama 2. y para las

b) 2 P2 Y (1 - P2) para las ramas 1 y 2, respectivamente, ramas 3 y 4 usamos los smbolos P~ y (1 - P;).

Aun cuando hemos agotado los componentes del grfico 2, no hemos incorporado todava todos los elementos que influyen en el tamao de la muestra. Como el criterio que proponemos se refiere a la frecuencia que se espera en condiciones de independencia estadstica, se hace necesario incorporar las frecuencias marginales, puesto que las frecuencias esperadas igualan al producto de las probabilidades marginales multiplicado por el total de observaciones de la tabla. En consecuencia el tamao de muestra mximo requerido por un cruce particular resultar de considerar el producto mnimo de las probabilidades marginales. Mientras menor sea este producto, mayor ser el nmero de observaciones que debera haber en la tabla de modo que se cumpla con la restriccin. Obviamente, el producto mnimo resulta de la multiplicacin de dos proporciones mnimas. Por lo tanto slo nos interesa distinguir las probabilidades menores, que son las que originan el tercer conjunto de smbolos que debemos distinguir por niveles.

3] Proporciones

marginales

mnimas

para el nivel:

, en las lneas r~mln y en las columnas r~mln a) O


b)
1 1 , rama 1. En las lneas rlaru. n, 1 Y en las columnas r min.,2

1 , rama 2. En las lneas r~mID.2y en las columnas r~ID..2 e) 2; rama L En las lneas ~mID.l y en las columnas r~ln. \

La simbologa que hemos definido hasta este momento en:

se puede resumir

1398

REVISTA

MEXICANA

DE SOCIOLOGA

TAMAO

DE LA MUESTRA

1399

2' , rama 2. En las lneas 2' , rama 3. En las lneas

.r:m10,2 y en las columnas r;niO.,2


~mln,3

Este problema se puede resolver usando las relaciones: n~=n)l-P,)

Y en las columnas ~in.,~

2; rama 4. En las lneas ~min,4 Y en las columnas r,.,in.,.


Denominaremos casilla critica de una tabla a aqulla que se encuentra en la interseccin de la lnea y la columna que tienen menores proporciones marginales.

9]

n =nP

Al aplicar e! criterio de las frecuencias esperadas a su nivel menos exigente, es decir, que sean exactamente iguales a cinco tendremos:

reemplazando las ecuaciones 8 en las de la 9.

4] no r:.ln. r~min
Despejando no:

=5
El tamao de muestra necesario para cumplir las restricciones al nivel

O est dado por la ecuaci6n 5]. Este conjunto de ecuaciones se encuentran representadas en e! interior de los rectngulos de! grfico 2 y expresan los
tamaos de muestras para las tablas de los distintos niveles en funcin de nmero de observaciones de la tabla original (no) y de las correspondientes probabilidades de distribucin. De la misma manera se puede determinar los niveles 2.

r y

la frmula para ni y n: en Los tamaos de muestras en el primer nivel ni y n~ se obtienen reemplazando las ecuaciones 8, en las correspondientes igualdades 6.

6]

nl

= ri

5
ri
.mia,l

n~

min.,l

= r:

5
-l .min,2

min.,2

11] no = P 7]
nz

r
1

5
r1
.m t n.j

= r2
mln.,1

5 r2
.min,l

n~

5 = r mln.,2r~min,2
-:2,.----=---

min.,l

Las frmulas para el tamao de muestra en e! segundo nivel se obtienen n"2 -

x2min.,Sr.min,3

n'" 2-r2 - -,----- sr.


min.,.

al reemplazar las ecuaciones 10 en las igualdades 7. 12]


5
Do

.mln,.

Sobre la base de estas igualdades podemos calcular los tamaos de muestra requeridos para cada uno de los tres niveles. Sin embargo, lo que interesa es saber cul debe ser e! nmero total de observaciones que se debe tomar de modo que se respete el criterio de las frecuencias en los tres niveles. En otros trminos, hay que determinar un no, tal que las frecuencias esperadas, en los tres niveles y en cualquier tabla sean siempre mayor o igual a cinco.

= P 1 P2

~in.,l

r~mln,l

5 no = P1 (1
-

P) 2

2 r min.,2 r.m t n.a

1400

TAMAO REVISTA MEXICANA DE SOCIOLOGA

DE LA MUESTRA

1401

no = (1 - P1) (1 -

5 P2')

1""

min.,.

r2.min,

que se ha venido trabajando hasta el momento, es d~cr, cuatro var~ables dicotomizadas, en que dos de ellas se usan como variables control SImultneas.

Para un anlisis de asociacin a cuatro variables dicotomizadas, se dispone de siete frmulas. Es decir, se tendr tantos tamaos de muestras como tablas haya definido el investigador. Esta situacin, es similar al clculo de tamao de muestra .tradcional, cuando se trabaja con ms de una variable. En dicho caso, se tienen tantos tamaos de muestras, como variables distintas haya. Dada esta situacin, interesa determinar qu tamao de muestra se va a utilizar en definitiva. Obviamente deber utilizarse el mayor para as estar en condiciones de cumplir la restriccin en todas y cada una de las tablas. Para ello no es necesario hacer todos los clculos sino que bastar con determinar el tamao de la muestra para aquella tabla que entregue el menor denominador. En trminos del grfico nmero 2 esto significa determinar la 'rama crtica. El 'procedimiento para hacerlo consiste en:

Supngase que se dispone de la siguiente informacin:

TABLA 4
M R

M'
0,60

R'
1] Ubicarse al ltimo nivel, en este caso el nivel 2. 2] Determinar las celdas crticas, definidas por el producto las frecuencias marginales correspondientes. mnimo de 0,70 0,30

0,40 1,00

3] Obtenerla rama crtica, para lo cual es necesario determinar el producto de las proporciones marginales mnimas de la tabla por todas las probabilidades de distribucin que se encuentren en la rama.
4] Se divide el valor criterio asignado a la frecuencia esperada por aqul que ha resultado de aplicar el procedimiento descrito en el punto anterior. Al seguir los cuatro pasos sealados se determina el tamao de muestra al nivel O que cumpla en todas las tablas con el criterio impuesto.
R
M

TABLA

M'
0,30 R

M'
0,80

v.

R'

0,70 0,10 0,90 1,00

R'
0,80
(~.2)

0,20 0,20 1,00

Un ejemplo numrico

En esta seccin se desarrolla un ejercicio numrico en que se aplica el procedimiento recin sealado. El ejemplo est basado en la clasificacin

1402

REVISTA

MEXICANA

DE SOCIOLOGA

TAMAO

DE LA MUESTRA

1403

TABLAS ($
P2 =0,80

M
M

M'
7,7 25

HU M'
R

M'
0,40

17,3

0,10

R'
R'
0,10 (6.1 ) 0,90 0,90 0,100

11,7

5,3 13

17 42

R'
0,70
0,30 (6.2)

0,60

29

o,too
Para el nivel 1,

5
no
P~ : 0,10
l-P% :0,90 M' 0,80

= 0,20 X 0,10 X 0,30 = 833

H'U M
R

H''

M'
0,20
R

R'
0,10
( 6,3)

0,80 0,90 1,00

R'
0,90 (6.4 ) 0,10

.0,20 1,00

Este valor se determina en funcin de la celda crtica del nivel 2. Esta celda se encuentra en la tabla de la izquierda y las frecuencias marginales mnimas que la determinan son 0,10 y 0,30. El producto de las marginales de la celda crtica, y de la probabilidad de distribucin de esta tabla 0,20, entrega por resultado 0,006, en contraposicin con el 0,032 que entrega el producto de las marginales de la celda crtica por la probabilidad de distribucin en la otra tabla.

El resultado de la aplicacin de este tamao de muestra a las tablas de nivel 1, entrega los siguientes cuadros de frecuencias esperadas. Si se est interesado en determinar el tamao de la muestra, para cada uno de los niveles, se deben utilizar las frmulas 5, 11 v , 12 consecutivamente. Para el nivel la celda crtica est definida por la interseccin de la segunda lnea y de la segunda columna de manera que el nmero de ~bservaoiones que respeta la condicin de que la frecuencia esperada sea Igual a cinco es:
H M H

M' 45,0
50
R

M 426,6

M'
106,4 533

5,0

R'

12,0

1015,0

117

R'

106,4

426,6

133

t 7

1150

167

533

426,6

666

no

= 0,30 X 0,40 = 42
En el nivel 2 se tienen 4 tablas, y los productos de las marginales por las probabilidades de distribucin del nivel O al 1 Y del 1 al 2, se presentan en la tabla 7.

Generndose as, la tabla de frecuencias esperadas:

1404
TABLA

REVISTA

MEXICANA

DE SOCIOLOOA

TAMAO

DE LA MUESTRA

1405

7 de distribucin:

Productos de celdas crticas por probabilidades

La estrategia planteada en la seccin precedente se resume en la construccin de la tabla 7 y para calcular el tamao de muestra que cumple con el criterio que las frecuencias esperadas sean por lo menos iguales a cinco, bastar con dividir 5 por el valor mnimo contenido en ella.

0,0016

0,0048

0,0016

0,144

VI. Tamao de muestra y anlisis de asociacin: Generalizacin *


Las cifras de este cuadro estn ordenadas segn la disposicin de las tablas originales. As, el 0,0016 corresponde a la tabla que se ubica en el extremo izquierdo del segundo nivel, en tanto que el 0,144 a la tabla del extremo derecho en ese mismo nivel.

Aplicando la frmula para determinar el tamao de la muestra al nivel 2 y haciendo uso de la informacin contenida en la tabla anterior se tiene:
:)

La extensin de los resultados tericos que hemos obtenido sobre un conjunto cualquiera de variables cualitativas pluricotmicas requiere de una simbologia ms compleja que la usada hasta el momento. Una simbologa que permita un manejo fluido de las expresiones formales. Simbolicemos las probabilidades de distribucin por P I,.i+l;i (1) k (i+l) donde i=1,2,3, ... , m; j,k=1,2,3, ... , q con la restriccin que k(i)=
j(l+l)

no = 0,0016 = 3.125

De los cuatro sub ndices que afectan a p los dos primeros, i e (i + 1), nos sealan que las probabilidades de distribucin conectan dos niveles consecutivos. Los subndices j(1) y k(!+l) nos permiten ubicar la tabla j del nivel del origen i en relacin a la tabla k del nivel de destino (i 1). La condicin que k(l) j(i+l) nos indica que la tabla de destino en el

Aplicando este tamao de muestra para calcular las frecuencias esperadas se obtienen los cuadros:
HU M HU

nivel i es la de origen para el nivel (i+l). M'


45,0 50
R

De este modo, P12;1(1)3(2)

M'
15,2

es la probabilidad
50

de distribucin

que vincula a la tabla 3 del nivel 2

5,0

34,8

R'

45,0 50

405,0 450

450 500

R'

52,2 87

12,8

75
125

38

con la 1 del nivel L La rama del rbol contina a partir de la tabla 3 de destino con el nivel 2 que se convierte en la tabla de origen para el nivel 3. De acuerdo con la restriccin k(l) = j(I+l) al pasar del nivel 2 al 3 tenemos: 3(2) 3(3) Y las probabilidades de distribucin que siguen en la misma rama sern: P (3)k(4), donde k asume un valor igual al nmero de

23' 3

catego.ras de la variable control incorporada

al anlisis.

H'U
M R 5,0

H'U'

M'
45,0

M'
1S0 1,800

50

1.620

denotar la proporcin marginal mnima en las lneas de la tabla k del nivel (i 1). r\~~nk simbolizar la proporcin marginal mnima en las columnas de la tabia k del nivel (i 1).

r'::tn.,k

R'

20,0 25

180,0 225

200 250

R'

405 2,025

45
225

450 2,250

" En esta seccin no se agrega ningn concepto en relacin a 109 desarrollados previa. mente. Se ha incluido slo con el propsito de mostrar que las ideas ya presentadas son fcilmente generalizables. El lector que tenga dificultades con el manejo de smbolos matemticos puede pasarla por alto sin que ello tenga implicacin conceptual alguna.

1406

REVISTA

MEXICANA

DE SOCIOLOGA TAMAO DE LA MUESTRA

1407

Sabemos, en virtud del procedimiento que hemos descrito en la seccin anterior que el valor que interesa para determinar el tamao de la rnues.tra es el resultante del producto de las probabilidades de distribucin multiplicadas por las probabilidades marginales que determinan la casilla critica. Esto se puede expresar matemticamente como: 13]
1=1

P.
l,i+1:J

,(t)

(i+1)

r(t+1)

min"k

r(l+1)

.min,k

en que

t=1

Jt

,(i) t,t+1;J

(i+1) k

simboliza las probabilidades de distribucin

informacin para proceder al clculo del tamao de la muestra. El investigador debe de disponer, por lo menos, de algunas estimaciones relativas a va.rianzas de las variables bsicas de la investigacin y conocer el tamao de la poblacin, estratos, conglomerados, unidades de primera o n-sima etapa, segn sea el diseo muestral que haya seleccionado como el ms adecuado para abordar el problema que tiene entre manos. Esta informacin puede provenir, como ya hemos sealado, de otros muestreos que se hayan realizado, de datos censales o bien de muestras piloto o iluminacin. Por otra parte, las frmulas tradicionales para determinar el tamao de la muestra han sido construidas para estimar la media poblacional de una variable. En efecto, tanto el error mximo admisible como la varianza muestral (S2) expresan relacin con las caractersticas de una variable: S2 simboliza la dispersin de una variable particular y si el muestreo tiene como objetivo investigar sobre un conjunto de variables tendremos tambin un conjunto de varianzas y al ser todas ellas distintas se generarn tantos tamaos de muestra como elementos tenga el conjunto; d que representa la discrepancia entre la media muestral y la poblacional, tambin se refiere a una diferencia para una variable especfica, es evidente que el valor numrico que fije el investigador para d, depender de la naturaleza cualitativa o cuantitativa de la variable, por ejemplo, una diferencia de 0.4 puede ser muy grande si se trata de estima.r tasas de desocupacin y muy pequea si la variable es el ingreso en sucres. Disponer de una serie de valores para s2 y d es suficiente para justificar que en general habr tantos tamaos de muestras como variables, sin embargo, podramos considerar que no hay razn alguna para que todas las variables deban estimarse con los mismos niveles de confianza 10 que resultara en diferentes t para las distintas variables, hecho que refuerza la aseveracin relativa a varios tamaos de muestra. Para elegir entre los tamaos de muestra que resultan de la aplicacin de las frmulas es aconsejable, en primer lugar, reducir el universo de va.riables slo a aqullas que son consideradas bsicas o centrales para la investigacin. Una vez que se han eliminado las variables accesorias se puede seguir uno de los siguientes caminos: a) Seleccionar el mayor de entre todos los tamaos de muestras correspondientes a las variables bsicas; b) Tomar como tamao de muestra el promedio, el valor n mediano; el 1Z modal. La primera alternativa presenta como ventaja principal que ese nmero de observaciones debera cubrir con exceso las exigencias tcnicas (errores mximos admisibles y niveles de confianza) impuestas al proceso de estimacin, pero puede entregar como resultado final un n excesivamente grande. Puede acontecer que el valor mximo de tamao de muestra sea un valor extremo que no justifique un gasto adicional
21

que se encuentran

en la rama que lleva a la tabla k del nivel (i

+ 1) .

Las operaciones indicadas por esta expresin pueden ser vertidas en una tabla equivalente a la nmero 7 que hemos presentado en la seccin anterior, donde habr tantos valores como tablas ubicadas en el ltimo nivel. En virtud de los planteamientos ya realizados sabemos que para determinar un tamao de muestra que cumpla en todas las tablas con la condicin que las frecuencias esperadas sean por 10 menos iguales a cinco, se debe ubicar el producto mnimo de la rama por la casilla crtica, esto es equivalente a determinar: min

{3t

p,

,(i) k

(;+1) [

Ll+1;J

rO,+1)

m r n.j k

r(i+1)

.min,k

]}

en consecuencia el tamao de muestra que se requerir en la tabla original para que se respete el criterio que hemos impuesto resultar de: 14]

no==--~.--~~----~ __ ~ 5__ ~~ {; r..


rmn ,(1) (;+1) 1,1+1:J le

[r(i+1) m n.k

r(t+1) ]} .m n.k

As llegamos a disponer de una frmula general que nos permite establecer un tamao de muestra que en todas las tablas cumple con el criterio que las frecuencias esperadas deben ser por lo menos iguales a cinco.

VII. Algunas consideraciones adicionales

Los procedimientos muestrales normalmente en uso para estimar parmetros descriptivos de una poblacin demandan un conjunto mnimo de

1408

REVISTA

MEXICANA

DE SOCIOLOGA TAMAO DE LA MUESTRA

1409

significativo. El segundo camino tiene como inconveniente que el tamao de muestra elegido relaja los requisitos tcnicos para un conjunto de variables, aun cuando comparado con el criterio anterior es notoriamente menos exigente desde el punto de vista econmico. El procedimiento que hemos expuesto para determinar el nmero de observaciones que permita el cruce simultneo de un conjunto de variables tambin implica, como hemos visto, la necesidad de seleccionar un tamao de muestra entre los varios que resultan de multiplicar las proporciones de las casillas crticas de las tablas de ltimo nivel, por las correspondientes probabilidades de distribucin. Adems, el clculo de n tambin demanda en este caso de un trabajo previo de estimacin, pero en lugar de estimar las varianzas de las variables, se necesitan estimaciones de las probabilidades marginales y de distribucin. La informacin necesaria para llevar a cabo las estimaciones que se necesitan para calcular n pueden obtenerse a travs de censos, otras muestras o bien de la muestra de iluminacin. Como se puede apreciar el problema de estimacin previo al clculo del tamao de la muestra guarda un paralelismo estrecho entre el procedimiento propuesto y los usuales. La diferencia bsica entre uno y otro radica en las exigencias tericas formuladas por la tcnica. Cuando se trata de estimar medias y varianzas poblacionales, el papel de las proposiciones tericas se reduce a delimitar los indicadores y variables sobre los cuales se debe recoger informacin. Por ejemplo, una investigacin sobre formacin del proletariado en el agro puede demandar informacin relativa a las relaciones de explotacin, a las relaciones de propiedad y a las relaciones tcnicas, de manera que se pone el acento en las proporciones * de arrendatarios y propietarios, proporciones de compradores y vendedores de la fuerza de trabajo y en el nivel de desarrollo de las fuerzas productivas. La determinacin del nmero de obse.rvaciones necesarias para realizar el anlisis de asociacin no slo implica que las ideas tericas sean capaces de delimitar las variables sobre las cuales se debera obtener informacin, sino que pone la exigencia al nivel del desarrollo de un plan de cruces previo a la seleccin de la muestra. Esto implica que la teora debe ser lo suficientemente fuerte como para responder a tres rdenes de exigencias: a) El conjunto de variables a considerar, b) Las categoras probables que las compond.rn y e) Cuntas y cules se cruzarn simultneamente. Siguiendo con el ejemplo, podramos pensar que el plan de cruces debera contener tablas formadas por el cruce simultneo de las
,. Por ejemplo. Lenin, V. J.: El Desarrollo del Capitalismo en Rusia. Progreso, 1974, Cap. II. Mosc, Editorial

tres variables de modo que las observaciones deberan tender a agruparse en tres categoras. Aquellas que pertenecen a la celda definida por: venta de fuerza de trabajo y no propiedad de medios de produccin; compra de fuerza de trabajo, propietario de medios de produccin, que usan alto nivel de desarrollo de las fuerzas productivas y ni compra ni vende fuerza de trabajo sino que usa la fuerza de trabajo familiar, propietario de los medios de produccin y bajo nivel de desarrollo de las fuerzas productivas. En la estrategia que proponemos slo con el conocimiento del plan de cruces se sabr qu probabilidades marginales y de distribucin habr que estimar y en consecuencia slo a partir de l tendr sentido poregulltarse por el nmero de observaciones necesarias para llevar a cabo el anlisis de asociacin que demanda el esquema terico.

VIII. A modo de conclusiones

La intencin de este escrito ha sido la de poner en correspondencia la estrategia de anlisis emprico que destila del pensamiento terico, con el tipo de preguntas y consideraciones que surgen desde el mbito de la teora matemtica del muestreo. Hemos mostrado que las expresiones corrientemente utilizadas corresponden al criterio estadstico de garantizar que el error mximo admisible (discrepancia entre la media de la muestra y de la poblacin) no supere cierto valor con un nivel de confianza prefijado. Es decir, las frmulas que normalmente se usan para determinar tamaos de muestras se vinculan directamente a la estimacin de promedios poblacionales. En consecuencia, lo ms frecuente es que la solucin al problema sea montona con respecto a cualquier tipo de pregunta que se formule el investigador con respecto al nmero de observaciones. De este modo se .rompe con la correspondencia que debiera existir entre los criterios provistos por la estadstica y los que emergen del tipo de anlisis que demanda una construccin terica especfica. Por un lado tenemos un cuerpo de conocimientos desarrollados en el interior de la teora estadsti~a cuya estructuracin corresponde a una lgica interna y por otro, el manejo de un conjunto de categoras conceptuales que condicionan el tipo de anlisis que ms se adeca y que debieran traducir e en ciertos criterios que adems de delimitar el tipo de tcnicas a usarse nos permitan derivar las exigencias de cantidad de informacin. Segn esta ptica el origen del problema que hemos abordado se deposita en la no correspondencia entre los criterios meramente estadsticos que subyacen a la determinacin del

1410

REVISTA

MEXICANA

DE SOCIOLOGA

TAMAO DE LA MUESTRA

1411

tamao de la muestra y aquellos que derivan de los requerimientos de informacin para realizar un anlisis a travs de tablas cruzadas. Tal vez no est de ms sealar que aun dentro de la misma estadstica matemtica encontramos diversas frmulas para determinar tamaos de muestras que .responden a preguntas distintas de la simple estimacin de medias poblacionales. As por ejemplo,

es una frmula que nos permite calcular un tamao de muestra tal que se pueda someter a prueba una hiptesis nula en contra de una alternativa de una cola, de modo que los errores de tipo 1 y II alcancen valores prefijados." En esta expresin 02 es la varianza de la poblacion. !li y !lo son las medias poblacionales postuladas po.r las hiptesis alternativa y nula respectivamente. Za y Z~ son coeficientes que provienen de la curva normal y se calculan sobre la base del tamao de error de tipo 1 (a) y el tamao de error de tipo II (~). La idea central que hemos expuesto es bastante simple: debe existir una correspondencia entre los criterios estadsticos que pe.rmiten el desarrollo de fmulas pa.ra determinar n, con aquellos que derivan del discurso terico. Como hemos visto esta idea se encuentra avalada aun por los desarrollos dentro de la propia estadstica matemtica. En este texto hemos examinado las consecuencias que se derivan de un criterio particular que tal vez pueda llegar algn da a gozar de alguna popularidad entre aquellos estudios que deban recurrir al anlisis de asociacin. Sin embargo, no debe pensarse que nuestra proposicin constituye la nica alternativa, todo depender del tipo de pregunta estadstica que derive el investigador a partir de sus consideraciones de orden terico. As, por ejemplo, si deseamos realizar un estudio de contingencia con un conjunto de variables dicotmicas y adems hemos optado por usar el coeficiente Q de Yule para medir la fuerza de la relacin, podramos pensar en establecer como criterio para calcular n el que la discrepancia entre el valor muestral y el poblacional no sea mayor que un valor p.reviamente fijado con un determinado nivel de confianza. La no correspondencia entre la naturaleza de la frmula para calcular el tamao de la muestra y las demandas tcnicas que surgen del esquema terico no es la nica fuente desde la cual puede surgir una inadecuacin entre el nmero de observaciones de que se dispone y las necesidades de informacin que derivan de la tcnica de anlisis estadstico a usarse.
John E. Freund. Mothemotical Stmistics, Prentice Hal!, 1962, p. 265.

Es comn que en las investigaciones sociales se decida tomar una muestra tan grande como lo permitan las restricciones presupuestarias, las que normalmente son bastantes estrechas. No debe resultar extrao, entonces, que a veces se presentan a la consideracin del lector anlisis que contienen tan pocos datos que un cambio de una observacin de una casilla a otra pueda hacer variar el sentido de la relacin bajo estudio. Este hecho reviste especial gravedad en la medida que sabemos que las tcnicas de categorizacin de variables difcilmente entregan normas precisas para establecer unvocamente los cortes. La sensibilidad de los hallazgos empricos al escaso nmero de obse.rvaciones se puede obviar si el cruce de variables se lleva hasta el nivel en que se cumpla con los criterios exigidos por la estadstica. Este procedimiento partira de los recursos econmicos disponibles y en funcin de ellos limitara los alcances del anlisis, en circunstancias que pareciera que el inters del analista debiera consistir en el problema inverso: disponer de una idea respecto al nmero de observaciones que necesitara para llevar a cabo la investigacin que se ha propuesto. El riesgo de tomar un tamao de muestra sobre la base del presupuesto puede llegar al extremo de que el nmero de observaciones no sea suficiente para ayudar en la construccin de las respuestas a las preguntas ms elementales de la investigacin. En fin , el clculo del tamao de la muestra no se reduce simplemente a aplicar una frmula cualquiera extrada desde un libro de texto, por reiterado que sea su uso, sino que hay que compatibilizar las restricciones presupuestarias con tamaos de muestras que permitan llevar a cabo los anlisis empricos que derivan de las consideraciones tericas.

También podría gustarte