Está en la página 1de 3

CIENCIA 15

MARTES 19•OCT•21

Bastan unos cotidiana, en inferencias poblaciona-


les realizadas a partir de un puñado
divides ese número por el total de
porotos que sacaste. ¿Puedes tener

pocos botones
de casos? En este artículo nos aden- la seguridad de que esa proporción
tramos en el no tan misterioso mun- es la misma en el total de porotos
do de las muestras probabilísticas. dentro del saco? No. Si embargo,
si sacas un número muy grande de
Atributos, no casos puñados y estimas en cada caso la
Para comprender los aspectos lógicos proporción de porotos negros, obten-
Margen de error, intervalo y tan difíciles de especificar, que involucrados en las inferencias a drás una distribución de proporciones
de confianza, tamaño de la muchas veces relevamientos sobre partir de muestras, debemos antes que asumirá la forma del gráfico 1.
muestra. Hugo de los Campos poblaciones totales (por ejemplo, los que nada asumir que aquellas no se
nos hace un recorrido por censos) se corrigen con estimacio- realizan para conocer casos (como 1. DISTRIBUCIÓN DE PROPORCIONES
terrenos de la estadística que nes realizadas sobre muestras (por personas, partículas de salsa o gotas OBTENIDAS EN UN GRAN NÚMERO
vale la pena tener presentes no ejemplo, las encuestas continuas de de agua que salen de rosetas) sino DE MUESTRAS
sólo al hablar de ciencia, sino hogares) en cuya aplicación participa atributos que se manifiestan en casos.
también en un país que mira las personal especializado. De modo Cada persona es única, eso es
encuestas con suma atención. que, aunque resulte contraintuitivo, cierto. Pero también lo es cada gota
las buenas muestras suelen ser más de agua, como cada roca, cada es-
hugo de los campos* precisas que los relevamientos sobre trella o cada mosca. Cuando pone-
poblaciones totales. mos la mano debajo de la ducha no

L
a mayor parte de la investigación Solemos utilizar muestras muy pretendemos conocer la inmensa
científica se realiza sobre unos pequeñas en términos relativos. Con variedad de las gotas de agua, sino
pocos casos, extraídos de una una gota de sangre pueden deter- sólo un atributo en particular: su
población mayor. En muchas ocasio- minarse con bastante precisión los temperatura, aquí y ahora. 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
nes debemos hacerlo por razones de niveles de glucosa en organismos Supongamos que queremos es-
costo y de tiempo. Piensa por ejemplo como los humanos, que en su edad timar la proporción de personas
Cómo leer el gráfico: Extrajis-
en las estimaciones del desempleo que adulta portan algo más de cinco litros adultas con opinión favorable a la
te muchas muestras del saco de
el Instituto Nacional de Estadística de sangre. Con 20 gramos de tierra derogación de la ley de urgente con-
porotos y calculaste en cada una
reporta mensualmente. Sólo pueden puede conocerse la acidez de un suelo sideración (LUC). Mientras que los
la proporción de porotos negros.
hacerse a partir de muestras. Censar de decenas de metros cuadrados. Del casos alcanzan los casi tres millones
Ordenas los resultados obtenidos,
a toda la población económicamente mismo modo, una buena muestra de (uruguayos mayores de 18 años), la
ubicándolos en el lugar del eje que
activa del país cada mes resulta im- individuos humanos permite conocer proporción en que el atributo ocurre
va de 0 (ningún poroto negro) a 1
posible por una cuestión de recursos. con bastante precisión la distribución en la población, que es lo que nos
(todos los porotos negros) según cuál
En otras sería insensato hacerlo, de comportamientos, opiniones o interesa, puede variar entre 0 y 1.
haya sido la proporción de porotos
con independencia de los costos. actitudes en toda la población del O, si preferimos expresarlo en por-
negros que obtuviste en cada una.
Las pruebas de efectividad de las país que habitan. De hecho, utiliza- centajes, entre 0% y 100%. Se trata
Tras la extracción de un número muy
vacunas contra el SARS-CoV-2 se mos este procedimiento en la vida de un rango relativamente limitado,
grande de muestras, las columnas
hacen en muestras de personas. No cotidiana todo el tiempo. en especial si decidimos prescindir
asumirán una forma muy similar a
tiene sentido vacunar a toda la pobla- Muchos de nosotros, antes de en- de los decimales. Del mismo modo,
la que muestra el gráfico.
ción para evaluar si las vacunas son trar a la ducha, mojamos los dedos en si nos interesa estimar la edad pro-
Si te tomas la molestia de contar
efectivas. La idea es saberlo antes de el agua para evaluar si la temperatura medio (en años cumplidos) de una
todos los porotos blancos y todos los
iniciar una intervención planetaria. es la que deseamos. Se trata de un población, con independencia del
negros del saco, y calcular luego la
En todos los casos existe, sin em- conjunto muy pequeño de gotas de tamaño que tenga, el valor se hallará
proporción de estos últimos, com-
bargo, una razón adicional de orden agua, en comparación con las que dentro de un rango con una amplitud
probarás que el valor obtenido en la
técnico: si bien las estimaciones a conforman los litros que descienden menor a la centena.
población es similar al que obtuviste
partir de muestras introducen un tipo de la roseta. Cuando era niño, en
en las muestras ubicadas en el centro
de error que llamamos estadístico, la casa donde vivía se solía cocinar La distribución normal
de la distribución. En el ejemplo, 0,6
toda recolección de datos produce pasta los domingos al mediodía. En Si estamos dispuestos a considerar
(o 60%) de porotos negros.
además los llamados errores de me- algún momento previo a la comida, asuntos humanos como atributos,
Conocemos la forma de este grá-
dición. Estos ocurren en los propios alguien tenía que ir a probar la salsa idénticos formalmente a los que pue-
fico como distribución normal. Esta
procesos de recolección de la infor- para saber si estaba ácida. En tal den observarse en el resto del mundo,
fascinante propiedad de la naturaleza
mación. Cuando, por ejemplo, utili- caso se le agregaba un poco de azú- nos encontramos en condiciones de
es confirmada sistemáticamente des-
zamos un formulario con preguntas car. Para determinar la acidez de la conocer cómo funcionan las inferen-
de hace decenas de años en los más
(una encuesta nos viene a la mente), salsa bastaba ingerir sólo parte del cias por muestreo. En lo que sigue
diversos campos de la investigación
distintos modos de formularlas por contenido de una cuchara de las de utilizo como ejemplo la estimación
científica. Destinamos recientemente
parte de los entrevistadores, de ha- café. Eso también es muy poco en de proporciones, aunque el razona-
un artículo a describirla (ladiaria.
cer aclaraciones a los entrevistados relación con los litros de salsa que se miento aplica, con leves ajustes, a
com.uy/AVLF).
o de registrar sus respuestas pro- cocinan en una casa con una media promedios o cantidades absolutas.
Pero ¿de qué me sirve esta fasci-
ducen errores en las mediciones. de nueve comensales. Piensa en una población del tipo
nante propiedad de la naturaleza para
Típicamente, cuanto más grande Es claro que para este tipo de mues- que sea, como un conjunto de porotos
mi problema de los porotos? Si para
es el número de casos, menos error tras no basta un botón. Pero pareciera blancos y negros en un saco. Quieres
estadístico se obtiene, pero más error que unos pocos resultan suficientes. estimar la proporción de porotos
de medición se acumula. Los errores ¿Cómo es posible confiar en la inves- negros en el saco. Tomas un puña-
de medición suelen ser tan grandes tigación científica, como en la vida do de porotos, cuentas los negros y
CIENCIA
Muchas veces pensamos que eso El problema no es equivocarnos,
2A. DISTRIBUCIÓN DE MUESTRAS DE
depende del tamaño de la población. sino no saber cuánto
UNA POBLACIÓN HOMOGÉNEA
Si es chica requeriré una muestra chi- Piensa en la precisión de tus estima-
ca; si es grande, una grande. No es así. ciones muestrales como el volumen
conocer la proporción de los negros Al menos no a partir de poblaciones de un audio que se puede aumentar
en el saco debo extraer miles de mues- con cierto número de casos (10.000 o reducir con dos perillas. La prime-
tras, prefiero dar vuelta el saco y con- es un buen número). ra dice heterogeneidad del atributo;
tar todos los porotos blancos y todos Piénsalo de este modo: si para es- la segunda, tamaño de la muestra.
los negros. Tenemos una alternativa timar el grado de acidez de un litro En realidad, sólo puedes mover la
menos costosa. No es exacta, pero se de salsa basta probar una cucharada, segunda. Los atributos son más o
aproxima. En un par de apartados te para estimar eso mismo en diez litros menos heterogéneos en el mundo,
la presentamos. de salsa, ¿necesitas probar diez cucha- con independencia de lo que tú hagas
radas? No, basta con una en ambos 1 o dejes de hacer.
Mezclar bien casos, siempre que hayas revuelto bien Como no sabes cuánta variabilidad
Buena parte de las recetas de cocina la salsa. Lo mismo vale para la gota tiene tu atributo en la población, una
dicen en un momento: ahora mez- de sangre en el caso de un humano 2B. DISTRIBUCIÓN DE MUESTRAS opción conservadora es subir esa pe-
clamos bien todos los ingredientes. bebé, un humano adulto o un elefante. DE UNA POBLACIÓN MUY rilla al máximo, es decir, suponer el
Pues en lo que refiere a las muestras En este caso el sistema circulatorio se HETEROGÉNEA RESPECTO máximo posible de heterogeneidad
probabilísticas, este es el requisito encarga de mezclar. Por eso, aunque DEL ATRIBUTO EN ESTUDIO (cuando trabajamos con proporcio-
de inicio. Si los casos (en realidad, también resulte contraintuitivo, con nes, poner la perilla en 0,25). Ahora
los valores que asume el atributo de una buena muestra aleatoria de igual sólo tienes que tomar una decisión
interés, en los diferentes casos) no tamaño puedes obtener estimaciones respecto de la segunda perilla: el
se encuentran bien mezclados, no bastante precisas de comportamien- tamaño de tu muestra.
sale la torta. Si podemos determinar tos, opiniones o actitudes en Uruguay, Cuanto mayores sean sus tamaños,
la cantidad de glucosa en sangre México o India. El tamaño, en este siempre que sean aleatorias, menos
analizando una gota es porque los asunto, no importa. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 variación observarás en los estimado-
niveles de glucosa se distribuyen res muestrales que obtengas tras las
uniformemente en todo el torrente Lo que importa es la variedad distintas extracciones. Vimos que, si
sanguíneo (se encuentran bien mez- El secreto está en la heterogeneidad de 3. INTERVALOS DE CONFIANZA ese tamaño es igual al de la población,
clados). Lo mismo sucede con la salsa la población en relación con el atributo Y MARGEN DE ERROR DE LAS las estimaciones coincidirán con el
de la pasta del domingo. Pero como cuya proporción, promedio o cantidad ESTIMACIONES MUESTRALES valor poblacional (primera alternativa
somos buenos en el arte de realizar queremos estimar a partir una muestra. de interpretación del gráfico 2A). Del
P es la proporción
inferencias a partir de muestras, Considera el gráfico 2A. Todas las del atributo en
mismo modo, cuanto menores sean
solemos, de todos modos, revolver muestras que extrajimos reportan la población sus tamaños, más indeterminada será
la salsa antes de probar una pizca. el mismo valor. ¿Cómo puede ser? la distancia entre las estimaciones
En términos técnicos debemos Existen dos posibilidades: o bien el muestrales y el valor poblacional.
asegurarnos de que todos los casos tamaño de todas las muestras coincide La distribución representada en el
tengan una probabilidad conocida, con el de la población, o bien todos gráfico 2B puede considerarse una
y distinta de cero, de resultar selec- los casos de la población presentan el ilustración de resultados de muchas
cionados. Comúnmente se utiliza la mismo valor en el atributo bajo estu- Margen de error P - 3% P P + 3% mediciones sobre muestras aleatorias
}

expresión igual probabilidad de ser dio. Si, por ejemplo, todos los porotos muy pequeñas.
seleccionados. Resulta más sencillo del saco son negros, cada muestra que Intervalo 95% de las posibles muestras Sabes que la distribución de los
de confianza
entenderlo de ese modo: si la probabi- extraigas, con independencia de su ta- promedios o proporciones que ob-
lidad de seleccionar un poroto negro maño, reportará una proporción igual tengas de todas las muestras aleato-
es menor a la de seleccionar uno blan- a 1. Si quieres estimar el promedio rias posibles que puedas extraer, de
co (por ejemplo, porque los porotos de edad de una población integrada poco. Para conocer cuán variadas son tamaño menor al de la población y
negros están en el fondo del saco) las exclusivamente por personas de 18 las edades en la población, necesito con algún grado de heterogeneidad,
muestras que extraiga no resultarán años, cualquier muestra que extraigas relevar todos los casos. Pero la idea es tenderán a distribuirse normalmente
muy confiables (voy a sacar sistemáti- te reportará una media de 18. En tales no hacerlo (si no, ¿qué sentido tiene (asumirán la forma de una campana).
camente mayor proporción de porotos condiciones una muestra de un solo extraer luego una muestra?). Existen, La pregunta no es cómo hacer para
blancos). Pero conociendo la proba- caso es suficiente para determinar con sin embargo, formas de aproximarse, que el resultado de una muestra en
bilidad de selección de cada tipo de precisión el parámetro poblacional. indirectamente. Pero cuando tratamos particular coincida con el de la po-
poroto y con algunos cálculos poste- Aquí sí, para muestra basta un botón. con proporciones tenemos una solu- blación, sino qué tamaño de muestra
riores, el problema se resuelve. Lo im- La situación contraria corresponde ción sencilla: la mayor heterogeneidad necesitas para asegurarte de que de
portante es que las chances de formar a un máximo de heterogeneidad. El corresponde a la proporción p = 0,5. todas las muestras posibles que pu-
parte de la muestra sean conocidas. gráfico 2B representa una supuesta En nuestro ejemplo, la mitad de dieras extraer, un porcentaje muy alto
distribución de proporciones obte- los porotos son negros (y la otra mi- (como el 95% o el 99%) caerá en la
El tamaño no importa nidas de muestras extraídas de una tad blancos o distintos de negro, que parte central de la distribución y a una
Bien. Extraemos unidades de una población muy heterogénea respecto en este caso significa lo mismo). El distancia no muy grande del valor po-
población, que han sido bien revueltas del atributo en cuestión. máximo grado de heterogeneidad se blacional (por ejemplo, no alejándose
antes de la sacada. Vamos a estimar la Tenemos que conocer entonces calcula como p x (1-p) lo cual equivale en menos o más de 3% de ese valor).
proporción en que se manifiesta un atri- el grado de heterogeneidad de la a decir 0,5 x 0,5 = 0,25. Cualquier valor A lo primero le damos el nombre
buto en esas unidades. ¿Cuántas debe población. distinto de p supone menor heteroge- de intervalo de confianza. A lo se-
incluir la muestra para que la estima- Cuando se trata es de estimar pro- neidad y, por tanto, el producto de p x gundo, margen de error. Para esto
ción se aproxime al valor poblacional? medios, las cosas se complican un (1-p) devolverá un valor inferior a 0,25. último basta considerar el valor que
16-17
MARTES 19•OCT•21

decidimos admitir y expresarlo como población de tamaño desconocido, probabilidad de que tres muestras favorable a la derogación de la LUC.
una proporción. Por ejemplo, si esta- obtienes estimaciones de cualquier reporten valores ubicados fuera del El resultado debe leerse como que
mos dispuestos a obtener estimacio- proporción poblacional, con un error intervalo (si asumimos uno de 95%, entre 37% y 43% de los potenciales
nes con un error máximo de +-3% uti- máximo de +-3%, 95% de las veces. que los resultados de las tres mues- electores tiene esa opinión, a 95%
lizamos el valor 0,03. Para lo primero Si el tamaño de la población es tras hayan caído fatalmente en el de confianza. Luego reporto esa pro-
tenemos un pequeño secreto (todos pequeño, te conviene utilizar una 5% restante) es 0,05 x 0,05 x 0,05 = porción (expresada como porcentaje)
los cocineros lo tienen). El área de la fórmula que considere ese número. 0,0001. Un argumento más en favor para Montevideo, afirmando que en
distribución normal puede tratarse Como es obvio, obtendrás muestras de replicar las observaciones y los ex- la capital tal opinión asciende a 50%.
como una función, que devolverá más pequeñas (para una población perimentos, en lugar de conformarse En este caso estoy trabajando con
valores específicos para cada subárea de 500 casos, seguro una muestra con la revisión por pares, para dar por una muestra más pequeña. Si en su
que definamos como nuestro inter- de tamaño menor a 500, aunque no buenos resultados de investigación. diseño se mantuvo la distribución de
valo de confianza. No necesitamos tanto más pequeña). Pero a partir De modo que del azar debemos des- población en nuestro país, esta sub-
hacer cálculos complejos. Los valores de los 10.000 casos, el tamaño de la confiar, pero no mucho. Con los seres muestra incluirá aproximadamente
pueden consultarse en una tabla que población no afecta la estimación humanos las cosas son distintas. Al 394 casos (37% de los electores del
conocemos como distribución Z. Estos del tamaño muestral. menos tres advertencias resultan ne- país). Recuerda que el tamaño de
son los que corresponden a los inter- Si por razones de costo o de tiempo cesarias para evaluar la calidad de las las muestras no se ve afectado por el
valos de confianza más utilizados: 1.067 es un número muy grande, pue- inferencias realizadas por muestreo. tamaño de las poblaciones, siempre
des ajustar el intervalo de confianza o A) Generalmente las muestras que sean grandes. Con 394 casos, el
Intervalo el margen de error. Por ejemplo, si estás fallan porque no se respetan los pro- margen de error aumenta a +-5%. De
de confianza Valor Z
dispuesto a admitir un error de +-5% cedimientos de selección aleatoria. modo que el último resultado debiera
90% 1,64 en tus estimaciones, necesitas, en las Con cada vez más frecuencia leemos, reportarse como: en Montevideo,
95% 1,96 condiciones descritas, sólo 385 casos. por ejemplo, resultados de encuestas entre 45% y 55% de los potenciales
realizadas a través de redes sociales, votantes tiene opinión favorable a la
98% 2,32 Motivos para desconfiar sobre las que se intenta hacer inferen- derogación de la ley.
99% 2,57 Tras la difusión de la célebre Ley cias para grandes poblaciones. ¿To- Es habitual que en la presentación
de Murphy (si algo puede salir mal, dos los integrantes de esas grandes de resultados de investigación se
saldrá mal) fueron descubiertas otras poblaciones tienen una probabilidad reporten valores obtenidos de sub-
Resultado de similar tenor. Tom Gilb, ingeniero conocida y distinta de cero de haber muestras de tamaño aún mucho más
Ya tenemos todos los ingredientes de sistemas de California, reportó la sido seleccionados para esa encues- pequeño (por ejemplo, personas jó-
necesarios para determinar el ta- siguiente: no se debe confiar en las ta? Si aplicas una encuesta entre tus venes, de sexo femenino, que residen
maño de una muestra (m) de las que computadoras, pero menos aún en amigos de Facebook, es claro que no. en Montevideo), lo que conduce a
llamamos aleatorias simples (todos los seres humanos. La Ley de Gilb se Todos quienes no sean amigos tuyos márgenes de error tan grandes que
los casos, como las bolillas de un boli- aplica también a los problemas de tienen probabilidad cero de resultar hacen imposible realizar cualquier
llero, tienen la misma probabilidad de muestreo: no se debe confiar en el encuestados. Pero no es necesario inferencia con seguridad.
selección) extraída de una población azar, pero menos aún en las personas llegar a tales extremos. Los humanos Segundo aspecto a considerar:
infinita (que en este contexto equivale que trabajan con él. hemos desarrollado estrategias me- ¿sobre qué muestra efectiva se rea-
a decir de tamaño desconocido). La La idea de intervalo de confianza nos transparentes para hacer trampas lizan las estimaciones?
fórmula es la siguiente: es ilustrativa respecto del primer en este sentido. La selección por cuo- C) Finalmente, hay que recordar
problema. Cuando afirmo que mi tas (un procedimiento lógicamente que a los errores estadísticos se suman
m = Z2 x (p x (1-p)) estimación se realiza con 95% de insostenible por el cual se seleccio- los de medición. Los casos de una
e2 confianza estoy diciendo que de cada nan casos atípicos, pero incluyendo muestra pueden ser seleccionados
100 muestras que pudiera extraer, intencionalmente en la muestra los aleatoriamente, su tamaño puede
Cómo leer la fórmula: Multiplica- en las mismas condiciones y con el que reproduzcan una distribución ser suficiente para hacer inferencias
mos el valor del intervalo de confian- mismo tamaño, en 95 de ellas el valor similar para un par de atributos como con un amplio intervalo de confianza
za que estamos dispuestos a admitir, verdadero (el de la población total) el sexo y la edad) es generalmente y un bajo margen de error, pero si
elevado al cuadrado (Z2) por el grado estará contenido en el intervalo. Y en utilizada por empresas de opinión pú- en la recolección de datos existen
de heterogeneidad del atributo en 5 no. Si mi muestra en particular es blica y de investigación de mercados. problemas, tampoco sale la torta.
la población (p x (1-p)). Dividimos una de las muchas primeras o una Este es el primer aspecto a prestar Los errores de medición son, por lo
el resultado por el margen de error de las pocas segundas, no lo puedo atención, al cual nos referimos antes: general, más peligrosos que los es-
máximo que aceptamos que tengan saber. Esta limitación es importan- si los ingredientes no fueron bien tadísticos. No porque sean mayores,
nuestras estimaciones, elevado al te desde que las probabilidades no mezclados, no sale la torta. sino porque no podemos determinar
cuadrado (e2). tienen nada que decir sobre el caso B) Cuando se calcula un tama- con precisión cuál es su magnitud. Y
Si, por ejemplo, asumimos un in- único: una vez extraída, la estimación ño de muestra, con un intervalo de siempre se suman a los estadísticos,
tervalo de confianza de 95% (Z=1,96), se encontrará dentro del intervalo de confianza y un margen de error es- dando por resultado un error total.
suponemos la mayor heterogeneidad confianza o fuera de él. pecíficos, se considera el total de la Siendo indeterminado el valor de uno
posible del atributo en la población Sin embargo, como para arribar población. El objetivo es determinar de los términos de la suma (el error de
(0,25) y aceptamos un margen de error a conclusiones en la ciencia normal- la confiabilidad de la estimación que medición), también lo es su resultado.
de +-3% (0,03), obtenemos: mente se realizan muchos estudios se realizará para una proporción, Tercer aspecto a tener en cuenta:
sobre muestras independientes, si promedio o cantidad, en la pobla- evalúa las competencias en materia
M = 1,962 x 0,25 = 1.067 estos arrojan valores similares para ción total. Si luego decido reportar de medición de la institución o em-
0,032 un mismo atributo, la probabilidad valores de subpoblaciones, debo presa que reporta los hallazgos. ■
de que todos se hayan obtenido de recalcular los márgenes de error.
Este es el número mágico. Con muestras ubicadas en los extremos Supongamos que con 1.067 casos Agradezco los valiosos comentarios de la
licenciada en Estadística Ana Coímbra a la
1.067 casos, extraídos con igual de la distribución se aproxima rá- obtengo que 40% de los uruguayos primera versión de este artículo.
probabilidad de selección, de una pidamente a cero. Por ejemplo, la habilitados para votar tiene opinión

También podría gustarte