Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apunte Estadística (2016)
Apunte Estadística (2016)
La importancia de la estadística
Lejos de ser abstracciones matemáticas, la estadística en realidad tiene que ver con
datos que nos envuelven permanentemente: la probabilidad de lluvias en el pronóstico
meteorológico que vemos por TV, el índice de inflación del que nos enteramos por los
diarios, la cantidad de personas que siguió la transmisión televisiva del superclásico
entre River y Boca, etc.
Regularidad estadística
1
La regularidad observada empíricamente (en los hechos) puede ser de tipo
estadístico, y entonces el modelo matemático deberá tener en cuenta lo esencial en ese
tipo de regularidad, y si el modelo elegido logra una confiabilidad suficientemente alta,
puede ser utilizado para describir, analizar y en ocasiones prever el fenómeno en
cuestión. Así como hay sistemas lógico-matemáticos que describen el comportamiento
de los gases, de la luz o de la electricidad, así también es posible lograr sistemas lógicos
o teorías matemáticas acerca del comportamiento humano, más allá de que éste puede
presentar una complejidad probablemente mayor que los fenómenos físicos.
Por su parte, Blalock (1994) destaca que una medición rigurosa permite, entre
otras ventajas, refinar el análisis más allá del nivel del sentido común, conocer mejor las
condiciones que influyen en la relación entre dos variables, aclarar nuestro pensamiento
teórico y sugerirnos la consideración de nuevas variables.
Concepto de estadística
Se puede decir que la estadística es una “técnica o método que se utiliza para recopilar,
organizar, presentar, analizar e interpretar información numérica, con la finalidad de
extraer conclusiones útiles y servir al análisis de un cierto conjunto a partir del
conocimiento de una parte del mismo” (Giuliodori, 1997: 9). O bien, que “es un
conjunto de métodos y técnicas cuyo objetivo es el de recolectar, clasificar, ordenar,
analizar y describir datos, con el fin de obtener información a un costo mínimo y de
realizar un uso óptimo de esa información, para hacer inferencias con respecto a una
población a efectos de extraer conclusiones útiles para la toma de decisiones” (Carrizo
Stauffer, 2000: 2)
2
Organización: sigue a la etapa anterior, y es donde se corrigen los datos
(particularmente se da en el caso de encuestas, cuando se eliminan o
ajustan las inconsistencias de datos o se completan otros) y se clasifican
estableciendo cuáles serán los aspectos relevantes considerados para la
tabulación y presentación (criterios temporales como fechas, lapsos,
períodos; aspectos cuantitativos, como ingresos, consumos, edad;
aspectos cualitativos como nivel de instrucción, nacionalidad, sexo,
religión).
3
Censos y encuestas
Por su parte, las encuestas son relevamientos que abarcan a una parte del
universo bajo estudio, a la que se llama muestra. Como idea reguladora, una muestra
debe ser representativa de la población, es decir que sus datos no sólo “representen” a
los elementos de la población que fueron seleccionados para integrar la muestra, sino
también aquellos que no lo fueron.
4
UNIDAD II.
Por otro lado, existen datos cuantitativos continuos, donde la variable puede
asumir cualquier valor, aún infinitamente pequeño, dentro de un intervalo determinado.
Por ejemplo, distancia en metros al arco de los tiros libres ejecutados en el encuentro
entre la Selección Argentina y su rival ocasional, edad de los jugadores de esos equipos.
En este caso, la respuesta numérica además de surgir de un proceso de medición, puede
corresponder con valores no enteros, admitiendo decimales.
Por ejemplo, la distancia en metros al arco de tiros libres puede arrojar valores
como 25,05 metros. En el caso de datos cuantitativos como la edad, si bien su naturaleza
es continua, frecuentemente, por convención, se la trata como discreta (yo digo: tengo
35 años, no tengo 35 años, 6 meses, X días, etc).
Escala nominal
5
Esta clasificación es convencional y arbitraria –de hecho, se las llama nominales
porque “todo lo que se hizo fue otorgar un nombre a la categoría” (Blalock, 1994: 45).
En ella, una clase de personas u objetos se subdivide en más subclases que se excluyen
mutuamente unas a otras y que por lo mismo establecen la equivalencia entre sí de los
miembros de cualquiera de las subclases respecto a la propiedad sobre la que se basa el
proceso de clasificación. Este tipo de escalas sólo admite cálculos estadísticos como la
moda, la frecuencia de cada clase y pruebas no paramétricas.
Escala ordinal
6
Así, una escala ordinal define la posición relativa de objetos o individuos con
respecto a una característica, sin implicación alguna en cuanto a la distancia entre
posiciones. En ciencias sociales hay muchas variables medidas ordinalmente, entre ellas
los índices de nivel socioeconómico, el prestigio ocupacional, el grado de radicalismo
político o de nacionalismo y la religiosidad. Respecto a las variables nominales, en las
ordinales se amplían las medidas estadísticas utilizables, como la mediana, los cuartiles
y percentiles, los coeficientes de correlación de rangos (Spearman, etc).
La escala intervalar trabaja con una unidad de medida contable. Si bien es más
típica de las ciencias físicas y naturales (con unidades como el kilogramo, el metro, el
segundo) en ciencias sociales también se emplean con frecuencia algunas, por ejemplo
las unidades monetarias (respecto a ingresos monetarios, cuántos pesos gana A y
cuántos gana B) y el tiempo (cuántos años estudió A y cuántos B, durante cuántas horas
A mira noticieros por televisión y cuántas horas dedica B a lo mismo). Cuando la
existencia de una unidad estandarizada de esa índole permite comparar las diferencias
de puntaje, estamos ante una ‘escala de intervalos’.
Se puede decir que una escala de intervalos iguales no sólo permite diferenciar y
ordenar unidades de análisis sino también especificar la distancia que separa a una de
otras en una determinada propiedad. “Este nivel de medición requiere que se establezca
algún tipo de unidad de medida que pueda ser considerado por todos como una norma
común y que sea repetible, esto es, que se pueda aplicar indefinidamente a los mismos
objetos produciendo los mismos resultados” (Baranger, 1992: 12).
7
Es interesante considerar que parte del progreso de la ciencia consiste en la
mejora de las escalas hacia niveles superiores. Como marca Stevens, “cuando los
hombres conocían la temperatura sólo mediante sensaciones, cuando las cosas eran sólo
´más calientes´ o ´más frías´ que otras, la temperatura pertenecía al tipo ordinal de
escalas. Se convirtió en una escala de intervalo con el desarrollo de la termometría, y
después que la Termodinámica utilizó la razón de expansión de gases para extrapolar a
cero, se convirtió en una escala de razón. Análogamente, la distinción entre los colores
de los objetos que consideramos corrientemente en un nivel nominal, desde la Física
puede ser considerada como una escala de intervalos: se trata de la reflexión de la luz en
diferentes longitudes de onda” (Baranger, 1992: 14).
Los distintos niveles de medición se acumulan unos sobre otros: “la escala
ordinal posee todas las propiedades de la escala nominal además de la ordinal. A su vez,
la escala de intervalo posee todas las propiedades de las escalas nominal y ordinal y,
además, una unidad de medida, en tanto que la escala de proporción {de razón} presenta
el nivel más elevado, ya que posee no sólo una unidad de medida, sino, además, un cero
absoluto” (Blalock, 1996: 28).
Definiciones clave
Algunas definiciones importantes que hay que manejar en estadística son las siguientes
(Christensen, 1999: 20):
8
cuantitativa, en tanto que el registro de su opinión respecto a los contenidos del diario
sería objeto de una medición cualitativa.
“La estadística calculada desde una muestra aleatoria rara vez, si es que alguna,
concuerda precisamente con el parámetro de la población de donde fue tomada la
muestra. Por otra parte, la estadística calculada desde una muestra de la población por lo
general no concuerda precisamente con la estadística calculada desde otra muestra de la
misma población. Esta diferencia se presenta porque un mecanismo azaroso, empleado
para seleccionar una muestra, puede hacerlo cada vez algo diferente en un conjunto de
unidades” (Christensen, 1999: 43).
Por ejemplo, no es lo mismo decir que la edad del lector típico del diario
deportivo Olé es de 30 años (estimación de un solo punto) que decir que en un 95%
estamos seguros de que es de entre 28 y 32 años (estimación de intervalo, que nos dice
qué tanto de más o de menos puede ser el dato real). El intervalo de confianza es el
intervalo donde se espera que se encuentre el valor real del parámetro.
9
Estadística descriptiva
Tabla 1
Ocupación Frecuencia Porcentaje
Empleado 35 35%
Cuentapropista 20 20%
sin empleados
a cargo
Empresario con 10 10%
empleados a
cargo
Jubilado 10 10%
Desocupado 5 5%
Sólo hace 10 10%
tareas
hogareñas
Estudiante 10 10%
Totales 100 100%
Figura 1
10
En estadística descriptiva se habla de distribuciones de distinto tipo. Por caso,
están las distribuciones unidimensionales, que son aquellas donde se analiza una sola
variable cada vez. Estas distribuciones se presentan de distinta manera.
La variable en una serie simple se simboliza con la letra “X”, y cada uno de los
valores que asume la variable se lo simboliza con “xi””, donde cada subíndice indica el
orden en que se presentaron las observaciones. En el ejemplo, sería X1: 1 cuadra, X2: 5
cuadras, X3: 2 cuadras, etc.
La distribución normal
11
Figura 2
En estadística, a esto se le llama teorema del límite central: la mayor parte de las
medias muestrales se agrupan cerca de la media de la población y se van dispersando
cuanto más se alejan de la media de la población.: “la distribución de las medias
muestrales tiende a ser normalmente distribuida (esto es, en grandes muestras tiende a
tomar la forma de una distribución normal)” (Christensen, 1999: 297). ¿Qué tan grande
debe ser la medida de la muestra para eso? Un parámetro razonable es una medida igual
o superior a 30 (n > 30), aunque en poblaciones justamente simétricas –es decir-, si la
variable se comporta de manera similar a la curva en forma de campana- se puede
obtener una buena aproximación con una n tan pequeña como 10.
12
Frecuencias absolutas y frecuencia relativa
7; 5; 4; 5; 6; 3; 2; 1; 7; 7; 3; 5; 4; 3; 3; 2; 4; 1; 5; 7; 3; 2; 6; 3; 1
13
En una tabla de distribución de frecuencias, se verían así:
Tabla 2
-h5 = 0.16 significa que el 16 por ciento de los 25 alumnos asistieron a 5 clases en el
cuatrimestre considerado
-H6 = 0.84 significa que el 84 por ciento de los alumnos asistieron a 6 o menos clases, o
bien asistieron entre 1 y 6 clases inclusive, en el cuatrimestre considerado
Este dato también puede ser graficado de distintas maneras. Una forma típica es
el llamado gráfico de bastones o columnas, para frecuencias absolutas simples o
relativas simples (para frecuencias absolutas acumuladas o frecuencias relativas
acumuladas se utiliza el gráfico escalonado o en escalera, pero su empleo es escaso, por
lo que lo obviaremos).
14
Figura 3
30
20
10
Percent
0
1.00 2.00 3.00 4.00 5.00 6.00 7.00
Asistencia a clases
Asimismo, existen gráficos para presentar datos cualitativos, como los llamados
gráficos de partes componentes, siendo los más conocidos los gráficos de barras y los
circulares (o tortas). Supongamos que estamos haciendo una investigación en una
institución educativa y tenemos los datos de los elementos que prefieren utilizar en clase
los alumnos del instructorado en educación física y que las respuestas se representan de
las siguientes maneras:
Figura 4
Cintas 15%
Tablas 15%
Colchonetas 25% Serie1
Aros 15%
Pelotas 30%
15
Figura 5
Cintas
15% Pelotas
Pelotas
30%
Tablas Aros
15% Colchonetas
Tablas
Aros Cintas
Colchonetas
15%
25%
Figura 6
Por otro lado, los gráficos de barras compuestas se utilizan cuando queremos comparar
una variable respecto a dos o más categorías de otra variable. Supongamos que tenemos
información sobre los alumnos del instructorado en educación física clasificada por
sexo y estado civil. Una forma de presentar esos datos sería la siguiente:
14 Casado
12 Soltero
10
8 Soltero Masculino
6 Casado Femenino
4
2
0
Soltero Casado
Si bien los anteriores son los principales tipos de gráficos, de hecho la galería es
más amplia. Programas de software como el SPSS para Windows o el Excel disponen
de una gran variedad de opciones en ese sentido. Las que acabamos de ver, por
ejemplo, son salidas gráficas básicas desde SPSS (figura 3) y Excel (figuras 4, 5 y 6),
obtenidas de manera elemental, sin emplear ningún conocimiento especial de esos
paquetes de software, pero esos programas ofrecen muchísimas posibilidades de edición
en cuanto a formato y estética, cuando uno ya domina más herramientas de los mismos.
16
Lineales:
De superficie:
a) Histograma: de uso no tan frecuente, utiliza rectángulos que se levantan con base
en el eje de abcisa y cuyas alturas son proporcionales a las magnitudes que tienen
los valores de la variable que se representan en las ordenadas (usualmente las
frecuencias). Sirve para representar una cantidad reducida de categorías o ítems y
mostrar las diferencias absolutas entre ellas.
De partes componentes: suelen usar barras y poligonales, pero los más empleados son
los círculos, y específicamente los radiados y de tortas, que muestran la composición de
un fenómeno o todo en sus partes integrantes.
17
UNIDAD III.
Las tres herramientas estadísticas básicas más usadas para describir o caracterizar un
comportamiento típico o un caso promedio son la media aritmética, la mediana y la
moda. Estas son llamadas también “medidas de posición”.
Ejemplo de media:
Tenemos una muestra de lectores del diario La Voz del Interior, que lo compran
con la siguiente frecuencia semanal, respectivamente: 1, 1, 2, 3, 4, 4. El total suma 15.
Dividido por las 6 mediciones, se obtiene 2,5, que es la media aritmética.
La mediana es el caso intermedio en una serie, es decir aquel que tiene la mitad
de las observaciones por encima y la otra mitad por debajo, o, en palabras de Murat,
“aquel valor en la escala de medición que divide la totalidad de los objetos que forman
la muestra o la población en dos partes iguales” (Murat, 1968: 78). Es decir, es una
medida de posición que aparece en el centro –o al medio- de una sucesión ordenada de
los valores que asume una variable. Tiene la ventaja de no verse afectada por los casos
extremos (esto la diferencia de la media aritmética).
18
Cuando la cantidad de datos es impar, existe un solo valor de la variable que
ocupa el centro, y ése es el valor de la mediana. Si la cantidad de datos es par, existen
dos valores de la variable que ocupan el centro; en ese caso, la mediana se obtiene
promediando esos dos valores centrales.
Ejemplo de mediana:
Ejemplo:
19
Las siguientes imágenes ilustran variados tipos de distribuciones
Figuras 7 y 8
Otra medida existente son los cuartiles, medidas útiles de posición no central, que sirven
para resumir o describir un conjunto de datos. Son valores que dividen a la serie de
datos de una variable en cuatro partes iguales, cada una de las cuales contiene la misma
cantidad de observaciones.
20
percentiles. Si dividimos el conjunto de los datos en 10 partes iguales, los valores de la
variable se llaman “deciles” y existirán 9 deciles. Así, a estas medidas que dividen los
datos en series iguales se las denomina genéricamente “cuantiles”.
Medidas de variabilidad
Una medida de variabilidad representa el desarrollo o valor de la dispersión de un
conjunto de datos (por eso se las llama también “medidas de dispersión”). “Por grado
de ´dispersión´ debe entenderse la medida en que un conjunto de valores se concentran
alrededor de un cierto índice central. Dispersión, en este caso, es sinónimo de
hetereogeneidad o diversidad de los valores observados” (Murat, 1968: 88).
Tabla 3
21
más o menos uniforme: solamente toma dos mediciones del conjunto, la más grande y la
más pequeña. Para un análisis más fino, se requiere una medida de variabilidad que
tome en cuenta todas las medidas: es la varianza, que considera la distancia de cada
medida con respecto a la media (distancia que se llama desviación).
En el ejemplo, los datos del grupo 4 son más difusos respecto de la media que
los del grupo 3, es decir que el grupo 4 tiene mayor variabilidad alrededor de la media
que el grupo 3.
Tabla 4
La varianza se calcula así: suma de las desviaciones (10) divida por la cantidad
de mediciones (5) es decir 10/5 = 2.
Por consiguiente, la desviación estándar es la raíz cuadrada de la varianza, es
decir la raíz cuadrada de 2 = 1,414.
Tabla 5
22
La varianza es 200/5=40 y la desviación estándar es la raíz cuadrada de 40, o sea 6, 325.
En el grupo 4 :
Tabla 6
Estas operaciones para cálculos dentro de poblaciones son semejantes a las que
se efectúan para las estadísticas de muestra, con la diferencia básica de que mientras en
el primer caso se toman las medidas de la población en el segundo se toman las medidas
de la muestra (eso también hace que se diferencien en sus símbolos básicos, pero no
entraremos en ese detalle: lo importante es tener conceptualmente claras las medidas, no
dominar la simbología).
Otra manera de enfocar los datos son las llamadas “medidas de forma”, es decir
a la forma horizontal o vertical en que se despliega el conjunto de observaciones. Se
habla de dos grandes tipos de medidas de forma (Carrizo Stauffer, 2000: 36).
23
Muestreo
Usualmente la recopilación de estadísticas implica hacer mediciones sobre una
muestra, en lugar de sobre toda la población, porque en la generalidad de los casos es
menos costoso y más factible medir sobre una muestra que sobre la población completa.
Estudiar una muestra de manera conveniente permite a posteriori generalizar las
conclusiones hacia toda la población (en eso consiste la inferencia estadística).
Así como se puede decir que las estadísticas nos rodean, también se puede afirmar que
la muestra es algo familiar, aunque no nos demos cuenta inmediatamente. El siguiente
ejemplo ilustra perfectamente esta idea: “todos creemos en el muestreo, sea que nos
demos cuenta o no. Todo cocinero determina si la sopa tiene suficiente sal tomando una
cucharada (una muestra) y llegando a una opinión –no hace falta servirse toda la olla
para saber. Nadie necesita beber todo un vaso de leche dañada para poder decir que está
mala -un trago (una muestra) es suficiente (Pope, 2002: 273).
24
La muestra aleatoria permite hacer inferencias confiables respecto de una
población. “Todas las inferencias estadísticas presumen la aleatoriedad de los
muestreos, puesto que solamente si se cumple con esta condición es posible calcular la
magnitud del error que es implícito en nuestras estimaciones. En efecto, no existen
modelos matemáticos para muestras no-aleatorias, y por ello a partir de éstas no hay
posibilidad alguna de ´inferir´, es decir de llegar a una conclusión generalizable a la
población o aún solamente a más casos de los que se incluyeron en el grupo estudiado”
(Murat, 1968: 223).
A partir de la incorporación de los modernos sistemas informáticos, usualmente
el procedimiento se realiza generando números aleatorios por medio de una
computadora, pero existen otros procedimientos alternativos (lanzar una moneda, sacar
bolas numeradas, tomar números aleatorios de una tabla, etc). Lo importante es que el
mecanismo aleatorio le proporciona a toda la unidad de una población bien definida una
oportunidad de ser elegida (oportunidad que puede ser determinada) para integrar la
muestra.
25
Estimación de parámetros de la población
Se llama inferencia estadística a “tomar una decisión sobre la población entera con base
en las características de un subgrupo o muestra” (Pope, 2002: 291). Es decir, se trata de
generalizar resultados. Por ejemplo, en una encuesta se presentan resultados como
porcentajes de personas que conocen a un político determinado, o que leen cierto diario:
generalizar o extrapolar estos resultados a toda la población requiere aplicar un límite o
intervalo de confianza a ese resultado porcentual.
Así, si los datos del estudio dicen que el 40 por ciento de los entrevistados en
una muestra leen el suplemento Vos del diario La Voz del Interior, es difícil que
exactamente el 40 por ciento de la población lea ese diario, pero seguramente (si la
muestra fue suficientemente representativa y estuvo bien tomada) el dato de la
población debe oscilar alrededor de ese valor, cercano a él. Esa diferencia entre los
resultados de la muestra y la población es lo que se llama error muestral, mientras que el
intervalo que se anexa al resultado de la encuesta para estimar o inferir la cifra de la
población se llama intervalo de confianza.
Muchas veces las investigaciones comparan resultados entre dos muestras o subgrupos,
usualmente entre:
-dos o más subgrupos dentro de una misma muestra: ¿la lectura del suplemento
de deportes del diario La Voz del Interior presenta diferencias palpables entre hombres y
mujeres? ¿Entre diferentes edades?
-muestras tomadas en diferentes momentos: ¿aumentó la lectura de la sección
deportes respecto a la medición anterior?
Para responder a esas preguntas existen pruebas estadísticas. Pero, antes de eso,
el investigador o quien analiza los datos cuenta con una hipótesis, una afirmación que
hay que probar como verdadera o falsa. En estadística, habitualmente se supone que dos
poblaciones o subgrupos son iguales hasta que se pruebe lo contrario; a esto se lo llama
hipótesis nula.
26
Otras pruebas estadísticas más especializadas y de utilidad para evaluar
resultados de investigación son la prueba de chi cuadrado, el análisis de varianza y la
prueba t de Student.
27
UNIDAD IV
-margen de error
-el tipo de universo: infinito (desde 100.000 unidades) o finito (menos de 100.000
unidades)
-homogeneidad de la población
-número de segmentación de los datos o afijación de la muestra (para lograr que cada
uno de ellos sea representativo)
Tipos de muestras: hay dos tipos principales de muestras, las probabilísticas y las no
probabilísticas. Las muestras probabilísticas son más precisas, permiten calcular el error
muestral y los coeficientes de confianza para las estimaciones. Las muestras no
probabilísticas son más rápidas en tiempo y costes, y sirven para estudios exploratorios
donde no resulte imprescindible controlar el margen de error.
28
Usualmente y salvo casos de investigaciones especiales (por ejemplo, cuando no
se puede estimar el tamaño del universo), las muestras empleadas por las consultoras de
opinión pública con fines de pronóstico electoral y con fines estratégicos son
probabilísticas. Respecto al procedimiento de obtención de muestras, remitimos a la
abundante bibliografía especializada sobre el tema.
-muestreo simple al azar: es el tipo conceptualmente más básico pero el más difícil de
lograr en la práctica ya que requiere un marco muestral perfecto, es decir disponer de
una lista completa de todos los miembros de un universo. Por ejemplo, equivaldría a
tener la lista de todos los electores de un distrito o de todos los consumidores de un
producto o usuarios de un servicio, para asignarle un número a cada uno y sortearlos a
todos en igualdad de oportunidades de ser seleccionados.
29
procedimientos básicos –rutas aleatorias y muestreo por cuotas- que serán revisados
oportunamente.
-muestreo por conveniencia: la selección de los informantes corre por cuenta de los
entrevistadores priorizando la comodidad y rapidez del procedimiento de acuerdo a la
disponibilidad de los informantes. “Por ejemplo, 100 mujeres pueden ser entrevistadas
en un centro comercial, sin cuotas o criterios para participar en el estudio” (Pope, 2002:
282).
-muestreo por “bola de nieve”: a partir de los informantes que fueron seleccionados en
primer lugar (usualmente según el criterio del investigador), los mismos sugieren datos
para ampliar la muestra (por eso se lo suele llamar también muestreo por
recomendación). Se emplea con frecuencia cuando no es posible identificar a priori una
base de datos exhaustiva de miembros informantes : “Por ejemplo, si se desea realizar
un estudio a las personas aficionadas a coleccionar monedas de la antigüedad, el primer
contacto con un aficionado abre las puertas para los siguientes que él conoce y así
sucesivamente” (Trespalacios Gutiérrez, 2005: 110).
Por otro lado, las investigaciones de mercado también suelen recurrir al panel
como medio de recogida de información: “consiste en entrevistar periódicamente a una
muestra representativa de la población con la finalidad de obtener, además de las
características de los encuestados, información sobre su comportamiento en momentos
de tiempo sucesivos.
Frente a estas ventajas, debe considerarse no obstante que esta técnica tiene el
inconveniente de poder provocar cansancio en los informantes a los que repetidas veces
se les pide que contesten a las preguntas de una investigación sistemática; por otro lado,
el costo de este tipo de estudios también suele ser elevado. Por ello, con frecuencia son
30
las grandes consultoras internacionales las que más recurren a este tipo de técnica, como
es el caso de AC Nielsen.
El error muestral
Siempre que se aplica una encuesta a una muestra existe un margen de error estadístico
variable (mayor o menor según determinados requisitos). No se trata de un defecto
imputable a errores profesionales, sino que es un concepto técnico-estadístico ineludible
que deviene del hecho de que no se ha relevado a toda la población sino que se ha
tomado una muestra de la misma (aunque sea representativa).
Además de esta cuestión, hay otras consideraciones que tienen que ver con el
error muestral:
“Casi siempre la ficha técnica nos dirá que el nivel de fiabilidad es del 95%.
Esto significa que, si se hiciera la misma encuesta una y otra vez, en el 95% de
los casos los resultados estarían dentro del margen de error. Pero el margen de
error es válido sólo para la muestra total, no para los subgrupos. Y lo más
frecuente es que se distribuyan los resultados según el sexo, la filiación política,
el nivel de estudios, la edad, etc. El lector desprevenido suele creer que las
subdivisiones de la muestra tienen el mismo grado de fiabilidad, pero no es así.
Los subgrupos –por ejemplo, hombres mayores de 41 años, profesionales y de
ideología de derecha- resultan a veces muy pequeños para ser representativos”
(Rey Lennon y Piscitelli Murphy, 2004: 36).
31
Medición en la investigación social: estudios de opinión
pública y de mercado
En el ámbito de los estudios de opinión pública, los métodos cuantitativos captan los
elementos más manifiestos- del comportamiento político-electoral de los encuestados, o,
en otros términos, se abocan a la medición de datos provenientes de la "superficie"
(Martínez Pandiani, 2000: 78) de esa conducta.
32
Contrastación de resultados
En el caso de las muestras realizadas por las consultoras de opinión pública, una
oportunidad inestimable de mostrar su valía es el día de las elecciones, que permite
contrastar (dentro de límites temporales y márgenes razonables de error) los resultados,
el ajuste de las muestras y la validez de todos los instrumentos empleados en la
metodología de trabajo (cuestionarios, tarjetas-reactivos, planillas y demás material de
campo).
Pero hay que tener en cuenta una cuestión fundamental: en los fenómenos
sociales existe un componente de indeterminación ineludible, y si es factible
pronosticar con algún grado de certeza acontecimientos cercanos (sea una elección u
otro evento social), es mucho más difícil tratar de hacer lo mismo respecto a
acontecimientos más alejados en el tiempo.
Universos y muestras
En general, los universos electorales sujetos a estudio están constituidos por la
población mayor de 18 años, mientras que las investigaciones de mercado parten de una
edad base de acuerdo al tipo de producto o servicio en cuestión.
33
Unidad de observación y métodos de captura
Para la selección de la unidad final (el entrevistado) puede realizarse utilizando el
procedimiento de rutas aleatorias o bien el de muestreo por cuotas. Este último tiende a
ser más empleado, por una serie de razones.
Ambos operan con tablas de contingencia, estratos o cuotas a completar por los
entrevistadores, pero se distinguen en que mientras el primero emplea una serie de
números aleatorios como procedimiento de selección del entrevistado (para asegurar
objetividad) en el segundo el encuestador puede hasta cierto punto seleccionar
subjetivamente a las personas.
34
metodológica, implica menores costos de preparación, implementación y ejecución que
el sistema de rutas aleatorias.
Otra razón por la que suele ser más empleado el muestreo por cuotas es que es
más sencillo el acceso a las unidades de análisis; si se lo aplica de manera ortodoxa, el
muestreo por rutas aleatorias no admite el reemplazo de unidades (por ejemplo en caso
de ausencia, aunque de hecho en la práctica se suele proporcionar al entrevistador
procedimientos de sustitución, por la sencilla razón de que “el investigador responsable
debe plantearse la investigación en términos realistas” (Rojas Tejada y otros, 1998:
112).
Frente a este criterio con poca o ninguna justificación metodológica (pero con
buen sustento económico y psicológico, como remarca el autor recién citado) que
implica de facto una “licencia” o una flexibilización del muestreo por rutas aleatorias,
otros investigadores eligen directamente el muestreo por cuotas.
35
Con todo, la encuesta telefónica es una alternativa particularmente apta y
conveniente cuando los estudios en cuestión se aplican sobre todo a los segmentos
medios y altos de la población (donde la posesión de teléfono alcanza a una proporción
mayor de miembros).
36
Aun así, es clara la tendencia a realizar cada vez más estudios a través del
teléfono, por lo que se impone volver sobre algunas de sus principales ventajas y
desventajas:
Principales ventajas
Principales desventajas
37
Anexo: textos para lectura
Con la información que contiene números ocurre algo muy especial. Pocos
reporteros están entrenados para su manejo. Yo misma estoy revisando las
crónicas que escribía hace diez años y me pregunto cómo pasé por alto la
interpretación de ciertos datos que tenía frente a mis ojos. La respuesta es muy
sencilla: no sabía cómo hacerlo.
38
Mis colegas me miraban de reojo... ¿matemática para periodistas?, preguntaban
como mofándose de mis intenciones.
No confié sino en mis instintos e ignoré todas las críticas... En mi opinión, como
reporteros, no estamos entrenados para manejar números y hoy día de ellos
dependen nuestras economías, nuestras políticas y por ende, nuestras vidas... Los
números están presentes en los presupuestos, en las leyes, en las bases de datos,
en los censos, en las estadísticas, en los sondeos de opinión, en las encuestas... Si
tomáramos un diario cualquiera y comenzamos a contar cuántas crónicas incluyen
algún número como dato notaríamos que son la mayoría.
Al término de un año terminé de escribir los contenidos del curso preliminar que por
estos días, ando dictando por varios países de América latina: ya lo hice en
Panamá, Méjico, El Salvador y Honduras y he quedado maravillada con la respuesta
que obtengo de mis colegas. Muchos se sorprenden de la cantidad de conclusiones
periodísticas a las que podemos llegar después de hacer cálculos con unos pocos
datos numéricos.
Dentro del curso, y con mayor profundidad en el libro, se dan las definiciones de
porcentajes, promedios, índices, proporciones, media aritmética, moda, las
diferencias entre “tantas veces como”, “tantas veces mayor” o “tantas veces
menor”, dando ejemplos de las distintas vías que hay para llegar a un mismo
resultado Se aborda el tema de las variaciones porcentuales y se dan ejemplos de
errores más frecuentes, casos compilados y de otros en los que los datos fueron
aprovechados con conocimiento.
39
redacción sondeos electorales que pagan los partidos políticos con las
intenciones que imaginamos y cuyas técnicas están plagadas de errores,
en un claro ejemplo de manipulación de la información. Pues entonces el
reportero tiene que estar preparado para detectar esos errores.
“Si queremos obtener resultados nunca antes logrados, debemos emplear métodos
nunca antes utilizados”. Bacon
Pese a los defensores del periodismo eterno, los periodistas necesitan nuevas
herramientas para describir un mundo complejo: el uso de las bases de datos, las
hipótesis a verificar, la aplicación de la metodología científica. Una creencia
tradicional en la subcultura del periodismo estadounidense es que un buen
periodista es bueno en todas partes y que no se requiere ninguna preparación o
conocimiento especial.
40
información de la era moderna. Se debe abordar de manera distinta a la de las
épocas en que la información era una mercancía escasa.
Ahora, cuando nos aproximamos al final del siglo, la utilidad de dicho modelo
comienza a menguar.
La Oficina del Censo publica ese tipo de informes, pero la demanda de sus datos es
tan enorme que los publica en bruto, mucho antes de tener la oportunidad de
realizar su propio análisis e interpretación. La fuente documental pública del citado
artículo era una cinta informática de nueve pistas, y la responsabilidad del
periodista consistía en aportar el marco teórico y los conocimientos analíticos e
informáticos necesarios para elaborar un artículo informativo sobre esa base.
REDEFINIR LA OBJETIVIDAD
41
transporte de información también en otra variante, al tratar de sacar el máximo
provecho del potencial del texto impreso como dispositivo de recuperación de la
información.
LA CIENCIA EN EL PERIODISMO
La ciencia es idealmente objetiva y también va mucho más allá del mero transporte
de información. Las normas que su cultura ha desarrollado para descubrir y sacar a
relucir la verdad pueden prestar un buen servicio a las nuevas demandas del
periodismo. Se me ocurren tres en particular:
42
dicho documento, que tenía en su cabeza una finalidad, una historia y contexto. El
informador que empieza a trabajar con una cinta de nueve pistas no cuenta con esa
ventaja inicial. Se requiere algún tipo de estructura teórica para analizar los datos
de la cinta, para contar con un medio de selección entre la variedad casi infinita de
formas posibles de estudiarla.
Algunas aplicaciones periodísticas de las bases de datos son evidentes, como por
ejemplo los cruces de listados realizados por Elliot Jaspin entre los nombres de
conductores detenidos por embriaguez y de conductores de autobuses escolares.
Pero en su mayor parte requieren una estructura teórica más complicada. "Dime
algo interesante" no es una pregunta apropiada para ser planteada a un ordenador.
43
sondeos electorales, antaño casi un monopolio de Lewis Harris y George Gallup, se
diversificaron ante la competencia de los consorcios entre grandes medios de
prensa y radiotelevisión, entre los que cabe mencionar: New York Times/CBS,
Washington Pos/ABC y USA Today/CNN/Gallup. Esta nueva situación introdujo en
las redacciones conceptos como muestreo probabilista, significación estadística y
controles estadísticos.
Steve Doig, del Miami Herald, compró su primer ordenador, un Atari 800, en 1981.
Poco después empezó a utilizar el Visi-Calc, el precursor de todas las hojas de
cálculo actuales, en uno de los primeros ordenadores de IBM. Elliot Jaspin, del
Providence Bulletin, aprendió a utilizar el ordenador central de su periódico para
investigar en los archivos públicos y finalmente optó por los ordenadores
personales, convencido de que los periodistas deben ser totalmente independientes
de las operaciones comerciales de su empresa y de sus expertos. Más tarde dirigió
el desarrollo del soporte lógico de lectura en ordenadores personales de las cintas
de nueve pistas, típicas de los ordenadores centralizados, lo cual hacía posible
dicha independencia.
En su mayor parte, las personas que utilizan dichos programas de acceso a cintas
magnéticas y los realizadores de encuestas han actuado por separado, como si no
fuesen conscientes de utilizar aspectos diferentes del cuerpo común de
conocimientos que define el método científico
El articulista no había tenido en cuenta que tanto los Yugo como los Jaguar son
muy escasos en Carolina del Norte, y que las muestras pequeñas suelen presentar
mayores grados de varianza (desviación).
Por otra parte, dado que el Yugo se dejó de importar a EEUU en el período de
realización del estudio, la media correspondiente a los Jaguar sería ligeramente
más reciente que la de los Yugo.
En otro caso, un informador del St. Louis Dispatch utilizó una investigación a través
de bases de datos para identificar a 15 abogados que mantenían una situación de
conflicto de intereses en relación con la indemnización debida a un trabajador.
Dichos abogados representaban al mismo tiempo al Estado y a los trabajadores con
44
demandas pendientes con el Estado, y conseguían pagos mucho más cuantiosos
que los de los casos ganados por abogados que no tenían esa doble función. El
informador, con muy buen criterio, quiso saber con qué frecuencia se producía
dicha diferencia por azar.
Al igual que los ciegos cuando reconocen un elefante mediante el tacto, los
periodistas que aplican bits y elementos del método científico a su trabajo necesitan
un concepto unificador. Knight-Ridder, la segunda gran empresa de prensa de
Estados Unidos, reconoció dicha necesidad al convocar recientemente a dos
docenas de sus informadores informáticos en Miami, para compartir sus
conocimientos y tratar de englobarlos en un marco común. Los escépticos pueden
considerar tales esfuerzos como una pretensión absurda.
Traducción: Antonio Fernández Lera Michael Lewis "J-Scool Confidential", The New
Republic, 19 de abril de 1991, páginas 20-27. Magaret L. Usdansky y otros,
"Segregation Walls Between us", USA Today, 11-13 de noviembre de 1992. George
Landau, Adventures in sampling: using brute force to compensate for your
ignorance about statistics, Uplink, Universiy of Missouri, marzo de 1993.
45