Apunte Estadística (2016)

UNIDAD I.
La importancia de la estadística
Lejos de ser abstracciones matemáticas, la estadística en realidad tiene que ver con
datos que nos envuelven permanentemente: la probabilidad de lluvias en el pronóstico
meteorológico que vemos por TV, el índice de inflación del que nos enteramos por los
diarios, la cantidad de personas que siguió la transmisión televisiva del superclásico
entre River y Boca, etc.
La estadística no sólo nos informa y orienta acerca de la realidad, sino que

además nos ayuda a tomar decisiones, tanto a las personas particulares (si debo salir con
paraguas, cómo debo administrar mi presupuesto familiar considerando el aumento de
precios del mes pasado, etc.) como a instituciones y empresas (saber, por ejemplo, si un
determinado producto tiene una aceptación tal que justifique invertir para lanzarlo al
mercado).
La estadística aplicada a las ciencias sociales

La estadística como disciplina se vincula con los llamados métodos cuantitativos y en
ese sentido tiene a su vez relación con “los límites y las posibilidades reales del análisis
cuantitativo aplicado al campo de las llamadas ciencias de la conducta” (Murat, 1968:7).
Bajo este tipo de afirmaciones descansa el convencimiento (o el presupuesto) de que el
conocimiento acerca de la conducta humana –la definición y comprensión de los
fenómenos sociales en estudio-es mejor cuando más cerca está de la cuantificación y
traducción de los resultados del análisis en términos lógico-matemáticos.
Murat propone que matematizar es descubrir en las relaciones empíricamente

observables nuevas relaciones de un orden superior de abstracción. “Cuando en un
conjunto de fenómenos observables se comprueba que existe una cierta regularidad, es
posible entonces intentar la formulación de la correspondiente teoría matemática”
(Murat, 1968: 17).
Regularidad estadística
“Si en un ´sujeto´ se observa repetidamente un atributo conductual cualquiera, en

condiciones suficientemente constantes, será posible expresar la magnitud del mismo en
forma numérica y de acuerdo con algún sistema convencional de notación. La
predicción exacta de cada una de las mediciones individuales será desde luego
imposible (…) Sin embargo, si en lugar de considerar los resultados individuales
trasladamos nuestra atención a la forma con que se suceden los datos, será fácil
comprobar que, pese a la irregularidad del comportamiento individual, los resultados
promedios (…) registran una clara ´regularidad´. Esta característica se conoce como
´regularidad estadística´ (Murat, 1968: 38).
Es decir, en lugar de prever el valor o posición exacta de cada observación, es

posible prever con un margen de error cognoscible la proporción más probable de
observaciones que, en un momento dado, se hallarán en una categoría determinada.
1
La regularidad observada empíricamente (en los hechos) puede ser de tipo
estadístico, y entonces el modelo matemático deberá tener en cuenta lo esencial en ese
tipo de regularidad, y si el modelo elegido logra una confiabilidad suficientemente alta,
puede ser utilizado para describir, analizar y en ocasiones prever el fenómeno en
cuestión. Así como hay sistemas lógico-matemáticos que describen el comportamiento
de los gases, de la luz o de la electricidad, así también es posible lograr sistemas lógicos
o teorías matemáticas acerca del comportamiento humano, más allá de que éste puede
presentar una complejidad probablemente mayor que los fenómenos físicos.
Por su parte, Blalock (1994) destaca que una medición rigurosa permite, entre
otras ventajas, refinar el análisis más allá del nivel del sentido común, conocer mejor las
condiciones que influyen en la relación entre dos variables, aclarar nuestro pensamiento
teórico y sugerirnos la consideración de nuevas variables.
Concepto de estadística
Se puede decir que la estadística es una “técnica o método que se utiliza para recopilar,
organizar, presentar, analizar e interpretar información numérica, con la finalidad de
extraer conclusiones útiles y servir al análisis de un cierto conjunto a partir del
conocimiento de una parte del mismo” (Giuliodori, 1997: 9). O bien, que “es un
conjunto de métodos y técnicas cuyo objetivo es el de recolectar, clasificar, ordenar,
analizar y describir datos, con el fin de obtener información a un costo mínimo y de
realizar un uso óptimo de esa información, para hacer inferencias con respecto a una
población a efectos de extraer conclusiones útiles para la toma de decisiones” (Carrizo
Stauffer, 2000: 2)
A su vez, se pueden distinguir dentro de la estadística dos grandes ramas: por un

lado, la estadística descriptiva -conjunto de métodos y técnicas que se relacionan con el
resumen y la descripción de datos, a través de gráficos, análisis de cálculos o medidas- y
por otro la estadística inferencial, como métodos y técnicas que permiten, a partir de la
información proporcionada por una parte (muestra) de un todo (población) más amplio,
tomar decisiones sobre el todo, recurriendo a conceptos de probabilidad.
La estadística descriptiva sirve para reducir o resumir información,

transformando un cúmulo de datos difícil de asimilar en medidas de cálculo manejables
(porcentajes, promedios, desviaciones estándar, coeficientes de correlación).
A la estadística inferencial también se la suele llamar inductiva (Blalock, 1996:

16). Basada en la teoría de la probabilidad, apunta a generalizar a partir de una
información limitada.
Etapas del método estadístico

Se pueden distinguir las siguientes etapas (Giuliodori, 1997: 10):
 Recopilación: captación de los datos estadísticos, que puede ser interna

(extraídos de la misma empresa, institución o ente que va a utilizarla) o
externa (provenientes de afuera del ente que va a hacer uso de ella, como
es el caso de datos procedentes de censos, encuestas, publicaciones, etc.)
2
 Organización: sigue a la etapa anterior, y es donde se corrigen los datos
(particularmente se da en el caso de encuestas, cuando se eliminan o
ajustan las inconsistencias de datos o se completan otros) y se clasifican
estableciendo cuáles serán los aspectos relevantes considerados para la
tabulación y presentación (criterios temporales como fechas, lapsos,
períodos; aspectos cuantitativos, como ingresos, consumos, edad;
aspectos cualitativos como nivel de instrucción, nacionalidad, sexo,
religión).
 Tabulación: se plantean las relaciones entre categorías de la clasificación

y se obtienen las cantidades de observaciones correspondientes a cada
cruce de datos en tablas de distinto tipo (bidimensionales, de doble
entrada, etc.).
 Presentación: tiene que ver con la exposición de los datos de manera

literal, o en tablas estadísticas, o en gráficos.
 Análisis: tiene que ver con el examen de la información obtenida para

establecer relaciones objetivas entre los datos, recurriendo a diversas
herramientas estadísticas (regresión, correlación, asociación, test de
hipótesis, análisis de varianza, etc.)
 Interpretación: se vincula a una apreciación subjetiva de los resultados,

en el sentido de que se orienta a buscar causas o determinantes de los
datos observados.
Interesa asimismo referirse a algunas de las principales fuentes de información

estadística:
 Publicaciones: existe una variedad de ediciones de datos estadísticos de

distinta procedencia, tanto privada (por ejemplo, en información
Económica, Cámaras Sectoriales, como la Cámara del Calzado, la
Cámara de Inmobiliarias, o fundaciones, como la Fundación
Mediterránea, etc). como pública.
Por su importancia, merecen destacarse los organismos estadísticos:
 Organismos estadísticos: los hay del orden nacional -como el Instituto

Nacional de Estadística y Censos (INDEC), el Banco Central de la
República Argentina (BCRA), el Consejo Federal de Inversiones (CFI),
entre otros- y del orden provincial y municipal. A nivel internacional,
también existen organismos y publicaciones.
3
Censos y encuestas
Es oportuno distinguir entre dos tipos de relevamientos que producen estadísticas

particulares: 1) los censos y 2) las encuestas. Los primeros “comprenden a todo el
universo bajo estudio. Por ejemplo, los recuentos decenales de la población total del
país constituyen censos, pues abarcan a la totalidad de los habitantes. También lo son
los Censos Nacionales Económicos que comprenden a la totalidad de los
establecimientos comerciales, industriales y de servicios del país” (Giuliodori, 1997:
10).
En este sentido, un censo es un relevamiento exhaustivo sobre todos y cada uno

de los individuos de una población dada. Por lo tanto, se trata de operativos muy
complejos y onerosos, ya que involucran muchísimo personal para el relevamiento y
procesamiento de datos, entre otras tareas.
Por su parte, las encuestas son relevamientos que abarcan a una parte del
universo bajo estudio, a la que se llama muestra. Como idea reguladora, una muestra
debe ser representativa de la población, es decir que sus datos no sólo “representen” a
los elementos de la población que fueron seleccionados para integrar la muestra, sino
también aquellos que no lo fueron.
Existen encuestas oficiales, como la Encuesta Permanente de Hogares (EPH) del

INDEC (Instituto Nacional de Estadística y Censos) y a su vez diversos organismos de
investigación pública y consultoras privadas que realizan encuestas, tema que
retomaremos más adelante.
4
UNIDAD II.
Datos, variables y escalas

Se considera variable a cualquier característica susceptible de ser analizada de una
unidad estadística, en tanto que los datos estadísticos son un conjunto de resultados que
presentan las variables en estudio.
Existen datos estadísticos de tipo cualitativo, que arrojan respuestas categóricas,

como por ejemplo sexo de los lectores del diario La Voz del Interior, nacionalidad de
los jugadores de un mundial de fútbol, preferencia de los varones mayores de 18 años
por uno u otro noticiero de TV por cable.
Asimismo, existen datos cuantitativos, que arrojan respuestas numéricas, y que a

su vez se clasifican en datos cuantitativos discretos, que presentan solamente valores
enteros, como por ejemplo cantidad de jugadores expulsados en la primera fecha del
Mundial, o cantidad de goles convertidos en la misma fecha. Otro ejemplo clásico: una
mujer puede tener 0, 1, 2 o inclusive 17 niños, pero no puede tener 2,3 niños.
Por otro lado, existen datos cuantitativos continuos, donde la variable puede
asumir cualquier valor, aún infinitamente pequeño, dentro de un intervalo determinado.
Por ejemplo, distancia en metros al arco de los tiros libres ejecutados en el encuentro
entre la Selección Argentina y su rival ocasional, edad de los jugadores de esos equipos.
En este caso, la respuesta numérica además de surgir de un proceso de medición, puede
corresponder con valores no enteros, admitiendo decimales.
Por ejemplo, la distancia en metros al arco de tiros libres puede arrojar valores
como 25,05 metros. En el caso de datos cuantitativos como la edad, si bien su naturaleza
es continua, frecuentemente, por convención, se la trata como discreta (yo digo: tengo
35 años, no tengo 35 años, 6 meses, X días, etc).
Las mediciones se rigen por reglas y principios referidos a diversos niveles de

complejidad de la medición y de los campos en que la misma puede ser aplicada. En ese
sentido, las operaciones lógicamente posibles con una determinada serie de valores o
medidas dependen de las condiciones reales en que las medidas fueron obtenidas; en
última instancia, dependen de diversos tipos de escala (Murat, 1968: 27).
Las escalas de medición más comúnmente empleadas en ciencias de la conducta
son las siguientes:
Escala nominal
Una escala nominal o clasificatoria es el tipo más simple de medición, que

consiste en reemplazar –por medio de una convención- el nombre de una categoría
determinada de personas u objetos por una letra o un número. “Por ejemplo, los
números con que se clasifican los jugadores de fútbol son una forma de clasificación
nominal; los zagueros derechos se indican convencionalmente con el número 3” (Murat,
1968: 28).
5
Esta clasificación es convencional y arbitraria –de hecho, se las llama nominales
porque “todo lo que se hizo fue otorgar un nombre a la categoría” (Blalock, 1994: 45).
En ella, una clase de personas u objetos se subdivide en más subclases que se excluyen
mutuamente unas a otras y que por lo mismo establecen la equivalencia entre sí de los
miembros de cualquiera de las subclases respecto a la propiedad sobre la que se basa el
proceso de clasificación. Este tipo de escalas sólo admite cálculos estadísticos como la
moda, la frecuencia de cada clase y pruebas no paramétricas.
“El requerimiento fundamental para construir una escala nominal es que se

puedan distinguir dos o más categorías significativas y que se establezcan los criterios
según los cuales los individuos, grupos, objetos o respuestas serán incluidos en una o en
otra categoría. Las categorías –exhaustivas y mutuamente excluyentes- no mantienen
otra relación entre sí que la de ser distintas unas de otras” (Baranger, 1992: 11).
En ciencias sociales, hay muchas variables o propiedades que se definen

nominalmente, como es el caso del sexo, estado civil, nacionalidad, religión, afiliación o
simpatía partidaria. Nada impide asignar números a las diferentes categorías de cada
variable (por ejemplo, en el caso del sexo, 1 para masculino y 2 para femenino) pero
aquí los números sólo funcionan como rótulos o nombres, lo cual limita a posteriori las
operaciones estadísticas que pueden aplicarse sobre ellos (se limitan al número de casos,
el cálculo de porcentajes, la moda, el cálculo de algunos coeficientes de asociación,
tablas de contigencia y pruebas básicas como el chi cuadrado).
Escala ordinal
Una escala ordinal es aquella en la que las personas, propiedades u objetos

incluidos en una determinada subclase no sólo difieren de los incluidos en otra subclase,
sino que además guardan determinadas relaciones entre sí, y es posible valorar la
magnitud de la característica que es común a todos los casos de tal modo de comprobar
que algunos elementos son mayores que otros. Esto permite construir un escalonamiento
ordenado de los elementos clasificados.
“La característica definitoria de una escala ordinal es lo que se denomina su

propiedad transitiva: si A es mayor que B (que se escribe A > B) y B mayor que C,
entonces A debe ser mayor que C. Cuando esto no se cumple para todos los individuos,
no estamos en presencia de una legítima escala ordinal. En los deportes se presenta
muchas veces la situación de que A puede derrotar a B y B a C, no obstante lo cual A no
puede derrotar a C. En tales casos sospechamos intuitivamente que hay más de una
dimensión implícita, y que resulta imposible obtener un ordenamiento o jerarquización
únicos” (Blalock, 1994: 47).
En estas escalas hay un orden: no sólo se distingue entre distintas categorías

como sucedía con las nominales, sino que “es además posible afirmar si una unidad de
análisis posee en mayor, en igual o en menor grado que otra la propiedad que se está
midiendo. Así, por ejemplo, en la escala de una jerarquía militar no solamente podemos
decir que un capitán, un teniente y un sargento son diferentes entre sí, sino que dichas
categorías pueden ordenarse con respecto a la autoridad que reviste cada uno de esos
grados: Capitán > Teniente > Sargento” (Baranger, 1992: 12).
6
Así, una escala ordinal define la posición relativa de objetos o individuos con
respecto a una característica, sin implicación alguna en cuanto a la distancia entre
posiciones. En ciencias sociales hay muchas variables medidas ordinalmente, entre ellas
los índices de nivel socioeconómico, el prestigio ocupacional, el grado de radicalismo
político o de nacionalismo y la religiosidad. Respecto a las variables nominales, en las
ordinales se amplían las medidas estadísticas utilizables, como la mediana, los cuartiles
y percentiles, los coeficientes de correlación de rangos (Spearman, etc).
Ejemplos de escalas ordenadas por rangos se encuentran en el orden militar,

eclesiástico (cardenal, arzobispo, obispo) o administrativo (secretario, subsecretario).
Las operaciones aritméticas y las relaciones que poseen un significado empírico en este
caso son aquellas que nos dan la mediana y las que se expresan por medio de un
coeficiente de correlación por rango (Spearman) o correlación tau (Kendall).
Escalas de intervalo y de razones
Una escala intervalar agrega a la ordinal el hecho de conocer la distancia

existente entre los valores numéricos atribuidos a las posiciones de los sujetos en la
escala. Aquí, de manera arbitraria, se fija un punto cero y se establece una unidad de
medida común. Tipos de atributos cuya medición puede lograrse recurriendo a una
escala intervalar son la temperatura de un cuerpo (escala Celsius o Fahrenheit) y la
ubicación en el tiempo (calendario) (Murat, 1968: 33). En las ciencias de la conducta,
existen tests de inteligencia que trabajan con escalas de tipo intervalar (coeficiente
intelectual, IQ).
La escala intervalar trabaja con una unidad de medida contable. Si bien es más
típica de las ciencias físicas y naturales (con unidades como el kilogramo, el metro, el
segundo) en ciencias sociales también se emplean con frecuencia algunas, por ejemplo
las unidades monetarias (respecto a ingresos monetarios, cuántos pesos gana A y
cuántos gana B) y el tiempo (cuántos años estudió A y cuántos B, durante cuántas horas
A mira noticieros por televisión y cuántas horas dedica B a lo mismo). Cuando la
existencia de una unidad estandarizada de esa índole permite comparar las diferencias
de puntaje, estamos ante una ‘escala de intervalos’.
Se puede decir que una escala de intervalos iguales no sólo permite diferenciar y
ordenar unidades de análisis sino también especificar la distancia que separa a una de
otras en una determinada propiedad. “Este nivel de medición requiere que se establezca
algún tipo de unidad de medida que pueda ser considerado por todos como una norma
común y que sea repetible, esto es, que se pueda aplicar indefinidamente a los mismos
objetos produciendo los mismos resultados” (Baranger, 1992: 12).
En este nivel se amplían sustancialmente los estadísticos aplicables, que

incluyen ahora a la media aritmética, la varianza, diversos modelos de regresión y el
coeficiente producto-momento de Pearson.
Si, además, el punto cero se elige de una manera no arbitraria, se vuelve posible
comparar la razón de dos puntajes, y tenemos lo que se denomina una “escala de
razones” (Blalock, 1994: 48). Por ejemplo, en el caso de los ingresos medidos en pesos
se pueden hacer afirmaciones significativas del tipo “A tiene un ingreso que duplica al
de B”, porque el punto cero no es arbitrario, sino que representa la ausencia de ingresos
o ingresos nulos.
7
Es interesante considerar que parte del progreso de la ciencia consiste en la
mejora de las escalas hacia niveles superiores. Como marca Stevens, “cuando los
hombres conocían la temperatura sólo mediante sensaciones, cuando las cosas eran sólo
´más calientes´ o ´más frías´ que otras, la temperatura pertenecía al tipo ordinal de
escalas. Se convirtió en una escala de intervalo con el desarrollo de la termometría, y
después que la Termodinámica utilizó la razón de expansión de gases para extrapolar a
cero, se convirtió en una escala de razón. Análogamente, la distinción entre los colores
de los objetos que consideramos corrientemente en un nivel nominal, desde la Física
puede ser considerada como una escala de intervalos: se trata de la reflexión de la luz en
diferentes longitudes de onda” (Baranger, 1992: 14).
Los distintos niveles de medición se acumulan unos sobre otros: “la escala
ordinal posee todas las propiedades de la escala nominal además de la ordinal. A su vez,
la escala de intervalo posee todas las propiedades de las escalas nominal y ordinal y,
además, una unidad de medida, en tanto que la escala de proporción {de razón} presenta
el nivel más elevado, ya que posee no sólo una unidad de medida, sino, además, un cero
absoluto” (Blalock, 1996: 28).
Definiciones clave
Algunas definiciones importantes que hay que manejar en estadística son las siguientes
(Christensen, 1999: 20):
Población. Cualquier colección de unidades que puedan ser de interés en un

estudio. Esta colección debe estar bien definida, de tal forma que se pueden distinguir
entre sus miembros aquellos que lo son y los que no lo son. Por ejemplo, si queremos
hacer un estudio sobre los lectores adultos del diario La Voz del Interior en la ciudad de
Córdoba, la población se podría definir como todos los lectores (de cualquier sexo) de
esa publicación, mayores de 18 años, con residencia en la ciudad. Es decir, a través de
esos caracteres definimos quiénes la integran y quiénes no (en el ejemplo, estamos
excluyendo de la población a los menores de 18 años, a quienes no tienen residencia en
la ciudad en cuestión y a quienes no leen ese diario).
Muestra. Cualquier subconjunto de la población que estudiamos. En el ejemplo

anterior, sería la muestra obtenida con un criterio de selección determinado, por
ejemplo, identificando en algunos puntos de venta de diarios a compradores del Olé.
Una muestra se considera representativa cuando posee las mismas características que la
población de la que procede (y sirve por eso para sacar conclusiones aplicables a toda la
población).
Unidad de observación. Un solo miembro de la población que estudiamos. En el

ejemplo anterior, sería un individuo miembro que reuniera las características definidas.
En ocasiones se habla también de unidad estadística o unidad elemental.
Medición: cualitativa y cuantitativa. Una medida es un número o denominación

que podemos asignar a la unidad de observación. Si este número expresa dimensiones o
capacidades, etc, se llama medición cuantitativa. Si la denominación registra
características, atributos o actitudes, se la llama medición cualitativa. En el ejemplo
anterior, la edad de los lectores de La Voz del Interior sería objeto de una medición
8
cuantitativa, en tanto que el registro de su opinión respecto a los contenidos del diario
sería objeto de una medición cualitativa.
Inferencia estadística. Una inferencia estadística es una conclusión obtenida

acerca de una población completa, desde la información tomada de una muestra.
Consiste en atribuir a la población completa características (consideradas significativas)
que se obtuvieron de la muestra: por ejemplo, si identificamos en una muestra que la
frecuencia de compra del diario deportivo Olé es de dos días a la semana, la inferencia
estadística nos permitiría afirmar –con márgenes de error razonables- que la población
debería mostrar el mismo comportamiento.
Parámetro. Número que describe algunas propiedades de la población. Son

parámetros los resúmenes de los resultados de una medición que abarca a la población
total.
Estadística. Número que describe algunas propiedades de una muestra. El
resumen numérico de los datos remite a una muestra de población.
Variabilidad muestra a muestra. En la investigación estadística suele ocurrir que

calculamos estadísticas desde una muestra aleatoria que no concuerda con los
parámetros correspondientes de la población de la cual fue tomada. Por otro lado, se
denomina variabilidad unidad por unidad a la variación en mediciones que ocurren
unidad por unidad en una población.
La variabilidad muestra a muestra es un factor que los estadísticos toman en
cuenta a la hora de hacer pruebas de hipótesis (procedimiento para validar o desaprobar
una proposición acerca de un parámetro de la población, partiendo de una muestra de la
misma).
“La estadística calculada desde una muestra aleatoria rara vez, si es que alguna,
concuerda precisamente con el parámetro de la población de donde fue tomada la
muestra. Por otra parte, la estadística calculada desde una muestra de la población por lo
general no concuerda precisamente con la estadística calculada desde otra muestra de la
misma población. Esta diferencia se presenta porque un mecanismo azaroso, empleado
para seleccionar una muestra, puede hacerlo cada vez algo diferente en un conjunto de
unidades” (Christensen, 1999: 43).
Es importante recalcar que, más que asegurarse de que los parámetros y

estadísticas coinciden con precisión, los estadísticos usualmente lo que hacen es
construir intervalos dentro de los cuales ellos esperan que queden los parámetros.
Este intervalo frecuentemente se omite en las notas periodísticas referidas a

investigaciones de opinión pública o estudios de mercado, pero es clave a la hora de
interpretar los datos y de ganar precisión en la estimación de la información.
Por ejemplo, no es lo mismo decir que la edad del lector típico del diario
deportivo Olé es de 30 años (estimación de un solo punto) que decir que en un 95%
estamos seguros de que es de entre 28 y 32 años (estimación de intervalo, que nos dice
qué tanto de más o de menos puede ser el dato real). El intervalo de confianza es el
intervalo donde se espera que se encuentre el valor real del parámetro.
9
Estadística descriptiva
La estadística descriptiva apunta a describir un conjunto de datos en forma resumida.

Uno de los conceptos importantes aquí es el de frecuencia, que se refiere al número de
veces que ocurre un valor o fenómeno en particular. Usualmente las frecuencias se
agrupan en tablas de distribución de frecuencias, que resumen y organizan los datos.
La siguiente es una tabla de frecuencias, aplicada al ejemplo de lectores del
diario La Voz del Interior:
Tabla 1
Ocupación Frecuencia Porcentaje
Empleado 35 35%
Cuentapropista 20 20%
sin empleados
a cargo
Empresario con 10 10%
empleados a
cargo
Jubilado 10 10%
Desocupado 5 5%
Sólo hace 10 10%
tareas
hogareñas
Estudiante 10 10%
Totales 100 100%
Los mismos datos pueden ser representados a través de un gráfico de barras

como el siguiente:
Figura 1
10
En estadística descriptiva se habla de distribuciones de distinto tipo. Por caso,
están las distribuciones unidimensionales, que son aquellas donde se analiza una sola
variable cada vez. Estas distribuciones se presentan de distinta manera.
Una de las presentaciones es la llamada “serie simple”, donde el conjunto de

datos o valores de la variable en cuestión se presentan conforme van apareciendo, sin
ningún criterio ordenador. Por ejemplo, supongamos que tenemos la variable cantidad
de cuadras que caminan 5 lectores del diario para adquirir su ejemplar y que la variable
arroja los siguientes valores: 1 cuadra, 5 cuadras, 2 cuadras, 4 cuadras, 10 cuadras. Esa
es una serie simple.
La variable en una serie simple se simboliza con la letra “X”, y cada uno de los
valores que asume la variable se lo simboliza con “xi””, donde cada subíndice indica el
orden en que se presentaron las observaciones. En el ejemplo, sería X1: 1 cuadra, X2: 5
cuadras, X3: 2 cuadras, etc.
Otra presentación se llama distribución de frecuencias, en la que los datos son

agrupados de manera ordenada y clasificados de cuantitativamente. A diferencia de la
serie simple (donde se listan todos los valores que se presentaron) en las distribuciones
de frecuencia sólo se escriben los valores diferentes de la variable, ya que la frecuencia
es el número de veces que se repite un determinado valor de la variable.
Así, en las distribuciones de frecuencia, la variable analizada se simboliza con la

letra “Y”, y para cada valor distinto de la variable se utiliza el símbolo “yi”, donde el
subíndice nos indica cada valor distinto que presenta la variable en la serie.
La distribución normal
Se llama distribución normal a aquella en la que los datos se configuran en una

distribución probabilística para una variable aleatoria continua que tiene simetría
perfecta, en forma de campana unimodal. En ella, la media, la mediana y la moda de la
distribución son todas iguales y están localizadas al centro de la distribución, en tanto
que las medidas de la varianza, compactas o dispersas fuera de la distribución, están
alrededor de la media.
“Algunos ejemplos típicos de poblaciones cuyas medidas tienden a ser distribuidas

normalmente son: marcas [notas] sobre exámenes normalizados o controlados,
estaturas, pesos…” (Christensen, 1999: 242). Otro ejemplo clásico es el coeficiente
intelectual (IQ)
11
Figura 2
El concepto de distribución normal es importante también en términos de

muestreo, ya que si hacemos muestreos repetidos de la misma población, las medias
muestrales tienden al centro alrededor de la media de la población. Es decir, la
tendencia de la distribución de la muestra es acercarse a la distribución normal en forma
de campana, tendencia que se incrementa en tanto que el número de medidas se acerca
al infinito.
En estadística, a esto se le llama teorema del límite central: la mayor parte de las
medias muestrales se agrupan cerca de la media de la población y se van dispersando
cuanto más se alejan de la media de la población.: “la distribución de las medias
muestrales tiende a ser normalmente distribuida (esto es, en grandes muestras tiende a
tomar la forma de una distribución normal)” (Christensen, 1999: 297). ¿Qué tan grande
debe ser la medida de la muestra para eso? Un parámetro razonable es una medida igual
o superior a 30 (n > 30), aunque en poblaciones justamente simétricas –es decir-, si la
variable se comporta de manera similar a la curva en forma de campana- se puede
obtener una buena aproximación con una n tan pequeña como 10.
12
Frecuencias absolutas y frecuencia relativa
La frecuencia absoluta de un valor cualquiera es el número de veces –casos, sujetos, etc-

que en una muestra o población dada poseen ese valor. Por ejemplo, en un estudio de
mercado sobre hábitos de lectura de diarios, una distribución de frecuencias relativa a la
cantidad de veces por semana que una muestra de personas leyó un diario X nos puede
decir que en dos casos (dos veces-2-) apareció el valor 6, correspondiente a 6 lecturas en
una semana, entonces la frecuencia absoluta de ese valor es dos (2).
En tanto, la frecuencia relativa será la proporción de veces que en la muestra o

población dada apareció aquel valor. Así, si la muestra se compone de 33 casos, la
frecuencia relativa del valor 6 (que aparece 2 veces) es 2/33 = 0,0606.
Frecuencia absoluta simple: es la cantidad de veces que se repite cada valor de

la variable en cuestión. Se la simboliza con “ni”. La suma de todas las ni es igual al total
de observaciones que se simboliza con “n” o “N”, según estemos trabajando con los
datos de una muestra o con los de una población.
Frecuencia relativa simple: es la proporción que en el total de las

observaciones tiene cada frecuencia absoluta simple que se presentó, y se obtiene
dividiendo la frecuencia absoluta simple por el número total de observaciones. Se la
simboliza con “hi”. La suma de todas las frecuencias relativas simples es 1 o 100%.
A su vez, la frecuencia absoluta acumulada es la que surge de sumar las

frecuencias absolutas simples hasta un determinado valor de la variable, y se la
simboliza con “Ni”, con el subíndice indicando hasta qué valor inclusive de la variable
se suman las frecuencias absolutas simples. La última de las frecuencias acumuladas es
siempre igual al total de las observaciones.
Análogamente, la frecuencia relativa acumulada surge de sumar las frecuencias

relativas simples hasta un determinado valor de la variable, se la simboliza “H i”,
indicando el subíndice hasta qué valor inclusive de la variable se suman las frecuencias
relativas simples, y siempre la última de las frecuencias relativas acumuladas es igual a
1 o 100%.
Por ejemplo, supongamos que los siguientes datos representan al número de

clases de las distintas materias de la carrera de Periodismo a la que asistieron, en el
último cuatrimestre, un grupo de 25 alumnos inscriptos en esa carrera. En una serie
simple, los datos aparecerían así:
7; 5; 4; 5; 6; 3; 2; 1; 7; 7; 3; 5; 4; 3; 3; 2; 4; 1; 5; 7; 3; 2; 6; 3; 1
13
En una tabla de distribución de frecuencias, se verían así:
Tabla 2
Valores de la Frecuencia Frecuencia Frecuencia Frecuencia

variable absoluta simple relativa simple absoluta relativa
Yi ni hi acumulada acumulada
Ni Hi
1 3 (3/25) 0.12 3 0.12
2 3 (3/25) 0.12 6 0.24
3 6 (6/25) 0.24 12 0.48
4 3 (3/25) 0.12 15 0.60
5 4 (4/25) 0.16 19 0.76
6 2 (2/25) 0.08 21 0.84
7 4 (4/25) 0.16 25 1.00
25 (25/25) 1.00
Y permite hacer, entre otras interpretaciones, las siguientes:
-n3 = 6 significa que seis alumnos de un total de 25 asistieron a 3 clases en el

cuatrimestre considerado
-h5 = 0.16 significa que el 16 por ciento de los 25 alumnos asistieron a 5 clases en el
cuatrimestre considerado
-N4 = 15 significa que 15 estudiantes de los 25 alumnos asistieron a 4 o menos clases en

el cuatrimestre considerado
-H6 = 0.84 significa que el 84 por ciento de los alumnos asistieron a 6 o menos clases, o
bien asistieron entre 1 y 6 clases inclusive, en el cuatrimestre considerado
Este dato también puede ser graficado de distintas maneras. Una forma típica es
el llamado gráfico de bastones o columnas, para frecuencias absolutas simples o
relativas simples (para frecuencias absolutas acumuladas o frecuencias relativas
acumuladas se utiliza el gráfico escalonado o en escalera, pero su empleo es escaso, por
lo que lo obviaremos).
14
Figura 3
30
20
10
Percent
0
1.00 2.00 3.00 4.00 5.00 6.00 7.00
Asistencia a clases
Asimismo, existen gráficos para presentar datos cualitativos, como los llamados
gráficos de partes componentes, siendo los más conocidos los gráficos de barras y los
circulares (o tortas). Supongamos que estamos haciendo una investigación en una
institución educativa y tenemos los datos de los elementos que prefieren utilizar en clase
los alumnos del instructorado en educación física y que las respuestas se representan de
las siguientes maneras:
Figura 4
Cintas 15%
Tablas 15%
Colchonetas 25% Serie1
Aros 15%
Pelotas 30%
0% 10% 20% 30% 40%

Pelotas Aros Colchoneta Tablas Cintas
Serie1 30% 15% 25% 15% 15%
Los mismos datos en un gráfico circular o de torta se representarían así:
15
Figura 5
Cintas
15% Pelotas
Pelotas
30%
Tablas Aros
15% Colchonetas
Tablas
Aros Cintas
Colchonetas
15%
25%
Figura 6
Por otro lado, los gráficos de barras compuestas se utilizan cuando queremos comparar
una variable respecto a dos o más categorías de otra variable. Supongamos que tenemos
información sobre los alumnos del instructorado en educación física clasificada por
sexo y estado civil. Una forma de presentar esos datos sería la siguiente:
14 Casado
12 Soltero
10
8 Soltero Masculino
6 Casado Femenino
4
2
0
Soltero Casado
Si bien los anteriores son los principales tipos de gráficos, de hecho la galería es
más amplia. Programas de software como el SPSS para Windows o el Excel disponen
de una gran variedad de opciones en ese sentido. Las que acabamos de ver, por
ejemplo, son salidas gráficas básicas desde SPSS (figura 3) y Excel (figuras 4, 5 y 6),
obtenidas de manera elemental, sin emplear ningún conocimiento especial de esos
paquetes de software, pero esos programas ofrecen muchísimas posibilidades de edición
en cuanto a formato y estética, cuando uno ya domina más herramientas de los mismos.
Considerando que no cualquier gráfico es apropiado para cualquier dato, de

todos modos se puede hacer la siguiente síntesis de las principales salidas gráficas
disponibles (Giuliodori, 1997:20):
16
Lineales:
a) de ordenadas o de bastones. Se utilizan para representar distribuciones con pocos

valores de una variable discreta. Se marcan los valores de la variable sobre el eje de
la abcisa y se levanta una ordenada para cada uno de ellos, que es proporcional a la
frecuencia. Es muy útil para presentar comparaciones entre sí de un número
reducido de ítems.
b) poligonal: se marcan los puntos que corresponden a las diferentes coordenadas y

luego se unen dichos puntos mediante trazos rectos, conformándose una trayectoria
poligonal. Se los suele utilizar sobre todo en casos en que la variable que se
representa en el eje x es el tiempo o alguna otra magnitud continua. Es muy útil para
mostrar la trayectoria tendencial y las oscilaciones que el fenómeno presenta cuando
hay una cantidad considerable de datos a presentar. Cuando se refiere a series
temporales, en la jerga se suele llamar a estos gráficos evolutivos en líneas de fiebre.
c) ojiva: es de uso menos frecuente y representa generalmente acumulaciones de las

frecuencias (de la cantidad de observaciones).
De superficie:
a) Histograma: de uso no tan frecuente, utiliza rectángulos que se levantan con base
en el eje de abcisa y cuyas alturas son proporcionales a las magnitudes que tienen
los valores de la variable que se representan en las ordenadas (usualmente las
frecuencias). Sirve para representar una cantidad reducida de categorías o ítems y
mostrar las diferencias absolutas entre ellas.
b) De barras: de uso muy habitual, es similar al histograma pero emplea rectángulos

o barras separadas entre sí y usualmente se emplea cuando la variable que se usa en
el eje de las abcisas es cualitativa.
De partes componentes: suelen usar barras y poligonales, pero los más empleados son
los círculos, y específicamente los radiados y de tortas, que muestran la composición de
un fenómeno o todo en sus partes integrantes.
17
UNIDAD III.
Medidas estadísticas básicas

Las principales estadísticas que se emplean en ciencias sociales proceden de las ciencias
físicas y de las llamadas ciencias del comportamiento (Pope, 2002: 288) Existen
muchos volúmenes dedicados al tema para quien quiera profundizar en él, por lo que en
este curso simplemente pasaremos revista a algunas de las medidas estadísticas más
útiles en ambos campos.
Existen múltiples medidas estadísticas, pero las más comunes se orientan a

alguno de los siguientes propósitos:
 Medición de tendencias centrales: sirven para resumir los datos en términos de

un caso “´típico” o “promedio”
 Estimación de los parámetros de la población: partiendo de una muestra, sirven

para obtener inferencias sobre características de la población total.
 Determinar diferencias significativas: decidir si la muestra difiere respecto de la

población o si hay diferencias entre dos subgrupos de una muestra.
Medidas de tendencia central
Las tres herramientas estadísticas básicas más usadas para describir o caracterizar un
comportamiento típico o un caso promedio son la media aritmética, la mediana y la
moda. Estas son llamadas también “medidas de posición”.
La media aritmética es la suma de una serie dividida por el número de cifras en

una serie. Esta medida es útil cuando los resultados son simétricos y tienen una
distribución normal, pero puede ser muy engañosa como cifra estadística de resumen si
entre los resultados registrados hay casos extremos o la distribución es muy distinta a
una distribución normal.
Ejemplo de media:
Tenemos una muestra de lectores del diario La Voz del Interior, que lo compran
con la siguiente frecuencia semanal, respectivamente: 1, 1, 2, 3, 4, 4. El total suma 15.
Dividido por las 6 mediciones, se obtiene 2,5, que es la media aritmética.
La mediana es el caso intermedio en una serie, es decir aquel que tiene la mitad
de las observaciones por encima y la otra mitad por debajo, o, en palabras de Murat,
“aquel valor en la escala de medición que divide la totalidad de los objetos que forman
la muestra o la población en dos partes iguales” (Murat, 1968: 78). Es decir, es una
medida de posición que aparece en el centro –o al medio- de una sucesión ordenada de
los valores que asume una variable. Tiene la ventaja de no verse afectada por los casos
extremos (esto la diferencia de la media aritmética).
18
Cuando la cantidad de datos es impar, existe un solo valor de la variable que
ocupa el centro, y ése es el valor de la mediana. Si la cantidad de datos es par, existen
dos valores de la variable que ocupan el centro; en ese caso, la mediana se obtiene
promediando esos dos valores centrales.
Ejemplo de mediana:
Supongamos que medimos el gasto mensual de los lectores en la compra del

diario La Voz del Interior. Tenemos 5 mediciones de gastos en pesos: $1, 3, 4, 6 y 20. La
mediana, en este caso, es 4: tiene dos valores por debajo (1 y 3) y dos valores por arriba
(6 y 20).
La moda es la observación más frecuente, la que más se repite, la respuesta que

más aparece, es decir el valor de la variable que tiene la mayor frecuencia absoluta
simple.
Si ninguna respuesta aparece con más frecuencia que otras, no hay moda. Si dos
respuestas diferentes ocurren con idéntica frecuencia, entonces se dice que la
distribución es bimodal. “Por lo general, si se opera con muestras aleatorias obtenidas
de una única población, las distribuciones de frecuencias son unimodales (Murat, 1968:
83). Comparativamente, la moda es una medida que se usa menos.
Ejemplo:
Supongamos que tenemos mediciones relativas a la cantidad de personas con las

que 10 lectores de La Voz del Interior comparten la lectura del diario, por ejemplo en su
hogar (o en su lugar de trabajo) y que esas mediciones arrojan los siguientes datos: 1, 1,
2, 3, 4, 5, 2, 4, 2, 3. En este caso, la moda es 2, porque es el valor que se repite con más
frecuencia que ningún otro.
La aplicación de las medidas no sólo requiere de conocimientos de estadística,

sino de sentido común para enfocar cuál medida es más útil de acuerdo a la distribución
de los datos: por ejemplo, simétrica unimodal (donde coinciden la media, la mediana y
la moda), simétrica bimodal (coinciden la media y la mediana, pero hay dos modas),
asimétrica a la izquierda y unimodal o asimétrica a la derecha, unimodal (ninguna
coincide con las demás).
Supongamos que estamos haciendo un estudio de mercado y tenemos una base

de datos correspondiente a mediciones de talles de zapatos vendidos; en ese caso,
puede que la media no sea representativa, si entre los registros tenemos clientes con pies
muy grandes (por ejemplo, 45) o muy pequeños (37), ya que los casos extremos
distorsionan la media. Podría resultar entonces más interesante recurrir a la mediana
como medida de posición, o incluso a la moda (al gerente de la zapatería puede
interesarle saber cuáles son los tamaños o medidas más vendidas).
19
Las siguientes imágenes ilustran variados tipos de distribuciones
Figuras 7 y 8
Otra medida existente son los cuartiles, medidas útiles de posición no central, que sirven
para resumir o describir un conjunto de datos. Son valores que dividen a la serie de
datos de una variable en cuatro partes iguales, cada una de las cuales contiene la misma
cantidad de observaciones.
Existen tres cuartiles: el primer cuartil se simboliza Q1 y es el valor de la

variable que supera al 25 % de las observaciones y es superado por el 75 % restante. El
segundo cuartil es el valor de la variable que supera al 50% de las observaciones y es
superado por el 50% restante, se simboliza Q2 y coincide con la mediana. Finalmente,
el tercer cuartil es el valor que supera al 75% de las observaciones y es superado por el
25% restante, y se simboliza Q3.
Si en lugar de dividir al conjunto de datos en cuatro partes iguales lo dividimos

en cien partes iguales, los valores de la variable se llaman “percentiles” y existirán 95
20
percentiles. Si dividimos el conjunto de los datos en 10 partes iguales, los valores de la
variable se llaman “deciles” y existirán 9 deciles. Así, a estas medidas que dividen los
datos en series iguales se las denomina genéricamente “cuantiles”.
Medidas de variabilidad
Una medida de variabilidad representa el desarrollo o valor de la dispersión de un
conjunto de datos (por eso se las llama también “medidas de dispersión”). “Por grado
de ´dispersión´ debe entenderse la medida en que un conjunto de valores se concentran
alrededor de un cierto índice central. Dispersión, en este caso, es sinónimo de
hetereogeneidad o diversidad de los valores observados” (Murat, 1968: 88).
Las principales medidas de variabilidad son el rango, la varianza y la desviación

estándar.
El rango mide la extensión total de un conjunto de datos, y se calcula utilizando
solamente dos números. Es decir, se trata de la diferencia entre el valor máximo y el
mínimo que asume una variable.
Para obtenerlo, a la medición más grande le restamos la más pequeña.
Supongamos que tenemos el dato de las edades de cuatro grupos de lectores del
suplemento deportivo del diario La Voz del Interior y que los registros son los
siguientes:
Tabla 3
Edades Media Rango

Grupo 1: 70, 70, 70, 70, 70 70 0 (70-70=0)
Grupo 2: 68, 69, 70, 71, 72 70 4 (72-68=4)
Grupo 3: 60, 70, 70, 70, 80 70 20 (80-60=20)
Grupo 4: 60, 65, 70, 75, 80 70 20 (80-60=20)
El ejemplo ilustra el concepto de rango y lo distingue como medida de

variabilidad respecto de la media como medida de tendencia central. Uno puede
observar que en todos los grupos de lectores la media es la misma -70- pero que la
variabilidad es muy distinta: en el primer grupo no hay variabilidad, mientras que en el
grupo 2 hay una pequeña variabilidad (hay mayor dispersión de valores que en el grupo
1) y en los grupos 3 y 4 más todavía.
La varianza como medida requiere previamente saber cuál es la desviación de

cualquier medida del conjunto respecto a la media del mismo conjunto.
Conceptualmente, se refiere a la distancia entre cada valor que asume la variable y la
media aritmética. Operacionalmente, es igual al promedio de la suma de todos los
cuadrados de las desviaciones de la población.
En el ejemplo anterior, si nos quedamos solamente con el rango como medida de

variabilidad, no tenemos un análisis del todo completo, por la sencilla razón de que los
conjuntos 3 y 4, aun teniendo el mismo rango, son diferentes entre sí, no tienen la
misma variabilidad. Eso sucede porque el rango no nos da información respecto a si las
mediciones individuales están agrupadas alrededor de la media o esparcidas de modo
21
más o menos uniforme: solamente toma dos mediciones del conjunto, la más grande y la
más pequeña. Para un análisis más fino, se requiere una medida de variabilidad que
tome en cuenta todas las medidas: es la varianza, que considera la distancia de cada
medida con respecto a la media (distancia que se llama desviación).
En el ejemplo, los datos del grupo 4 son más difusos respecto de la media que
los del grupo 3, es decir que el grupo 4 tiene mayor variabilidad alrededor de la media
que el grupo 3.
Por su parte, la desviación estándar es la raíz cuadrada de la varianza. Su utilidad

deviene de que la varianza se calcula como elevaciones al cuadrado de las desviaciones
para evitar la consecuencia de que la suma numérica de las desviaciones sea cero (ver
cuadro siguiente), pero una vez efectuada esa operación es conveniente extraer la raíz
cuadrada de la varianza, para que la variable vuelva a sus dimensiones originales y en la
misma unidad de medida que los datos de los que procede.
Del ejemplo anterior, tomemos el grupo 2 y calculemos la varianza y la

desviación estándar
Tabla 4
Medida Media Desviación Desviación al

cuadrado
68 70 -2 2x2= 4
69 70 -1 1x1= 1
70 70 0 0x0= 0
71 70 1 1x 1 = 1
72 70 2 2x2= 4
Suma: 350 0 10
La varianza se calcula así: suma de las desviaciones (10) divida por la cantidad
de mediciones (5) es decir 10/5 = 2.
Por consiguiente, la desviación estándar es la raíz cuadrada de la varianza, es
decir la raíz cuadrada de 2 = 1,414.
En el grupo 1, hay varianza 0 y desviación estándar 0; en el grupo 3 :
Tabla 5

cuadrado
60 70 -10 10 x 10 = 100
70 70 0 0x0= 0
70 70 0 0x0= 0
70 70 0 0x0= 0
80 70 +10 10 x 10 = 100
Suma: 350 0 200
22
La varianza es 200/5=40 y la desviación estándar es la raíz cuadrada de 40, o sea 6, 325.
En el grupo 4 :
Tabla 6

cuadrado
60 70 -10 10 x 10 = 100
65 70 -5 5 x 5 = 25
70 70 0 0x0= 0
75 70 +5 5 x 5 = 25
80 70 +10 10 x 10 = 100
Suma: 350 0 250
La varianza es 250/5=50 y la desviación estándar es la raíz cuadrada de 50, o sea 7, 07.
La desviación estándar es de utilidad para evaluar la representatividad de la

media de un conjunto de datos: una desviación estándar pequeña es indicativa de un alto
grado de homogeneidad en la serie. “Si tenemos dos o más series comparables con
Medias Aritméticas idénticas o casi idénticas expresadas en igual unidad de medida, la
distribución con menos desviación estándar será la que tenga la media más
representativa” (Carrizo Stauffer, 2000: 35).
Estas operaciones para cálculos dentro de poblaciones son semejantes a las que
se efectúan para las estadísticas de muestra, con la diferencia básica de que mientras en
el primer caso se toman las medidas de la población en el segundo se toman las medidas
de la muestra (eso también hace que se diferencien en sus símbolos básicos, pero no
entraremos en ese detalle: lo importante es tener conceptualmente claras las medidas, no
dominar la simbología).
Otra manera de enfocar los datos son las llamadas “medidas de forma”, es decir
a la forma horizontal o vertical en que se despliega el conjunto de observaciones. Se
habla de dos grandes tipos de medidas de forma (Carrizo Stauffer, 2000: 36).
 Asimetría: se refiere a la deformación horizontal de la distribución. Se puede

observar la gráfica de la distribución en un gráfico de bastones o columnas (o
bien un histograma o polígono de frecuencia) y según el tipo de variable en
cuestión la gráfica nos da una idea de la forma que presentan los datos, o bien
comparando la media aritmética y la mediana, se podrá ver si se trata de una
media aritmética mayor a la mediana (asimetría derecha o positiva) una media
aritmética igual a la mediana (simetría) o una media aritmética menor a la
mediana (asimetría izquierda o negativa).
 Puntiagudez: se refiere a la deformación vertical de la distribución.
23
Muestreo
Usualmente la recopilación de estadísticas implica hacer mediciones sobre una
muestra, en lugar de sobre toda la población, porque en la generalidad de los casos es
menos costoso y más factible medir sobre una muestra que sobre la población completa.
Estudiar una muestra de manera conveniente permite a posteriori generalizar las
conclusiones hacia toda la población (en eso consiste la inferencia estadística).
Ese proceso de inferencia estadística se puede sintetizar en los siguientes pasos

(Christensen, 1999: 14).
Paso 1 Paso 2 Paso 3
Colección de Sintetización o Interpretación

datos o reducción de de datos o
selección de datos inferencia
la muestra estadística
Así como se puede decir que las estadísticas nos rodean, también se puede afirmar que
la muestra es algo familiar, aunque no nos demos cuenta inmediatamente. El siguiente
ejemplo ilustra perfectamente esta idea: “todos creemos en el muestreo, sea que nos
demos cuenta o no. Todo cocinero determina si la sopa tiene suficiente sal tomando una
cucharada (una muestra) y llegando a una opinión –no hace falta servirse toda la olla
para saber. Nadie necesita beber todo un vaso de leche dañada para poder decir que está
mala -un trago (una muestra) es suficiente (Pope, 2002: 273).
Muestreo aleatorio y no aleatorio

Se dice que una muestra es aleatoria cuando se la selecciona de tal forma que todos los
elementos de la población que la componen tienen idénticas oportunidades o
probabilidades de ser seleccionados –elegidos- para integrarla, y se la denomina no
aleatoria cuando el proceso de selección es subjetivo o arbitrario y no permite estimar o
precisar las probabilidades de selección, lo que la hace susceptible a sesgos
(Christensen, 1999: 29).
24
La muestra aleatoria permite hacer inferencias confiables respecto de una
población. “Todas las inferencias estadísticas presumen la aleatoriedad de los
muestreos, puesto que solamente si se cumple con esta condición es posible calcular la
magnitud del error que es implícito en nuestras estimaciones. En efecto, no existen
modelos matemáticos para muestras no-aleatorias, y por ello a partir de éstas no hay
posibilidad alguna de ´inferir´, es decir de llegar a una conclusión generalizable a la
población o aún solamente a más casos de los que se incluyeron en el grupo estudiado”
(Murat, 1968: 223).
A partir de la incorporación de los modernos sistemas informáticos, usualmente
el procedimiento se realiza generando números aleatorios por medio de una
computadora, pero existen otros procedimientos alternativos (lanzar una moneda, sacar
bolas numeradas, tomar números aleatorios de una tabla, etc). Lo importante es que el
mecanismo aleatorio le proporciona a toda la unidad de una población bien definida una
oportunidad de ser elegida (oportunidad que puede ser determinada) para integrar la
muestra.
No son muestras aleatorias procedimientos a veces usados para algunos sondeos,

como por ejemplo entrevistas callejeras, o encuestas on line, o cuestionarios insertos en
publicaciones.
Una muestra aleatoria simple es aquélla que se obtiene de la población de modo

tal que, en cada etapa del muestreo, “cada elemento que permanece en el arreglo de la
población tiene una oportunidad igual de ser escogido” (Christensen, 1999: 33).
Ordenamiento, por su parte, es un concepto que se refiere a una lista de todos los
miembros o unidades de una población.
Seleccionar una muestra aleatoria simple requiere construir un ordenamiento o

lista de todas las unidades de la población, lo que con frecuencia no es sencillo de hacer;
en el ejemplo de los lectores adultos del diario deportivo Olé, por caso, eso no sería
sencillo. Pero, si fuera posible, el procedimiento sería más o menos así: cada miembro
de esa población sería numerado, con lo que obtendríamos N miembros (N designa al
total de miembros de la población). Esos números podrían ser escritos para extraerlos de
una urna donde estuvieran bien mezclados o se los podría seleccionar con un programa
de azar informático, y obtendríamos una muestra aleatoria simple.
En cambio, si tuviéramos la población del ejemplo dividida en dos grupos de

tamaño distinto (por ejemplo, 1000 hombres y 500 mujeres) y en cada uno de ellos
hiciéramos un muestreo por separado, no obtendríamos una muestra aleatoria simple
sino una muestra aleatoria estratificada, porque la probabilidad de selección de cada
persona en el grupo más pequeño es distinta a la que se da en el grupo más grande. Se
emplea este tipo de muestra en casos en que la población es subdividida en
subcategorías, capas o estratos y cuando se desea que cada uno de esos estratos esté
representado fielmente en la muestra.
Análogamente, si dentro de la población estableciéramos un intervalo de

elección, seleccionando por ejemplo al miembro 5, al 10, al 15, etc, tampoco tendríamos
una muestra aleatoria simple, porque el miembro 6, 7, 8 y 9 no tienen probabilidades de
ser elegidos, como así tampoco el 11, 12, 13, 14, etc. Este procedimiento se denomina
muestra sistemática.
25
Estimación de parámetros de la población
Se llama inferencia estadística a “tomar una decisión sobre la población entera con base
en las características de un subgrupo o muestra” (Pope, 2002: 291). Es decir, se trata de
generalizar resultados. Por ejemplo, en una encuesta se presentan resultados como
porcentajes de personas que conocen a un político determinado, o que leen cierto diario:
generalizar o extrapolar estos resultados a toda la población requiere aplicar un límite o
intervalo de confianza a ese resultado porcentual.
Así, si los datos del estudio dicen que el 40 por ciento de los entrevistados en
una muestra leen el suplemento Vos del diario La Voz del Interior, es difícil que
exactamente el 40 por ciento de la población lea ese diario, pero seguramente (si la
muestra fue suficientemente representativa y estuvo bien tomada) el dato de la
población debe oscilar alrededor de ese valor, cercano a él. Esa diferencia entre los
resultados de la muestra y la población es lo que se llama error muestral, mientras que el
intervalo que se anexa al resultado de la encuesta para estimar o inferir la cifra de la
población se llama intervalo de confianza.
Determinar diferencias significativas
Muchas veces las investigaciones comparan resultados entre dos muestras o subgrupos,
usualmente entre:
-dos o más subgrupos dentro de una misma muestra: ¿la lectura del suplemento
de deportes del diario La Voz del Interior presenta diferencias palpables entre hombres y
mujeres? ¿Entre diferentes edades?
-muestras tomadas en diferentes momentos: ¿aumentó la lectura de la sección
deportes respecto a la medición anterior?
Si las respuestas no presentan variaciones –la lectura de la sección deportes se

reparte en partes iguales entre hombres y mujeres, la lectura se mantiene idéntica al
registro precedente- la lectura no presenta dificultad. En cambio, cuando los resultados
son distintos, se plantea la pregunta relativa a si las diferencias en los resultados son
pequeñas y atribuibles al azar, o si por el contrario es suficientemente considerable
como para que esté expresando una verdadera diferencia entre subgrupos.
Para responder a esas preguntas existen pruebas estadísticas. Pero, antes de eso,
el investigador o quien analiza los datos cuenta con una hipótesis, una afirmación que
hay que probar como verdadera o falsa. En estadística, habitualmente se supone que dos
poblaciones o subgrupos son iguales hasta que se pruebe lo contrario; a esto se lo llama
hipótesis nula.
Partiendo de la hipótesis nula, si la diferencia entre dos muestras es pequeña

como para ser atribuida al azar, entonces se acepta la hipótesis nula, y el investigador o
analista concluye que la diferencia entre las dos muestras no es estadísticamente
significativa (para un nivel definido de significación, que usualmente oscila alrededor
del 95 por ciento). En cambio, si la diferencia en los resultados es suficientemente
grande como para descartar que sea fruto del azar, entonces se rechaza la hipótesis nula
y se concluye que la diferencia es estadísticamente significativa.
26
Otras pruebas estadísticas más especializadas y de utilidad para evaluar
resultados de investigación son la prueba de chi cuadrado, el análisis de varianza y la
prueba t de Student.
La prueba de chi cuadrado se emplea para comparar los resultados de una

encuesta con frecuencias teóricas o esperadas en la población (sólo se puede aplicar
cuando los resultados, respuestas o informantes son pasibles de ser organizados en
varias categorías).
El análisis de varianza divide en partes la varianza encontrada entre los datos de

una prueba, asignando a cada parte a una fuente o factor. Así, se pueden evaluar esas
variaciones y observar si alguna es mayor de lo que se esperaría por azar.
La prueba t de Student compara valores registrados respecto de un óptimo.
Es importante recalcar que cuando se habla de diferencias significativas o no, lo

que quiere decir es estadísticamente significativas (o no). Por ejemplo, si los resultados
nos dicen que un 40 por ciento de los entrevistados lee el suplemento de deportes del
diario La Voz del Interior y un 37 por ciento lee el diario deportivo Olé, no decimos que
la diferencia no sea significativa –podría ser muy significativa en la práctica- sino que,
en términos estadísticos no lo es (debido a que estamos trabajando con una muestra, y
por ende existe un error muestral y un intervalo de confianza).
Asimismo, interesa retener los conceptos de reglas estadísticas de decisión, que

definen dos rangos de valores, la región de rechazo y la región de aceptación. El valor
fronterizo que separa a una de otra se llama valor crítico. Los datos recolectados se
resumen en la llamada estadística de prueba. “Si la estadística de prueba cae dentro de la
región de rechazo, entonces la decisión del analista usualmente será la de rechazar
cualquier hipótesis nula que haya formulado. Si la estadística de prueba cae dentro de la
región de aceptación, la decisión normalmente será la de aceptar la hipótesis nula. Sin
embargo, la decisión de ´aceptar´ la hipótesis nula realmente significa que no tenemos
información suficiente para rechazarla; de ninguna manera hemos probado que la
hipótesis nula es verdadera” (Christensen, 1999: 356).
27
UNIDAD IV
La encuesta por muestreo

Esta técnica permite medir respuestas y hacer cuantificables las cuestiones que se
estiman relevantes para los objetivos de la investigación, y puede usarse tanto para fines
descriptivos como explicativos. Son muy empleadas por las consultoras de opinión
pública y de investigación de mercado, por lo que haremos algunas referencias a su
empleo en esos ámbitos, ya que entendemos que les resultarán útiles a ustedes como
futuros comunicadores sociales, porque pueden llegar a encontrarse con cierta
frecuencia con información procedente de esas fuentes.
Como su nombre lo indica, en la encuesta por muestreo se selecciona una

muestra representativa de la población objetivo a investigar (universo), de modo que
los resultados pueden ser generalizables. La representatividad muestral se basa en dos
principios (Gaitán Moya y Piñuel Raigada, 1998:146):
-el principio de regularidad estadística: un subgrupo cualquiera extraído al azar de un

grupo más grande tiende a presentar las mismas características que éste.
-principio de inercia (ley) de los grandes números: los grandes grupos son más
estables y requieren comparativamente muestras más pequeñas que los grupos más
pequeños.
 El presupuesto de base que fundamenta la encuesta por muestreo es un

resultado matemático conocido como el teorema del límite central, según
el cual si tomamos muestras de manera aleatoria a una población
cualquiera, sin importar cómo se distribuya la opinión de la población,
las muestras se comportan de una manera "normal". Es decir que, si
tomamos muchas muestras de esa población, éstas se van acomodando de
acuerdo con la curva en forma de campana que en estadística se conoce
como “distribución normal”. Así, partiendo de una pequeña muestra se
pueden generalizar los resultados a todo el universo.
Para la determinación del tamaño muestral se deben tener en cuenta los

siguientes factores:
-margen de error
-el tipo de universo: infinito (desde 100.000 unidades) o finito (menos de 100.000
unidades)
-homogeneidad de la población
-número de segmentación de los datos o afijación de la muestra (para lograr que cada
uno de ellos sea representativo)
Tipos de muestras: hay dos tipos principales de muestras, las probabilísticas y las no
probabilísticas. Las muestras probabilísticas son más precisas, permiten calcular el error
muestral y los coeficientes de confianza para las estimaciones. Las muestras no
probabilísticas son más rápidas en tiempo y costes, y sirven para estudios exploratorios
donde no resulte imprescindible controlar el margen de error.
28
Usualmente y salvo casos de investigaciones especiales (por ejemplo, cuando no
se puede estimar el tamaño del universo), las muestras empleadas por las consultoras de
opinión pública con fines de pronóstico electoral y con fines estratégicos son
probabilísticas. Respecto al procedimiento de obtención de muestras, remitimos a la
abundante bibliografía especializada sobre el tema.
También en la investigación de mercado se puede decir que la distinción

fundamental entre categoría de muestras es probabilística vs no probabilística. “Las
muestras probabilísticas son teóricamente las más sólidas y las más representativas; son
también las más caras. De hecho, para muchos estudios son prohibitivamente caras”
(Pope, 2002: 275). Por esos motivos, ese autor insiste en la importancia que tiene
identificar cuáles son las situaciones en las que se requiere un muestreo probabilístico, y
cuáles son los pasos que permiten optimizar la calidad de una muestra no probabilística
cuando no es económicamente factible emplear una muestra probabilística.
Dentro de las modalidades de muestreo probabilístico se destacan:
-muestreo simple al azar: es el tipo conceptualmente más básico pero el más difícil de
lograr en la práctica ya que requiere un marco muestral perfecto, es decir disponer de
una lista completa de todos los miembros de un universo. Por ejemplo, equivaldría a
tener la lista de todos los electores de un distrito o de todos los consumidores de un
producto o usuarios de un servicio, para asignarle un número a cada uno y sortearlos a
todos en igualdad de oportunidades de ser seleccionados.
-muestreo estratificado: en éste, primero se agrupa a la población en segmentos o

estratos homogéneos y luego, dentro de cada uno de ellos, se conforma la muestra.
-muestreo sistemático con arranque aleatorio: en primer término se selecciona de

manera aleatoria cuál será el primer integrante de la muestra. Luego, se seleccionan los
miembros sucesivos con intervalos iguales hasta completar la muestra, calculando el
intervalo como un cociente entre el tamaño de la población (marco muestral) y el
tamaño de la muestra escogido. Por ejemplo, si la población es de 10.000 personas y la
muestra definida es de 500 personas, el intervalo sería de 20. Suponiendo que el primer
miembro obtenido por sorteo al azar es el 5, serían seleccionados sucesivamente el 25,
el 45, el 65, etc.. Para esto, es necesario estar seguros de que no intervenga en la lista de
miembros a seleccionar ningún tipo de periodicidad o criterio que pueda introducir un
sesgo en la selección.
-muestreo por conglomerados: se comienza seleccionado no elementos individuales,

sino grupos de elementos a los que se denomina conglomerados. Una forma usual en
que se aplica este procedimiento es hacer corresponder los conglomerados con zonas
geográficas o áreas. “En primer lugar, se divide el territorio que abarca el tema de
estudio en áreas geográficas, entre las que se eligen varias de forma aleatoria. En una
segunda fase, cada área seleccionada se divide a su vez en áreas más pequeñas y se
repite de nuevo una selección aleatoria entre éstas. Con este procedimiento, mediante
selecciones sucesivas de unidades muestrales geográficas, se van concretando los
lugares elegidos para llevar a cabo el trabajo de campo. Este tipo de muestreo se
denomina polietápico al considerar sucesivas elecciones muestrales en varias etapas”
(Trespalacios Gutiérrez, 2005: 113). La última etapa de este procedimiento corresponde
a la selección final de los individuos concretos a entrevistar, para lo cual existen dos
29
procedimientos básicos –rutas aleatorias y muestreo por cuotas- que serán revisados
oportunamente.
En muchas investigaciones, como pruebas de productos, entrevistas

coincidentales en centros comerciales, entre otros proyectos, se emplean métodos de
muestreo no probabilístico. Los más usuales son los siguientes:
-muestreo por conveniencia: la selección de los informantes corre por cuenta de los
entrevistadores priorizando la comodidad y rapidez del procedimiento de acuerdo a la
disponibilidad de los informantes. “Por ejemplo, 100 mujeres pueden ser entrevistadas
en un centro comercial, sin cuotas o criterios para participar en el estudio” (Pope, 2002:
282).
-muestreo por criterio: se seleccionan informantes que cumplen un determinado

requisito que los hace entrevistables. Con frecuencia, este es el procedimiento cuando se
trabaja con bases de datos de mercado que no llegan a constituir un marco muestral
perfecto.
-muestreo por “bola de nieve”: a partir de los informantes que fueron seleccionados en
primer lugar (usualmente según el criterio del investigador), los mismos sugieren datos
para ampliar la muestra (por eso se lo suele llamar también muestreo por
recomendación). Se emplea con frecuencia cuando no es posible identificar a priori una
base de datos exhaustiva de miembros informantes : “Por ejemplo, si se desea realizar
un estudio a las personas aficionadas a coleccionar monedas de la antigüedad, el primer
contacto con un aficionado abre las puertas para los siguientes que él conoce y así
sucesivamente” (Trespalacios Gutiérrez, 2005: 110).
Frecuentemente las investigaciones de mercado se apoyan en muestreos

basados en la guía telefónica, lo que se ha incrementado con el creciente uso de la
entrevista telefónica como sustituto de la personal domiciliaria. Además, el recurso al
procedimiento de marcación de dígitos al azar permite mejorar notablemente la
representatividad de esas muestras.
Por otro lado, las investigaciones de mercado también suelen recurrir al panel
como medio de recogida de información: “consiste en entrevistar periódicamente a una
muestra representativa de la población con la finalidad de obtener, además de las
características de los encuestados, información sobre su comportamiento en momentos
de tiempo sucesivos.
De esta manera, se puede conseguir un conocimiento sobre la evolución

temporal de las decisiones del consumidor y, por tanto, facilitar una perspectiva
dinámica de los fenómenos de mercado, frente a la visión estática de una encuesta”
(Trespalacios Gutiérrez, 2005: 114). En ese sentido, prestan gran utilidad para el análisis
longitudinal, ya que permiten monitorear la evolución de las variables a través del
tiempo.
Frente a estas ventajas, debe considerarse no obstante que esta técnica tiene el
inconveniente de poder provocar cansancio en los informantes a los que repetidas veces
se les pide que contesten a las preguntas de una investigación sistemática; por otro lado,
el costo de este tipo de estudios también suele ser elevado. Por ello, con frecuencia son
30
las grandes consultoras internacionales las que más recurren a este tipo de técnica, como
es el caso de AC Nielsen.
El error muestral
Siempre que se aplica una encuesta a una muestra existe un margen de error estadístico
variable (mayor o menor según determinados requisitos). No se trata de un defecto
imputable a errores profesionales, sino que es un concepto técnico-estadístico ineludible
que deviene del hecho de que no se ha relevado a toda la población sino que se ha
tomado una muestra de la misma (aunque sea representativa).
El margen de error estadístico también proporciona información para estimar si

una diferencia entre dos porcentajes es estadísticamente significativa o no: si la
diferencia se mueve “dentro” del margen de error, entonces no es significativa.
 Supongamos que se avecina una elección y hacemos una encuesta,

digamos con un error de +-3%, error que es bastante común en estos
estudios y se encuentro dentro de los parámetros usualmente aceptables.
De la encuesta resulta que el candidato X le lleva seis puntos de ventaja
al candidato Z (25% a 19%, por ejemplo) pero si tenemos en cuenta el
error muestral puede ser que X tenga tres puntos más (28) o tres puntos
menos (22) y otro tanto sucede con z, que puede tener 16 o 22. Es decir
que, admitiendo un margen de error muestral de +-3, la elección podría
estar empatada. Es importante tener en cuenta esto, que en estadística se
llama covarianza, y que en términos simples significa que cada punto de
más que le demos a un candidato también es computable como un punto
que le falta a otro, y viceversa. La conclusión que se impone es que sólo
pueden considerarse significativas las diferencias netamente mayores al
error muestral.
Además de esta cuestión, hay otras consideraciones que tienen que ver con el
error muestral:
“Casi siempre la ficha técnica nos dirá que el nivel de fiabilidad es del 95%.
Esto significa que, si se hiciera la misma encuesta una y otra vez, en el 95% de
los casos los resultados estarían dentro del margen de error. Pero el margen de
error es válido sólo para la muestra total, no para los subgrupos. Y lo más
frecuente es que se distribuyan los resultados según el sexo, la filiación política,
el nivel de estudios, la edad, etc. El lector desprevenido suele creer que las
subdivisiones de la muestra tienen el mismo grado de fiabilidad, pero no es así.
Los subgrupos –por ejemplo, hombres mayores de 41 años, profesionales y de
ideología de derecha- resultan a veces muy pequeños para ser representativos”
(Rey Lennon y Piscitelli Murphy, 2004: 36).
En rigor de verdad, ese es un dato que frecuentemente no se explicita cuando se

reportan resultados. Como parámetro para la interpretación, uno tiene que tener en
cuenta que, en general, para poder hacer estimaciones fiables, un subgrupo no debe
tener menos de 80 miembros (Hentschel, 2002: 123)
31
Medición en la investigación social: estudios de opinión
pública y de mercado
En el ámbito de los estudios de opinión pública, los métodos cuantitativos captan los
elementos más manifiestos- del comportamiento político-electoral de los encuestados, o,
en otros términos, se abocan a la medición de datos provenientes de la "superficie"
(Martínez Pandiani, 2000: 78) de esa conducta.
Por su parte, en investigación de mercados estos métodos se emplean con la

finalidad de generar información relacionada con el marketing mediante técnicas
estructuradas: “Los datos admiten algún tipo de medida y su análisis se realiza mediante
procedimientos estadísticos, normalmente a partir de una muestra extraída de la
población objetivo, pudiéndose extrapolar los resultados a todo el conjunto de personas
o empresas que constituyen la población base del estudio” (Trespalacios Gutiérrez,
2005: 96).
En general, son técnicas estructuradas, basadas en instrumentos de aplicación

uniforme cuya respuesta se encomienda a muestras de tamaño representativo desde el
punto de vista estadístico. Si bien existe la posibilidad de rotar tipos de cuestionarios y
de reactivos, tarjetas y estímulos, en cada caso el instrumento que se emplea obedece a
un determinado orden y flujo de preguntas, que debe ser aplicado por igual a todos los
entrevistados (por eso se habla de instrumentos estandarizados).
Los métodos cuantitativos más utilizados son:
 Encuestas de opinión: se realizan durante el período preelectoral

empleando una serie de cuestionarios estandarizados, que incluyen
mayormente preguntas cerradas (dicotómicas, de escalas y en abanico) y
preguntas abiertas (aunque generalmente en menor medida que las
cerradas). Entre otros puntos, estas encuestas pueden indagar sobre
valoración de gestiones de gobierno, problemática de los distritos donde
se vota, imagen de dirigentes sociales y políticos, voto en elecciones
anteriores, tendencias electorales por partido, por candidato y por fórmula
con vistas a la elección, ola ganadora, testeo de impacto de ejes discursivos
y anuncios propagandísticos, etc.
A su turno, las encuestas de mercado permiten recoger tres tipos principales de

información (Trespalacios Gutiérrez, 2005: 97):
1. Comportamiento del consumidor, comprador, cliente o usuario, en su

conducta pasada, reciente o habitual, e incluso acciones previstas en
un futuro cercano.
2. Actitudes, predisposiciones ante una marca, servicio o empresa, y las

motivaciones que pueden ayudar a entenderlas
3. Características del entrevistado, relativas a atributos demográficos o

socioeconómicos, en el caso de personas o familias, o características
de una empresa (información de clasificación).
32
Contrastación de resultados
En el caso de las muestras realizadas por las consultoras de opinión pública, una
oportunidad inestimable de mostrar su valía es el día de las elecciones, que permite
contrastar (dentro de límites temporales y márgenes razonables de error) los resultados,
el ajuste de las muestras y la validez de todos los instrumentos empleados en la
metodología de trabajo (cuestionarios, tarjetas-reactivos, planillas y demás material de
campo).
Pero hay que tener en cuenta una cuestión fundamental: en los fenómenos
sociales existe un componente de indeterminación ineludible, y si es factible
pronosticar con algún grado de certeza acontecimientos cercanos (sea una elección u
otro evento social), es mucho más difícil tratar de hacer lo mismo respecto a
acontecimientos más alejados en el tiempo.
“No conocemos los límites de la indeterminación de los fenómenos sociales.

Hay una dimensión temporal en esta incertidumbre (…) Esto va más allá del
error muestral de la estimación a partir de una inferencia estadística. Está en la
naturaleza de los fenómenos sociales” (Oliva, 2001: 50).
Universos y muestras
En general, los universos electorales sujetos a estudio están constituidos por la
población mayor de 18 años, mientras que las investigaciones de mercado parten de una
edad base de acuerdo al tipo de producto o servicio en cuestión.
Un dato importante es que usualmente se trabaja con muestras autoponderadas,

lo que quiere decir que los elementos constituyentes de la muestra deben tener una
representación acorde con su relevancia en la población, es decir que aquellos con
mayor representación en la población deben tener también un peso mayor en la muestra
(por ejemplo, si en la población tenemos 51% de mujeres, en la muestra debemos
replicar ese peso).
En cambio, si la participación de los elementos de la muestra es distinta respecto

a la población de origen, “procede realizar una manipulación previa al análisis de datos,
que recibe el nombre de ponderación de casos” (Rojas Tejada y otros, 1998: 83) para
poder hacer el ajuste de resultados.
33
Unidad de observación y métodos de captura
Para la selección de la unidad final (el entrevistado) puede realizarse utilizando el
procedimiento de rutas aleatorias o bien el de muestreo por cuotas. Este último tiende a
ser más empleado, por una serie de razones.
Ambos operan con tablas de contingencia, estratos o cuotas a completar por los
entrevistadores, pero se distinguen en que mientras el primero emplea una serie de
números aleatorios como procedimiento de selección del entrevistado (para asegurar
objetividad) en el segundo el encuestador puede hasta cierto punto seleccionar
subjetivamente a las personas.
 Siendo la estrategia más empleada, el fundamento básico del muestreo

por cuotas es que los distintos segmentos sociodemográficos de la
población deben estar representados proporcionalmente, para que la
muestra replique los estratos reales de la estructura poblacional del
universo.
 Así, se realizan cálculos sobre la muestra para que la composición de la

misma se equipare con la configuración del universo. Luego de esa
operación de cálculo estadístico, el entrevistador recibe del jefe de campo
indicaciones tabuladas sobre las características sociodemográficas que
deben tener los encuestados y se le asigna la tarea de buscar y encontrar
a las personas indicadas.
 La consigna, de acuerdo al instructivo de campo, es respetar las cuotas

establecidas para cada sexo y grupo de edad en la planilla entregada al
encuestador antes de salir al terreno. El cumplimiento de las consignas y
la correcta administración del cuestionario son sistemáticamente
controladas mediante la supervisión del campo (aproximadamente un 20
por ciento en promedio por campo, como estándar general).
Para tener en cuenta:

Hay que remarcar que, si bien no es un procedimiento intrínsecamente azaroso, el
muestreo por cuotas introduce la aleatoriedad mediante la utilización de tablas de
contingencia. La principal diferencia con el procedimiento de rutas aleatorias es que en
éste se intenta garantizar que cualquier persona de la población tenga exactamente la
misma posibilidad de ser entrevistada. Por esta razón, algunos especialistas disienten en
sus preferencias por uno u otro sistema. No obstante, más allá de las disputas
académicas, a la hora de evaluar los resultados ambos sistemas son perfectamente aptos.
En pruebas realizadas en Alemania por el Instituto Allensbach de Demoscopía

(dirigido por Elisabeth Noelle-Neumann, la autora de la teoría de la “espiral del
silencio”) donde la mitad de las entrevistas se realizaron con el sistema de rutas
aleatorias y la otra mitad con el sistema de muestreo por cuota, no se registraron
diferencias significativas entre ambos sistemas, e incluso se observó una leve ventaja a
favor de las entrevistas por cuota (Hentschel, 2002: 119). Otro beneficio del sistema de
muestreo por cuotas es que, manteniendo adecuados estándares de calidad
34
metodológica, implica menores costos de preparación, implementación y ejecución que
el sistema de rutas aleatorias.
“Por ubicarse al menos en el mismo nivel de confiabilidad, por razones prácticas

y por los menores montos de inversión es más común lograr la representatividad
de un estudio por medio de las entrevistas por cuota. Se desarrolló ese método en
función de experimentos sociodemográficos estudiando la influencia de la
pertenencia de la persona a un determinado segmento poblacional en el espectro
de opiniones. Se estudiaron por medio de análisis estadísticos de factores el
significado que tienen las distintas características de personalidad en la
formación de juicios y prejuicio que determinan sus opiniones y se reflejan en
las respuestas de una encuesta” (Henstchel, 2002: 119).
Otra razón por la que suele ser más empleado el muestreo por cuotas es que es
más sencillo el acceso a las unidades de análisis; si se lo aplica de manera ortodoxa, el
muestreo por rutas aleatorias no admite el reemplazo de unidades (por ejemplo en caso
de ausencia, aunque de hecho en la práctica se suele proporcionar al entrevistador
procedimientos de sustitución, por la sencilla razón de que “el investigador responsable
debe plantearse la investigación en términos realistas” (Rojas Tejada y otros, 1998:
112).
Frente a este criterio con poca o ninguna justificación metodológica (pero con
buen sustento económico y psicológico, como remarca el autor recién citado) que
implica de facto una “licencia” o una flexibilización del muestreo por rutas aleatorias,
otros investigadores eligen directamente el muestreo por cuotas.
En tanto y en cuanto la unidad final de observación es el individuo, la encuesta

como técnica se fundamenta en una estrategia basada en el individualismo
metodológico:
“la unidad de observación es siempre el individuo, y sólo mediante artefactos

estadísticos pueden construirse proposiciones referidas al nivel colectivo. A la vez, la
estadística sólo tiene sentido cuando se habla de agregados de individuos, por lo que
bien puede sostenerse que el método parte del individuo en el nivel de la observación
pero accede al plano agregado en el nivel del análisis” (Mora y Araujo, 2005: 115)
La encuesta domiciliaria frente a las demás alternativas

La encuesta domiciliaria es considerada como la más fiable en los estudios de opinión
pública sobre la población electoral (todos los mayores de 18 años en condiciones de
votar). En comparación, las encuestas coincidentales o en vía pública no son
representativas porque no respetan el principio metodológico de la aleatoriedad y
porque no todos los sujetos tienen la misma probabilidad de ser encuestados, es decir
que sólo tienen una utilidad limitada en casos específicos.
Por su parte, la encuesta telefónica permite ahorrar costos y relevar más

rápidamente, pero no siempre son suficientemente representativas, ya que la cobertura
del servicio telefónico no es total y grandes segmentos de la población aún no disponen
del mismo (este sesgo se puede morigerar recurriendo a métodos de ponderación, pero
no es sencillo hacerlo).
35
Con todo, la encuesta telefónica es una alternativa particularmente apta y
conveniente cuando los estudios en cuestión se aplican sobre todo a los segmentos
medios y altos de la población (donde la posesión de teléfono alcanza a una proporción
mayor de miembros).
Por su parte, la entrevista domiciliaria permite construir un mejor vínculo de

cooperación con el entrevistado, ya que la situación de encuesta se realiza en el hogar
del encuestado. Por ese cúmulo de razones, es hasta el momento el recurso más
abarcativo para estudiar a la población general, aunque es mucho más oneroso y lento
que las alternativas telefónicas (siendo esos dos motivos los que fundamentan su
progresivo desplazamiento a manos de esas alternativas).
También en el plano de la investigación de mercado la entrevista personal

domiciliaria se considera como la que más se acerca al enfoque “universal” de la
investigación (Pope, 2002: 33). Se aprecian particularmente sus ventajas relativas a que
ofrece mayor libertad en la longitud y el formato del cuestionario y a que permite mayor
nivel de detalle y profundización, ya que la situación cara a cara permite repreguntas y
aclaraciones que difícilmente admiten las técnicas alternativas. Por otro lado, también
brinda la posibilidad de hacer demostraciones de productos, muestras o empaques
(packaging): “hace posible utilizar material auxiliar, como por ejemplo un envase de un
producto, un logotipo o imágenes publicitarias” (Trespalacios Gutiérrez, 2005 100).
También permite, en general, obtener muestras más representativas.
Del lado de las desventajas, como ya mencionamos la entrevista domiciliaria

personal implica mayores costos y un proceso de recolección de datos usualmente más
largo. Por esa y otras razones, la investigación de mercado recurre en forma creciente a
formas alternativas de recoger la información, como las entrevistas de tipo coincidental
(por ejemplo, en un supermercado, shopping, etc.), o a entrevistas telefónicas.
Es importante considerar que, especialmente en investigación de mercado, la

elección respecto a la técnica de recolección de datos admite una mayor flexibilidad
debido a la variedad de públicos posibles a estudiar, que es mayor a la de los estudios de
opinión pública. En investigaciones electorales, si bien existen algunos estudios
enfocados sobre segmentos específicos, en general el universo de referencia es el
electorado, es decir todos los ciudadanos mayores de 18 años con capacidad electoral:
de ahí la necesidad de elegir una técnica que permita lograr la mayor representatividad
posible.
En cambio, en investigación de mercado, si bien existen productos y servicios de

carácter masivo que abarcan universos amplios, se presentan con mucha frecuencia
situaciones donde lo que se quiere investigar son segmentos específicos, por lo que la
necesidad de recurrir a la entrevista domiciliaria es menor.
En general, se puede decir que en la investigación de mercado las entrevistas

domiciliarias personales se emplean sobre todo cuando es necesario incluir una
demostración o prueba de productos con los entrevistados, o cuando se trata de estudios
de actitudes u opiniones complejos en los que la duración de la entrevista o el tipo de
pregunta que se realiza hace que las alternativas de entrevistas (telefónicas,
coincidentales, etc) sean poco viables.
36
Aun así, es clara la tendencia a realizar cada vez más estudios a través del
teléfono, por lo que se impone volver sobre algunas de sus principales ventajas y
desventajas:
Principales ventajas
 El uso de llamadas con dígitos marcados al azar es relativamente sencillo

conformar una muestra grande y geográficamente dispersa con rapidez.
 Permite volver a llamar con facilidad, mientras que en la entrevista

domiciliaria hacer re-visitas es más complicado
 Facilita la tarea de supervisión del trabajo de los encuestadores (incluso

puede hacerse en tiempo real, desde un call center, con el supervisor
escuchando las llamadas mientras se hacen).
 Agilidad del proceso: es factible hacer una prueba de cuestionario por la

mañana, corregir y comenzar a relevar por la tarde.
 Costo menor a la entrevista domiciliaria
Principales desventajas
 La duración de la entrevista es más limitada.
 No permite hacer demostraciones ni mostrar reactivos al entrevistado
 Limita el tipo de preguntas: por teléfono no se pueden evaluar escalas

muy largas
En general, en la investigación de mercado las entrevistas telefónicas se utilizan

sobre todo para estudios de seguimiento sistemáticos que implican muestras periódicas
de evaluación del nivel de conocimiento, las actitudes, uso y nivel de satisfacción
respecto de un producto o servicio por parte de los consumidores. Por otro lado,
también se la emplea con frecuencia para contactar a informantes seleccionados de una
base de datos específica.
Tanto en investigación de opinión pública como en estudios de mercado ha

crecido la aplicación de encuestas telefónicas asistidas por computadora (CATI,
computer assisted telephone interviewing) en las que el encuestador pregunta por
teléfono y va cargando las respuestas directamente en el monitor de la computadora,
optimizando así los tiempos de la carga de datos y el posterior procesamiento de la
información. Otra variante de este tipo es la encuesta CAT, que prescinde el
entrevistador, el cual es reemplazado por una voz activada por la computadora. No
obstante, respecto a esta modalidad hay que tener en cuenta que “si bien es cierto que
ahorra en costes de personal, tiene el grave inconveniente de que muchas personas se
niegan a responder preguntas realizadas mediante una voz electrónica” (Trespalacios
Gutiérrez, 2005: 101).
37
Anexo: textos para lectura
Texto 1: Matemáticas y periodismo

Matemáticas Para Periodistas: Una herramienta en la lucha
anticorrupción
Sandra Crucianelli, septiembre de 2002 (nota extraída de Internet)
De todos los males que enfrenta el periodismo latinoamericano hoy, el más

grave es su superficialidad. Gino Lofredo publicaba hace unos años en la revista
Chasqui, que los medios en nuestra región del continente parecen ir de mala gana
detrás de las noticias, como si ignoraran el trascendente rol que les compete en el
fortalecimiento de las democracias.
Falta de acceso a la información, carencia de recursos humanos y técnicos, presión

de la competencia, falta de capacitación profesional y poca transparencia en el
manejo de la sala de redacción (¿porqué no decirlo?, también hay corrupción
dentro de los medios y entre periodistas), suelen ser las causales más frecuentes
por las que asuntos muy trascendentales para nuestras sociedades pasen delante
de nuestros ojos sin que las veamos o las queramos ver.
Pero de una u otra manera, hay convencimiento que la ignorancia periodística es el

peor de los males. Piero Orstellini no se equivocó cuando en su diario italiano, al
fundarlo, escribió que la libertad de un periodista se mide por su sabiduría.
Si un reportero descubre una verdad digna de ser divulgada, no hay censura

interna ni externa que podrá con el poder de su información. En su medio o en
otro, en su ciudad o en otra, en su país o fuera de él, en un tiempo u en otro, tal
noticia terminará divulgándose porque ese es su destino.
Sabemos que en nuestros países el principal flagelo que soportamos es el de la

corrupción y que cierto periodismo está haciendo esfuerzos enormes para poner
luz, allí donde hay sombras.
Pero también nos consta a muchos, que decenas de papeles, documentos e

información de toda índole suele pasar frente a los ojos de los periodistas sin que
nos percatemos qué se esconde detrás de lo que tenemos entre las manos. Falta
análisis, precisión e interpretación. Los corruptos, encantados con el escenario...
Siga la fiesta. Pobres tontos... pensarán y hasta más de una vez se habrán reído de
nosotros a plena carcajada.
Con la información que contiene números ocurre algo muy especial. Pocos
reporteros están entrenados para su manejo. Yo misma estoy revisando las
crónicas que escribía hace diez años y me pregunto cómo pasé por alto la
interpretación de ciertos datos que tenía frente a mis ojos. La respuesta es muy
sencilla: no sabía cómo hacerlo.
Hace dos años comencé a trabajar en mi proyecto más ambicioso. Después de

haber gastado las suelas viajando por América Latina para impartir cursos de
periodismo de investigación, llegué a la conclusión de que necesitábamos otras
herramientas y entonces volví a la carga con los libros y me puse a estudiar
matemáticas.
38
Mis colegas me miraban de reojo... ¿matemática para periodistas?, preguntaban
como mofándose de mis intenciones.
No confié sino en mis instintos e ignoré todas las críticas... En mi opinión, como
reporteros, no estamos entrenados para manejar números y hoy día de ellos
dependen nuestras economías, nuestras políticas y por ende, nuestras vidas... Los
números están presentes en los presupuestos, en las leyes, en las bases de datos,
en los censos, en las estadísticas, en los sondeos de opinión, en las encuestas... Si
tomáramos un diario cualquiera y comenzamos a contar cuántas crónicas incluyen
algún número como dato notaríamos que son la mayoría.
Volví a la biblioteca de la universidad en la que había estudiado y comencé a buscar

libros, busqué en otras, en la Internet y en cuanta librería pude. Para mi desgracia
que no existe ningún libro escrito sobre el tema, todos estaban referidos a las
matemáticas aplicadas a las ciencias sociales en su conjunto. Y lo poco que se
había desarrollado en la materia estaba en inglés. De ese mal comienzo nació la
que hoy considero una suerte: estar escribiendo un libro de “Matemática para
Periodistas”, del que espero, alguna editorial se apiade y considere interesante su
publicación y distribución entre reporteros y salas de redacción. No pierdo la
esperanza de que ocurra lo mismo en las facultades de periodismo.
Al término de un año terminé de escribir los contenidos del curso preliminar que por
estos días, ando dictando por varios países de América latina: ya lo hice en
Panamá, Méjico, El Salvador y Honduras y he quedado maravillada con la respuesta
que obtengo de mis colegas. Muchos se sorprenden de la cantidad de conclusiones
periodísticas a las que podemos llegar después de hacer cálculos con unos pocos
datos numéricos.
El objetivo principal de los cursos y del libro es entregar al periodista las

herramientas necesarias para manejar e interpretar datos numéricos y
conceptos estadísticos.
Las escuelas de periodismo latinoamericanas no imparten esta enseñanza y esto se

refleja claramente en el desempeño de los periodistas profesionales.
La consecuencia de ello es que las notas periodísticas contienen errores en la

interpretación de estadísticas, gráficos y planillas de cálculo. Asimismo, el análisis
de notas que han sido publicadas o difundidas por los medios muestran las mismas
falencias.
Dentro del curso, y con mayor profundidad en el libro, se dan las definiciones de
porcentajes, promedios, índices, proporciones, media aritmética, moda, las
diferencias entre “tantas veces como”, “tantas veces mayor” o “tantas veces
menor”, dando ejemplos de las distintas vías que hay para llegar a un mismo
resultado Se aborda el tema de las variaciones porcentuales y se dan ejemplos de
errores más frecuentes, casos compilados y de otros en los que los datos fueron
aprovechados con conocimiento.
Una sección está destinada a la “Introducción a la Estadística”. Que presenta una

descripción detallada de conceptos estadísticos como la teoría de probabilidad,
desviación estándar, muestras científicas, y la aplicación práctica de cómo calcular
el error de una muestra, desviaciones y promedios estadísticos que se utilizan
diariamente en el tratamiento de una noticia, adelantando qué aplicación estos
conceptos pueden tener en la elaboración de un reportaje.
Por ejemplo, en épocas de elecciones suelen circular por las salas de
39
redacción sondeos electorales que pagan los partidos políticos con las
intenciones que imaginamos y cuyas técnicas están plagadas de errores,
en un claro ejemplo de manipulación de la información. Pues entonces el
reportero tiene que estar preparado para detectar esos errores.
El periodismo político, el que cubre las áreas de gobierno, el económico, el

científico, el social, el deportivo no escapan a la necesidad de manejar con pericia
los números dentro de la crónica.
En los Estados Unidos, el uso de las matemáticas y estadísticas en

periodismo fue introducido como “Periodismo de Precisión” hace más de 25
años cuando Phillip Meyer publicó su primer libro, Precision Journalism (1973)
seguido por un segundo volumen, The New Precision Journalism (1991). La misma
corriente siguió José Luis Dader en España, bajo el mismo nombre. En
América Latina, la enseñanza de estos conceptos de manera integral es
una deuda pendiente.
“Si queremos obtener resultados nunca antes logrados, debemos emplear métodos
nunca antes utilizados”. Bacon
Texto 2: Estadísticas y periodismo de precisión

Novedades del periodismo de precisión.
El uso periodístico de estadísticas sociales (*).
Philip Meyer
Pese a los defensores del periodismo eterno, los periodistas necesitan nuevas
herramientas para describir un mundo complejo: el uso de las bases de datos, las
hipótesis a verificar, la aplicación de la metodología científica. Una creencia
tradicional en la subcultura del periodismo estadounidense es que un buen
periodista es bueno en todas partes y que no se requiere ninguna preparación o
conocimiento especial.
Esta antiquísima concepción fue recientemente expresada con especial perspicacia

por Michael Lewis, de The New Republic, cuando argumentó que "toda la
pretenciosa ciencia del periodismo se limita a distraernos de la tarea del periodista:
observa-, cuestionar, leer y escribir sobre temas que no son el propio periodismo".
La diatriba de Lewis iba dirigida contra la enseñanza del periodismo en general y

contra una Escuela de periodismo en particular (la de Columbia). Su denuncia
incluía una acusación empíricamente comprobable: que a los directores de los
medios informativos no les gusta contratar a titulados en periodismo y que las
empresas periodísticas mantienen "un sólido menosprecio hacia la titulación". ¿Su
verificación empírica? Una muestra de conveniencia de siete conocidos suyos, en su
mayor parte de Nueva York y Washington. Si Lewis hubiese tenido una preparación
sobre el uso de las estadísticas sociales, podría haber descubierto que un 85 por
ciento de las nuevas contrataciones en periódicos de EEUU son titulados de las
escuelas de periodismo. La observación y el sentido común son importantes para
los periodistas. Pero el mundo moderno también exige conocimientos técnicos.
El amplio conjunto de conocimientos implícitos en el concepto del periodismo de

precisión está trasladándose lentamente, aunque de manera irregular, de las
Universidades a la profesión. Su demanda es una consecuencia de la abundancia de
40
información de la era moderna. Se debe abordar de manera distinta a la de las
épocas en que la información era una mercancía escasa.
El periodista, según la antigua tradición, es un transportador, no un procesador de

información. De acuerdo con esta visión tradicional, traslada datos desde la fuente
de información al consumidor, alterándolos sólo en la medida mínima necesaria
para que sean transportables.
Ahora, cuando nos aproximamos al final del siglo, la utilidad de dicho modelo
comienza a menguar.
El aumento explosivo de la información plantea al periodismo nuevas demandas

que van mucho más allá de la función de transporte. El cambio es tan profundo
como el desplazamiento, en la economía de la alimentación, de la caza y la
recolección a la agricultura.
Las sociedades cazadoras y recolectoras vivían en una economía de la escasez, y el

problema era simplemente transportar las fuentes vegetales y animales desde sus
hábitats hasta las hogueras de sus campamentos.
La introducción de la agricultura creó una economía de la abundancia que daba por

sentado el transporte y creaba una demanda de procesamiento. La diversidad
económica depende ahora, en su mayor parte, de los procesadores de alimentos,
más que de los productores o transportadores.
En la actualidad, las escuelas de agricultura enseñan manufacturación y agronomía.

Algo similar ocurre con el periodismo. La abundancia de información crea una
demanda de síntesis y procesamiento. Esta abundancia ha dado al traste con la
naturaleza reguladora de las fuentes. Cuando USA Today informó sobre los modelos
de segregación racial en Estados Unidos, se basaba en datos de la Oficina del
Censo. Pero los datos no podían encontrarse en ningún informe previamente
sintetizado.
La Oficina del Censo publica ese tipo de informes, pero la demanda de sus datos es
tan enorme que los publica en bruto, mucho antes de tener la oportunidad de
realizar su propio análisis e interpretación. La fuente documental pública del citado
artículo era una cinta informática de nueve pistas, y la responsabilidad del
periodista consistía en aportar el marco teórico y los conocimientos analíticos e
informáticos necesarios para elaborar un artículo informativo sobre esa base.
En lo relativo al contexto teórico, el jefe de sección de proyectos especiales, Shawn

McIntosh, realizó en primer lugar una búsqueda de documentación, consultó con
especialistas universitarios y creó una original contribución metodológica en forma
de un índice que resume la intensidad de la discriminación en una determinada
zona geográfica para cinco grupos raciales diferentes.
REDEFINIR LA OBJETIVIDAD
La intensidad del procesamiento, antaño una excepción, se está convirtiendo

rápidamente en norma. Se desarrolla en dos fases del proceso de recogida de
noticias. Los proyectos analíticos mediante procesamiento informático front-end
analytic projects, en una escala similar al estudio de la discriminación racial de
Mclntosh, son más habituales a medida que los periodistas se van familiarizando
cada vez más con los ordenadores y con el análisis cuantitativo. En cuanto al
tratamiento final de la información, los periódicos de diseño más visual, como el
USA Today y el Boca Raton News, dan prioridad al procesamiento sobre el
41
transporte de información también en otra variante, al tratar de sacar el máximo
provecho del potencial del texto impreso como dispositivo de recuperación de la
información.
El diseño de un sistema de ayudas a la consulta por parte de los lectores reader

navigation aids, y la integración de la información diaria en una red de referencias y
seriales de aviso, proporcionan una nueva intensidad cualitativa a la tarea del
director del medio informativo.
La intensidad del procesarniento de la información no tiene por qué amenazar el

ideal periodístico tradicional de la objetividad, pero sí requiere una definición más
cuidadosa de dicho ideal. Cuando el modelo periodístico ponía el énfasis en la
transmisión, el ideal de la objetividad requería una actitud neutral de no
interferencia, que reducía al mínimo la intensidad del tratamiento de la información.
La quiebra de ese modelo se pudo advertir claramente a comienzos de los anos 50,
cuando los medios de comunicación norteamericanos lo aplicaron a la información
sobre las acusaciones de comunismo en el Gobiemo de EEUU, efectuadas por el
senador Joseph McCarthy.
Los medios no se preocuparon de verificar dichas acusaciones, porque su trabajo

consistía simplemente en transportar las declaraciones sin valoraciones del
senador. Sólo cuando el tema fue abordado por periodistas dispuestos a probar
nuevos métodos, salió a relucir la falta de integridad y la irresponsabilidad del
senador. Probablemente no es casualidad que el ejemplo más recordado provenga
de una tecnología entonces nueva, la televisión, cuando Edward R. Murrow utilizó
una selección de fragmentos filmados para elaborar un retrato más crítico del
senador y de sus métodos.
La televisión, cuando no informa en tiempo real (por ejemplo, el canal de

retransmisiones directas del Congreso C-Span, acontecimientos deportivos, la
guerra del Golfo) es un medio de procesamiento intenso de la información. Algunos
periodistas tradicionales argumentan que la complejidad de los acontecimientos
informativos de la era moderna y los métodos para cubrirlos hacen que la
objetividad resulte imposible, y que, por lo tanto, habría que abandonar su
búsqueda.
Pero la inasequibilidad de un objetivo no lo hace menos deseable, y el

acercarniento a lo inalcanzable puede ser meritorio por sí mismo. Lo que el
periodismo basado en el procesamiento de información necesita es un criterio de
objetividad mas elaborado, un criterio que evite la norma de no interferencia y
permita la intervención de personal directivo y articulistas, de una forma capaz de
lograr que todo el proceso adquiera una mayor disciplina.
LA CIENCIA EN EL PERIODISMO
Un modelo útil para la nueva objetividad requerida puede lograrse con la

adaptación, del método científico a la práctica periodística. Dicha adaptación es la
razón de ser del periodismo de precisión.
La ciencia es idealmente objetiva y también va mucho más allá del mero transporte
de información. Las normas que su cultura ha desarrollado para descubrir y sacar a
relucir la verdad pueden prestar un buen servicio a las nuevas demandas del
periodismo. Se me ocurren tres en particular:
1. Investigación con una base teórica. El informador que escribe a partir de un

documento público se beneficia del trabajo teórico ya realizado por el autor de
42
dicho documento, que tenía en su cabeza una finalidad, una historia y contexto. El
informador que empieza a trabajar con una cinta de nueve pistas no cuenta con esa
ventaja inicial. Se requiere algún tipo de estructura teórica para analizar los datos
de la cinta, para contar con un medio de selección entre la variedad casi infinita de
formas posibles de estudiarla.
Algunas aplicaciones periodísticas de las bases de datos son evidentes, como por
ejemplo los cruces de listados realizados por Elliot Jaspin entre los nombres de
conductores detenidos por embriaguez y de conductores de autobuses escolares.
Pero en su mayor parte requieren una estructura teórica más complicada. "Dime
algo interesante" no es una pregunta apropiada para ser planteada a un ordenador.
2. Comprobación de hipótesis. La ética de la objetividad crea en muchos periodistas

una objeción visceral a iniciar una investigación con una hipótesis preconcebida. La
mente periodística debe estar abierta a todas las posibilidades. Pero también debe
estarlo la mente científica, y los científicos han llegado a la conclusión de que la
disciplina consistente en elaborar una hipótesis susceptible de refutación que,
posteriormente, es sometida a prueba; es, de hecho, una manera de preservar la
objetividad.
Al efectuarse la prueba, la hipótesis se mantiene en pie o se viene abajo sobre la

base de un criterio objetivo. Por ejemplo, la demostración de la existencia de
prejuicios raciales en la concesión de préstamos hipotecarios, realizada por el
Atlanta Journal-Constitution y premiada con el Pulitzer, se basaba en el empleo de
un sistema de comprobación objetiva. El número de préstamos concedidos era
mucho menor entre los propietarios negros que lo solicitaron que entre los
propietarios blancos, incluso con variables constantes en cuanto a antecedentes
relativos a volumen de ingresos o solvencia económica.
3. Posibilidad de verificación. La cultura del periodismo favorece un cierto nivel de

secretismo. Los informadores no divulgan sus fuentes y les molesta que sus notas
sean vistas por terceros.
Pero esas tradiciones deben dejarse a un lado en el contexto de un procesamiento

intenso de la información. Una forma de proporcionar disciplina a las
investigaciones periodísticas consiste en estructurarlas de tal forma que cualquier
otro investigador pueda seguir por el mismo camino del investigador anterior,
plantear las mismas preguntas y obtener las mismas respuestas.
Las investigaciones basadas en sondeos, análisis de bases de datos y otros

métodos de las ciencias sociales se rigen por la necesidad de dejar un rastro
documental verificable, y su metodología debe ser tan abierta y accesible que sus
descubrimientos puedan ser nuevamente revisados en todos sus pasos. La
posibilidad de verificación es la garantía última de fiabilidad.
Los periodistas estadounidenses van aceptando poco a poco el uso de las

herramientas científicas. Los sondeos de opinión pública fueron la cuña inicial. Los
sondeos sobre sectores específicos de población facilitaron la comprensión de la
información sobre los movimientos de protesta de los años 60 y 70 (negros,
pacifistas, ecologistas, feministas) y los medios informativos comenzaron a realizar
sus propios estudios en lugar de confiarlos a servicios externos.
En los seminarios profesionales de la Escuela de Periodismo de Medill, en la

Northwestern University, en los años 1974 y 1975, se enseñó y planteó por primera
vez a periodistas de medios tan importantes como el Washington Post y el New
York Times el concepto de sondeos de fabricación propia (do it yourself pulling). Los
43
sondeos electorales, antaño casi un monopolio de Lewis Harris y George Gallup, se
diversificaron ante la competencia de los consorcios entre grandes medios de
prensa y radiotelevisión, entre los que cabe mencionar: New York Times/CBS,
Washington Pos/ABC y USA Today/CNN/Gallup. Esta nueva situación introdujo en
las redacciones conceptos como muestreo probabilista, significación estadística y
controles estadísticos.
NUEVOS CONOCIMIENTOS NECESARIOS
Otro cambio importante, básicamente independiente de la nueva práctica de los

sondeos, fue el uso de los ordenadores para realizar investigaciones en bases de
datos de la Administración. La rápida bajada de los precios de los ordenadores
personales, iniciada en 1981, llevó a algunos periodistas jóvenes a experimentar
con sus aplicaciones en su propio tiempo libre y con su propio dinero.
Steve Doig, del Miami Herald, compró su primer ordenador, un Atari 800, en 1981.
Poco después empezó a utilizar el Visi-Calc, el precursor de todas las hojas de
cálculo actuales, en uno de los primeros ordenadores de IBM. Elliot Jaspin, del
Providence Bulletin, aprendió a utilizar el ordenador central de su periódico para
investigar en los archivos públicos y finalmente optó por los ordenadores
personales, convencido de que los periodistas deben ser totalmente independientes
de las operaciones comerciales de su empresa y de sus expertos. Más tarde dirigió
el desarrollo del soporte lógico de lectura en ordenadores personales de las cintas
de nueve pistas, típicas de los ordenadores centralizados, lo cual hacía posible
dicha independencia.
En su mayor parte, las personas que utilizan dichos programas de acceso a cintas
magnéticas y los realizadores de encuestas han actuado por separado, como si no
fuesen conscientes de utilizar aspectos diferentes del cuerpo común de
conocimientos que define el método científico
Cada experiencia de aprendizaje tenía un carácter pragmático, con el objetivo de

resolver un problema inmediato, específico y limitado. Algunas de las personas que
querían acceder a los códigos de las cintas magnéticas se tomaron la molestia de
aprender el razonamiento científico. Otras se contentaron con entrar en áreas
donde el sentido común es suficiente.
No obstante, sin una cierta preparación en relación con la estadística y el método

científico, no siempre es posible saber cuándo se han agotado las posibilidades del
sentido común. Un reciente estudio sobre fallos en la inspección de emisiones
contaminantes de los automóviles, realizado por el Raleigh News & Observer,
mostraba que el automóvil con mayor índice de fallo era el Yugo, y que el que
ofrecía un índice más bajo era el Jaguar.
El articulista no había tenido en cuenta que tanto los Yugo como los Jaguar son
muy escasos en Carolina del Norte, y que las muestras pequeñas suelen presentar
mayores grados de varianza (desviación).
Por otra parte, dado que el Yugo se dejó de importar a EEUU en el período de
realización del estudio, la media correspondiente a los Jaguar sería ligeramente
más reciente que la de los Yugo.
En otro caso, un informador del St. Louis Dispatch utilizó una investigación a través
de bases de datos para identificar a 15 abogados que mantenían una situación de
conflicto de intereses en relación con la indemnización debida a un trabajador.
Dichos abogados representaban al mismo tiempo al Estado y a los trabajadores con
44
demandas pendientes con el Estado, y conseguían pagos mucho más cuantiosos
que los de los casos ganados por abogados que no tenían esa doble función. El
informador, con muy buen criterio, quiso saber con qué frecuencia se producía
dicha diferencia por azar.
Sin estar familiarizado con las pruebas de significación, programó su ordenador

para realizar instrucciones secuenciales repetidas a través de 10.000 muestras de
15 de cada 1.000 abogados en la base de datos, para comprobar cuántas
combinaciones de 15 obtenían sumas tan elevadas. El resultado fue del 6 por
1.000,o de 0,6 por 100, altamente significativo. La operación del ordenador duró 20
minutos.
El autor no especificaba cuánto tiempo se necesitó para escribir el programa. Pero
una prueba estadística denominada Test de la Thabria producido una respuesta
mejor, al comparar su muestra de 1.000 con un universo hipotético de todas las
muestras posibles de 1.000. Y lo habría hecho en 10 segundos con una línea de
código.
Al igual que los ciegos cuando reconocen un elefante mediante el tacto, los
periodistas que aplican bits y elementos del método científico a su trabajo necesitan
un concepto unificador. Knight-Ridder, la segunda gran empresa de prensa de
Estados Unidos, reconoció dicha necesidad al convocar recientemente a dos
docenas de sus informadores informáticos en Miami, para compartir sus
conocimientos y tratar de englobarlos en un marco común. Los escépticos pueden
considerar tales esfuerzos como una pretensión absurda.
Michael Lewis criticó el uso de la tecnología y de los conceptos científicos en las

escuelas de periodismo como "inventos de dignificar un comercio añadiéndole la
idea del profesionalismo y cubriéndolo con una capa de dudosa teoría". Pero el
mundo ha seguido avanzando y ese tipo de lamentaciones suenan cada vez más
atávicas.
Para describir un mundo complejo, los periodistas necesitan herramientas

complejas. El periodismo de precisión es el concepto organizador de la gestión y el
desarrollo de dichas herramientas, y las Universidades deben actuar con mayor
prontitud en el desarrollo y la enseñanza de dicho concepto.
Traducción: Antonio Fernández Lera Michael Lewis "J-Scool Confidential", The New
Republic, 19 de abril de 1991, páginas 20-27. Magaret L. Usdansky y otros,
"Segregation Walls Between us", USA Today, 11-13 de noviembre de 1992. George
Landau, Adventures in sampling: using brute force to compensate for your
ignorance about statistics, Uplink, Universiy of Missouri, marzo de 1993.
(*) extraído de la revista Telos-edición digital
45

Apunte Estadística (2016)

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Estadística (2016)

Cargado por

Copyright:

Formatos disponibles

UNIDAD I.

La estadística no sólo nos informa y orienta acerca de la realidad, sino que

La estadística aplicada a las ciencias sociales

Murat propone que matematizar es descubrir en las relaciones empíricamente

“Si en un ´sujeto´ se observa repetidamente un atributo conductual cualquiera, en

Es decir, en lugar de prever el valor o posición exacta de cada observación, es

A su vez, se pueden distinguir dentro de la estadística dos grandes ramas: por un

La estadística descriptiva sirve para reducir o resumir información,

A la estadística inferencial también se la suele llamar inductiva (Blalock, 1996:

Etapas del método estadístico

 Recopilación: captación de los datos estadísticos, que puede ser interna

 Tabulación: se plantean las relaciones entre categorías de la clasificación

 Presentación: tiene que ver con la exposición de los datos de manera

 Análisis: tiene que ver con el examen de la información obtenida para

 Interpretación: se vincula a una apreciación subjetiva de los resultados,

Interesa asimismo referirse a algunas de las principales fuentes de información

 Publicaciones: existe una variedad de ediciones de datos estadísticos de

Por su importancia, merecen destacarse los organismos estadísticos:

 Organismos estadísticos: los hay del orden nacional -como el Instituto

Es oportuno distinguir entre dos tipos de relevamientos que producen estadísticas

En este sentido, un censo es un relevamiento exhaustivo sobre todos y cada uno

Existen encuestas oficiales, como la Encuesta Permanente de Hogares (EPH) del

Datos, variables y escalas

Existen datos estadísticos de tipo cualitativo, que arrojan respuestas categóricas,

Asimismo, existen datos cuantitativos, que arrojan respuestas numéricas, y que a

Las mediciones se rigen por reglas y principios referidos a diversos niveles de

Una escala nominal o clasificatoria es el tipo más simple de medición, que

“El requerimiento fundamental para construir una escala nominal es que se

En ciencias sociales, hay muchas variables o propiedades que se definen

Una escala ordinal es aquella en la que las personas, propiedades u objetos

“La característica definitoria de una escala ordinal es lo que se denomina su

En estas escalas hay un orden: no sólo se distingue entre distintas categorías

Ejemplos de escalas ordenadas por rangos se encuentran en el orden militar,

Escalas de intervalo y de razones

Una escala intervalar agrega a la ordinal el hecho de conocer la distancia

En este nivel se amplían sustancialmente los estadísticos aplicables, que

Población. Cualquier colección de unidades que puedan ser de interés en un

Muestra. Cualquier subconjunto de la población que estudiamos. En el ejemplo

Unidad de observación. Un solo miembro de la población que estudiamos. En el

Medición: cualitativa y cuantitativa. Una medida es un número o denominación

Inferencia estadística. Una inferencia estadística es una conclusión obtenida

Parámetro. Número que describe algunas propiedades de la población. Son

Variabilidad muestra a muestra. En la investigación estadística suele ocurrir que

Es importante recalcar que, más que asegurarse de que los parámetros y

Este intervalo frecuentemente se omite en las notas periodísticas referidas a

La estadística descriptiva apunta a describir un conjunto de datos en forma resumida.

Los mismos datos pueden ser representados a través de un gráfico de barras

Una de las presentaciones es la llamada “serie simple”, donde el conjunto de

Otra presentación se llama distribución de frecuencias, en la que los datos son

Así, en las distribuciones de frecuencia, la variable analizada se simboliza con la

Se llama distribución normal a aquella en la que los datos se configuran en una

“Algunos ejemplos típicos de poblaciones cuyas medidas tienden a ser distribuidas

El concepto de distribución normal es importante también en términos de

La frecuencia absoluta de un valor cualquiera es el número de veces –casos, sujetos, etc-

En tanto, la frecuencia relativa será la proporción de veces que en la muestra o

Frecuencia absoluta simple: es la cantidad de veces que se repite cada valor de

Frecuencia relativa simple: es la proporción que en el total de las

A su vez, la frecuencia absoluta acumulada es la que surge de sumar las

Análogamente, la frecuencia relativa acumulada surge de sumar las frecuencias

Por ejemplo, supongamos que los siguientes datos representan al número de

Valores de la Frecuencia Frecuencia Frecuencia Frecuencia

Y permite hacer, entre otras interpretaciones, las siguientes:

-n3 = 6 significa que seis alumnos de un total de 25 asistieron a 3 clases en el

-N4 = 15 significa que 15 estudiantes de los 25 alumnos asistieron a 4 o menos clases en