Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PÚBLICA Y MERCADO
TITULAR Y ADJUNTA: DRA. MÓNICA PETRACCI
CUADERNO DE CÁTEDRA Nº 9
INTRODUCCIÓN A LA ESTADÍSTICA PARA
ESTUDIANTES DE CIENCIAS SOCIALES
QUE PENSARON NO VOLVERÍAN A VER
UNA CALCULADORA
MARTÍN ROMEO
MÓNICA PETRACCI
- 2008 -
Técnicas de Investigación en Opinión Pública y Mercado
PALABRAS INICIALES
Mónica Petracci
Titular de Cátedra
2
Técnicas de Investigación en Opinión Pública y Mercado
3
Técnicas de Investigación en Opinión Pública y Mercado
1. ESTADÍSTICA DESCRIPTIVA
El cuadro Nº1 muestra una matriz de datos con los resultados de los parciales de diez
alumnos de dos comisiones diferentes en la cátedra que fueron seleccionados de manera
probabilística.
Con esta tabla de datos, el analista comenzará su trabajo. Las medidas más utilizadas de
las estadística descriptiva son la moda, la mediana, la media, la desviación estándar,
el valor mínimo, el valor máximo y el rango.
La moda indica el valor que se observa con mayor repetición hacia el interior de una
distribución. La distribución será bimodal o trimodal en los casos en los que sean dos o
tres, respectivamente, los datos que tengan una misma frecuencia máxima absoluta. Por
el contrario, si sucediera que todas las categorías tienen la misma frecuencia diremos que
no existe moda en la distribución. En la comisión Nº1 la moda se ubica en el valor 4
mientras que en la comisión Nº2 se ubica en el valor 6.
4
Técnicas de Investigación en Opinión Pública y Mercado
En el caso de que el tamaño muestral sea impar, la mediana será la observación central
de los valores. Si por el contrario, el tamaño muestral es par, la mediana será el promedio
aritmético de las observaciones centrales. Tal es el caso de nuestra matriz de datos que
informan que la mediana de la comisión Nº1 = 4,5 (resultado de dividir la suma de 4 + 5
dividido 2) mientras que la de la comisión Nº2 = 6.
Obsérvese que la matriz de datos está ordenada de manera ascendente en relación con
el resultado de los parciales de la comisión Nº1. La mediana de la comisión Nº2 se
observará más claramente si ordenáramos los datos de esta comisión ascendentemente.
Ahora bien, la mediana puede calcularse de esta manera en función de que estamos
trabajando con datos No agrupados, es decir, con una tabla que analiza las
observaciones de manera individual sin considerar las repeticiones de los valores.
En el caso de que trabajemos con datos agrupados que contemplan las repeticiones de
los valores la ubicación de la mediana puede variar.
En este sentido, si la división por dos del tamaño muestral (n/2) coincide con el valor de
una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa
correspondiente. Si por el contrario, no coincide con el valor de ninguna abscisa, la
mediana se calculará a través de semejanza de triángulos en el histograma o polígono de
frecuencias acumuladas cuya fórmula es la siguiente pero su explicación dejaremos para
otra ocasión.
Ahora calcularemos la media aritmética de cada una de las comisiones. La media es una
medida estadística descriptiva que conocemos comúnmente como el promedio de algo.
5
Técnicas de Investigación en Opinión Pública y Mercado
A partir de ahora, las medidas que utilicemos tendrán una mayúscula cuando refieran a la
población total y una letra minúscula cuando refieran a la muestra.
Dados los n números a1,a 2, ... , an, la media aritmética se como el resultado de la suma
de las observaciones divido por la cantidad de casos totales. Se expresa de la siguiente
forma:+
A partir de esta fórmula, calcularemos la media aritmética del parcial de la comisión Nº1
que será igual a:
A partir del mismo procedimiento, podremos calcular que la media aritmética del parcial
correspondiente a la comisión Nº2 es de:
Para ello será necesario calcular la desviación estándar1 que hace referencia a la forma
que asume una distribución dada. En la medida en que el desvío se acerca a cero (0), la
distribución es cada vez más homogénea y en la medida que se aleja de dicho valor se
hace, por el contrario, más heterogénea.
El siguiente gráfico muestra cómo puede variar una distribución en cuanto a la dispersión
de los valores. Tomaremos como ejemplo el promedio obtenido en la comisión Nº1 igual a
5,30.
1
Puede encontrarse también como desviación típica, desvío estándar o desvío típico.
2
Introducida en 1894 por el científico inglés Karl Pearson.
6
Técnicas de Investigación en Opinión Pública y Mercado
10 10 10 10 10 10
VALOR DE NOTA
6
5,4 5,2 5,4 5,2 5,4 5,2 5,4 5,2 5,4 5,2
4
Como se observa, las distribuciones son diametralmente opuestas aún cuando comparten
la misma media aritmética (5,30).
La distribución de mínima supone el alejamiento de tan sólo una décima con relación al
promedio ya sea por exceso como por defecto.
7
Técnicas de Investigación en Opinión Pública y Mercado
Obsérvese que como consecuencia de trabajar con los datos no agrupados, la sumatoria
de debe ser igual a cero. Esta es una buena medida de control en los casos
en que se hacen los cálculos manualmente. Dicha sumatoria es igual a cero porque todo
lo que algunos valores se alejan por exceso de la media están compensados por otros
que se alejan pero por defecto.
La siguiente tabla resume los datos obtenidos hasta ahora con relación a las notas de los
parciales de dos comisiones comparadas.
8
Técnicas de Investigación en Opinión Pública y Mercado
Los datos muestran que la comisión Nº2 ha obtenido un promedio de notas mayor que la
comisión Nº1 combinado con un desvío menor.
Ahora bien, ¿son suficientes estos datos para asegurar que la comisión Nº2 ha tenido un
mejor rendimiento que la Nº1?
ESTADÍSTICA INFERENCIAL
Estos datos no son suficientes por cuanto para realizar dicha afirmación necesitamos
hacer un cálculo de diferencias de medias en función de su ubicación en un intervalo de
confianza.
El primero de esto refiere a una estimación media puntual a partir de los observados en
una muestra dada. En nuestro ejemplo, podría ser la calificación de la comisión Nº1 en las
notas del parcial =6,40.
En este caso puntual, el límite inferior será 3,79 mientras que el superior será 6,81.
En este punto es necesario pedirle al lector, paciencia y confianza (en término de fe) de
que dichos valores son correctos. Aunque luego veremos cómo calcularlos, ahora
necesitamos usar dichos valores para anclar las definiciones que se van utilizando.
De esta manera, los resultados de nuestra muestra indican que existe un 95% de
probabilidad de que la nota de la población de estudiantes de la comisión Nº1 (obsérvese
que hablamos de todos los estudiantes y ya no de la muestra extraída) sea un número
comprendido entre 3,79 y 6,81 puntos.
9
Técnicas de Investigación en Opinión Pública y Mercado
Como se habrá observado, el pronóstico tiene un 95% de confianza que es “mucho” pero
no es lo que sería matemáticamente un certeza del 100%.
En este punto, se abre una conclusión muy interesante con relación a los pronósticos que
habitualmente realizan los estadísticos.
Sucede que si censáramos las calificaciones de todos los estudiantes de la comisión Nº1
y observáramos que efectivamente el promedio de notas es un valor ubicado entre los
límites inferior y superior pronosticados; podremos decir que el pronóstico ha sido
acertado. Ahora bien, si de dicho censo resultara que la calificación promedio de dicha
comisión es de 2,40 (por ejemplo) que es un valor no comprendido entre dichos límites, el
pronóstico también habrá acertado.
Cómo puede suceder tal cosa. Sucede que el pronóstico advertía sobre una probabilidad
de un 95% de que dicho evento sucediera pero que también existía un 5% restante de
que dicho pronóstico no sucediera.
Este artilugio estadístico puede resultar muy divertido para explicar matemáticamente lo
sucedido pero a los ojos de un cliente puede resultar un intento por explicar lo inexplicable
y el analista seguramente deba revisar los clasificados en búsqueda de trabajo aún
cuando esté justificado técnicamente.
En este punto es necesario hacer algunas aclaraciones al mismo tiempo que empezar a
dilucidar cómo se han calculado tales o cuáles valores.
El lector se preguntará de dónde sale tal 95% de probabilidad mencionado o por qué no
pronosticar con una mayor probabilidad más cercana al 100%.
Por el teorema central del límite, la mayoría de las veces es posible asumir para los
estadísticos una ley normal de distribución. El 95% de probabilidad supone una
distribución normal con una media = 0 y una desviación estándar = 1 que dan como
resultado un valor percentil de 1,96. Por si no ha quedado claro, esto permite afirmar que
el intervalo calculado a partir de la estimación puntual de la muestra contiene al verdadero
valor del parámetro poblacional en 95 de cada 100 observaciones.
El teorema central del límite supone que, en líneas generales, la distribución de la suma
de variables aleatorias tiende a ser una distribución normal3 cuando la cantidad de dichas
variables es alta. En este sentido cuanto más grande sea el valor de “n” mayor será la
aproximación.
10
Técnicas de Investigación en Opinión Pública y Mercado
La línea verde corresponde a la distribución normal estándar con media = 0 y desvío estándar = 1
Como ya se ha dicho, el teorema del límite central garantiza una distribución normal
cuando “n” es lo suficientemente grande y la aproximación entre las dos distribuciones es,
en líneas generales, mayor en el centro de las mismas que en sus extremos o colas.
El siguiente ejemplo puede ser algo clarificador entre tanta bruma matemática. Suponga
Ud. que se dispone a comparar cuántas veces sale cara y ceca al arrojar una moneda.
La teoría de las probabilidades dirá que tanto cara como ceca saldrán la mitad de las
veces por cuanto la probabilidad de ambas es = 0,50.
Sin embargo, si el número de lanzamientos es pequeño Ud. podrá poner en duda esta
máxima de la teoría y con un justificativo empírico a partir de observar que alguna de las
caras (sea cara o sea ceca) ha salido más veces que la otra.
Ahora bien, a medida que el número de lanzamientos aumenta, Ud. podrá verificar que la
distancia entre la cantidad de veces que han salido cara y ceca disminuye hasta tender a
cero cuando el número de lanzamientos ronde el infinito.
Habida cuenta del origen del tan mentado 95% de probabilidad resta responder por qué
no pronosticar con una mayor probabilidad que se acerque aún más al 100%.
En primer lugar, diremos que no es posible hacerlo al 100% partiendo de una muestra.
Sólo se puede alcanzar dicho valor a partir de censos que incluyan la totalidad de la
población.
11
Técnicas de Investigación en Opinión Pública y Mercado
como el margen de error muestral. En este sentido el pronóstico será más probable (casi
una certeza) pero será más impreciso.
Un meteorólogo nos dice que hay un 95% de probabilidades de lluvia entre las 15 hs y las
16 hs.
Si le pidiéramos que aumente su probabilidad de acertar el pronóstico, nos dirá que hay
un 99% de probabilidades de lluvia entre las 13 hs y las 18 hs.
El error de muestreo que, como se verá más adelante, interviene en nuestros cálculos
hace referencia a la incertidumbre con relación a la exactitud del proceso de muestreo. El
error de muestreo refiere a la imprecisión en que se incurre al momento de estimar una
característica de la población estudiada (el parámetro) tomando como base los valores
obtenidos a partir de una muestra o recorte de dicha población.
Este error está afectado por múltiples factores entre los que se cuentan el tamaño de la
muestra, la naturaleza de la característica a estimar, las incidencias producidas en el
proceso de recolección de la información, el tipo de procedimiento de selección y
extracción de los elementos muestrales (el procedimiento de muestreo) así como el ajuste
paramétrico (comúnmente conocido como ponderación) al que se someten las muestras
una vez realizada la recolección de los datos. Cualquier alteración en el desarrollo de una
encuesta implicará variaciones en el cálculo de ponderadores que repercutirán sobre el
error muestral.
12
Técnicas de Investigación en Opinión Pública y Mercado
Al respecto, considérese que la reducción del margen de error nunca se da en una forma
proporcional al aumento del tamaño muestral. Por ejemplo, mientras una muestra de 400
elementos tendrá un margen de error de +/- 4,9%, una muestra de 800 elementos (el
doble) tendrá uno de +/-3,5%4.
Como se observa la duplicación del tamaño de la muestra y por ende del costo del trabajo
de campo, no reduce a la mitad el margen de error. Para reducir a la mitad el margen de
error de la muestra serán necesarios 1.600 elementos.
De esta forma, el límite inferior del intervalo será el resultado de la media menos el valor
de la constante “k”; y el límite superior, el resultado de la media más el valor de la
4
Ambos casos suponen extracciones muestrales de poblaciones infinitas con un nivel de confianza del 95% (1,96 sigmas) cuando P y
Q = 50%, es decir, en la máxima heterogeneidad.
13
Técnicas de Investigación en Opinión Pública y Mercado
constante “k”. Considérese que este “k” nada tiene que ver con Kirchner ni el
kirchnerismo.
El valor de “k” es el resultado de multiplicar el error muestral por el valor percentil que en
la curva de distribución normal supone trabajar con un nivel de confianza asociada.
Supongamos que hemos decidido trabajar con un 95% de confianza asociada al
pronóstico de la media poblacional y se calculará de la siguiente manera:
En este punto, es importante señalar que las fórmulas y cálculos hasta aquí desarrollados
en relación con los intervalos de confianza suponen estimaciones y pronósticos para
medias poblacionales cuyos tamaños sean iguales o superiores a 30 elementos (cuya
notación estadística sería la siguiente para µ cuando n >= 30)
Así las cosas, calcularemos los límites del intervalo de confianza de la media población
correspondientes al parcial de la comisión Nº1.
La lectura de estos datos indica que existe un 95% de probabilidad de que la media
poblacional de los parciales de la comisión Nº1 sea un valor comprendido entre 3,79 y
6,81 puntos. Al respecto, considérese que estadísticamente se considera equiprobable
cualquier valor comprendido en dicho intervalo y en nada afecta al pronóstico el hecho de
que el valor real se acerque más a alguno de los límites del intervalo.
En este sentido, si censáramos los parciales de esta comisión y releváramos que la media
poblacional es de 6,81; el pronóstico habrá sido acertado tanto como si encontráramos
que dicha media poblacional es de 3,79 aún cuando en ambos casos estén posados
sobre uno de los límites del intervalo. El pronóstico sólo habrá sido errado si
encontráramos que la media poblacional es un valor inferior a 3,79 o superior a 6,81; en
cuyo caso, estadísticamente, habrá sucedido el 5% restante de la probabilidad no
asegurada.
Las expresiones tales como error calculado para dos sigmas, error calculado para p=0,95
o error calculado al 95% deben ser consideradas como sinónimo.
Como advirtiéramos, la expresión del error calculado para dos sigmas es el sinónimo de
trabajar con estimaciones que tienen un 95% de probabilidad en el pronóstico. En rigor, el
término “dos sigmas” es producto del redondeo del valor percentil 1,96 de la curva normal
que ya hemos analizado.
14
Técnicas de Investigación en Opinión Pública y Mercado
Dicho término hace referencia a la cantidad de sigmas en la curva normal que suponen
trabajar con determinado nivel de confianza en el pronóstico.
Ahora bien, “una ambiciosa meta sería trabajar con un nivel de confianza en el pronóstico
de 99,9%” pero veamos cuáles podrían ser los efectos de trabajar con tal nivel de
confianza según datos de EE.UU:
• Las guarderías de los hospitales entregarían 12 bebes por día a padres que no
corresponden.
• Algún banco descontaría 22.000 cheques por hora de cuentas equivocadas
• Se fabricarían 268,500 neumáticos defectuosos
• Se emitirían 20,000 recetas medicinales incorrectas.
“Seis sigma” reconoce que hay lugar para los defectos como consecuencia natural de los
procesos y plantea como nivel de funcionamiento correcto el 99,99966%. Dicho nivel de
confianza estipula una meta objetivo donde los defectos en muchos procesos y productos
son prácticamente inexistentes.
Ahora bien, volvamos a nuestro objetivo que era comparar los resultados de los parciales
de dos comisiones.
Con estos valores graficaremos los resultados de los intervalos de ambas comisiones.
5
Leo F. Jeri: “Seis Sigma; una metodología estadística para la calidad total”, presentación ppt.
15
Técnicas de Investigación en Opinión Pública y Mercado
Como se observa, los intervalos de confianza de ambas comisiones, muestra una zona de
superposición o intersección que nos impide asegurar que el rendimiento comparado de
los parciales de las comisiones ha sido diferente. La estadística supone en dentro de los
límites de los intervalos, los sucesos son equiprobables y no hay mayor preponderancia
de valores que tiendan más a uno de sus límites en detrimento del otro.
Vistos estos resultados y la imposibilidad de asegurar que las calificaciones de una de las
comisiones son distintas (y mejores) que la de su comparada, nos propusimos observar
si, al menos, existen diferencias estadísticamente significativas en relación a la población
que ha promocionado el parcial (con valores iguales o mayores a 7 puntos).
3. DIFERENCIAS DE PROPORCIONES
16
Técnicas de Investigación en Opinión Pública y Mercado
Para visualizarlos mejor los hemos circulado en rojo en nuestra tabla. En el caso de que
trabajemos con bases de datos de mayores tamaños, los procesadores pueden presentar
una tabla de distribución de frecuencias que permitan observar el dato de interés.
Ahora calcularemos el valor proporcional de “q” que es todo aquello que NO es “p”.
17
Técnicas de Investigación en Opinión Pública y Mercado
El valor de “z” indicará el resultado de la prueba de significación que en este caso apunta
a identificar si existen diferencias significativas entre las proporciones de alumnos
promocionados en ambas comisiones.
Antes de sumergirnos en sus cálculos, corresponde hacer una referencia a los orígenes
de “z”.
Según la bibliografía que se esté consultando, estos valores también son llamados
valores estándar de z, variables estandarizadas, z-scores, z-values.
El valor estándar indica qué cantidad de desviaciones estándar por encima o por debajo
de la media está ubicada una observación. Este valor permite la comparación de
observaciones de diferentes distribuciones normales.
Cuando el valor de “z” es negativo indica que el cálculo crudo lo ubica por debajo de la
media poblacional mientras que cuando es positivo indica que se ubica por encima de la
misma.
Para la mayoría de los casos en donde resulta imposible conocer la media y el desvío
poblacional, se utilizan las medidas obtenidas a partir de muestras que hayan tenido
procedimientos de selección de elementos de tipo probabilísticos.
Para aquellos casos en los que la población está normalmente distribuída el rango
percentil puede ser determinado a partir del valor estandarizado y una tabla estadística.
Una variable aleatoria “x” será estandarizada utilizando el valor de la media poblacional y
el desvío estándar poblacional y su expresión matemática será la siguiente:
Por otra parte, si la variable aleatoria analizada es producto de una muestra, la fórmula
para su cálculo será la siguiente según sea para el cálculo de diferencias de medias o de
diferencias de proporciones:
18
Técnicas de Investigación en Opinión Pública y Mercado
Obsérvese que en la fórmula se han incluido unas barras verticales que refieren al valor
absoluto del cálculo por lo que se desestima su signo. Sucede que tal como se había
informado anteriormente, el signo del valor estandarizado indica en qué posición se ubica
con relación a la media; siendo el signo negativo cuando el cálculo crudo lo ubica por
debajo de la media y positivo cuando dicho cálculo lo ubica por encima de la media.
En este sentido, nuestro interés es detectar una diferencia de tipo significativa en las
proporciones de parciales promocionados en ambas comisiones antes que conocer si tal
diferencia se ha dado por exceso o por defecto con relación a la media. A partir de esto se
decide trabajar con el valor absoluto.
El lector se preguntará por qué una diferencia no es significativa cuando el valor de z < 2
y al mismo tiempo de dónde sale este 2 (dos).
Para despejar esta inquietud es necesario volver a la curva normal de distribución que es
las que se presenta a continuación.
19
Técnicas de Investigación en Opinión Pública y Mercado
Hasta aquí hemos, por un lado, realizado pruebas de significación para identificar
diferencias significativas entre proporciones a partir del cálculo de valores estandarizados;
y por el otro, hemos comparado las medias de las calificaciones de los parciales a partir
de la construcción de sus intervalos de confianza respectivos.
20
Técnicas de Investigación en Opinión Pública y Mercado
4. DIFERENCIAS DE MEDIAS
Considérese que las aclaraciones hechas con relación a la diferencia de los valores
estandarizados de poblaciones y muestras aplican tanto para diferencias de proporciones
como para diferencias de medias.
Este dato no es una novedad por cuanto esta información ya había sido inferida a partir
de observar la superposición e intersección de los intervalos de confianza de las
calificaciones de los parciales de ambas comisiones.
MARTÍN ROMEO
Ciudad de Buenos Aires, 26 de Junio de 2008
21
Técnicas de Investigación en Opinión Pública y Mercado
22