Tecnicascuadernos9 PDF

TÉCNICAS DE INVESTIGACIÓN EN OPINIÓN
PÚBLICA Y MERCADO
TITULAR Y ADJUNTA: DRA. MÓNICA PETRACCI
CUADERNO DE CÁTEDRA Nº 9
INTRODUCCIÓN A LA ESTADÍSTICA PARA
ESTUDIANTES DE CIENCIAS SOCIALES
QUE PENSARON NO VOLVERÍAN A VER
UNA CALCULADORA
MARTÍN ROMEO
ORGANIZADORA DE ESTA PUBLICACIÓN:
MÓNICA PETRACCI
- 2008 -
Técnicas de Investigación en Opinión Pública y Mercado
PALABRAS INICIALES
Técnicas de Investigación de Opinión Pública y Mercado es una materia cuyo objetivo

principal, tal como su nombre lo indica, está centrado en la enseñanza de las técnicas de
recolección y análisis de la información en el marco del proceso de investigación social.
Dos son los criterios a partir de los cuales ese objetivo general fue pensado. Por un lado,
la comprensión por parte de los alumnos de los principios teóricos en los que se basa la
investigación científica. Por otro, la observación de esos principios en el diseño y
aplicación de las técnicas a través de las cuales la investigación es realizada. En suma,
para conocer las técnicas de relevamiento y análisis es necesario que los alumnos
comprendan la lógica del proceso de investigación social y, también, que realicen, en la
medida de lo posible, una práctica de investigación. Dicho en otros términos, es
investigando cómo se aprende a investigar.
El material elaborado por Martín Romeo es una contribución para el aprendizaje y el

ejercicio de herramientas básicas de análisis estadístico. Fue pensado especialmente
para los alumnos y alumnas de Ciencias de la Comunicación, en el marco de una práctica
que inició el Profesor Heriberto Muraro, primer titular de la cátedra, con el Cuadernillo
Manual de estadística para estudiantes posmodernos en 1985, un clásico para los
aproximadamente cien estudiantes que cuatrimestre tras cuatrimestre hubieron cursado la
materia. Entre ellos, el autor de este trabajo.
Quiero señalar mis felicitaciones por la iniciativa y el resultado.
Mónica Petracci
Titular de Cátedra
2
ÍNDICE DEL TRABAJO
1. Estadística descriptiva Página 4
2. Estadística inferencial Página 9
3. Diferencias de proporciones Página 15
4. Diferencias de medias Página 21
5. Bibliografía consultada y citada Página 22
3
1. ESTADÍSTICA DESCRIPTIVA
La cátedra se ha propuesto comparar los resultados de un parcial evaluatorio utilizado en

dos comisiones diferentes de la cátedra en la misma ocasión de examen. Para ello ha
seleccionado con un procedimiento probabilístico aleatorio una muestra de un conjunto de
10 parciales de cada una de las comisiones.
La hipótesis que guía dicho interés es la sospecha de que el rendimiento comparativo es

diferente frente al mismo estímulo evaluatorio y el supuestamente mismo estímulo
docente.
El cuadro Nº1 muestra una matriz de datos con los resultados de los parciales de diez
alumnos de dos comisiones diferentes en la cátedra que fueron seleccionados de manera
probabilística.
CUADRO Nº1: MATRIZ DE DATOS CON CALIFICACIONES DE PARCIALES EN DOS

COMISIONES
alumno COM Nº1 COM Nº2
1 2 7
2 3 6
3 4 6
4 4 6
5 4 7
6 5 7
7 6 6
8 7 6
9 8 6
10 10 7
Con esta tabla de datos, el analista comenzará su trabajo. Las medidas más utilizadas de
las estadística descriptiva son la moda, la mediana, la media, la desviación estándar,
el valor mínimo, el valor máximo y el rango.
La moda indica el valor que se observa con mayor repetición hacia el interior de una
distribución. La distribución será bimodal o trimodal en los casos en los que sean dos o
tres, respectivamente, los datos que tengan una misma frecuencia máxima absoluta. Por
el contrario, si sucediera que todas las categorías tienen la misma frecuencia diremos que
no existe moda en la distribución. En la comisión Nº1 la moda se ubica en el valor 4
mientras que en la comisión Nº2 se ubica en el valor 6.
La mediana corresponde al valor de la variable en el que una distribución queda dividida

en dos partes. Gráficamente sería la cima de una montaña por cuanto a ambos de sus
lados se encuentran una ladera.
En este sentido, el conjunto de datos menores o iguales que la mediana representarán el

50% de los datos mientras que aquellos que sean mayores que la mediana representarán
el otro 50% del total de datos de la muestra.
4
Para su ubicación será necesario ordenar ascendentemente la distribución de frecuencias

de las variables.
En el caso de que el tamaño muestral sea impar, la mediana será la observación central
de los valores. Si por el contrario, el tamaño muestral es par, la mediana será el promedio
aritmético de las observaciones centrales. Tal es el caso de nuestra matriz de datos que
informan que la mediana de la comisión Nº1 = 4,5 (resultado de dividir la suma de 4 + 5
dividido 2) mientras que la de la comisión Nº2 = 6.
Obsérvese que la matriz de datos está ordenada de manera ascendente en relación con
el resultado de los parciales de la comisión Nº1. La mediana de la comisión Nº2 se
observará más claramente si ordenáramos los datos de esta comisión ascendentemente.
Ahora bien, la mediana puede calcularse de esta manera en función de que estamos
trabajando con datos No agrupados, es decir, con una tabla que analiza las
observaciones de manera individual sin considerar las repeticiones de los valores.
En el caso de que trabajemos con datos agrupados que contemplan las repeticiones de
los valores la ubicación de la mediana puede variar.
En este sentido, si la división por dos del tamaño muestral (n/2) coincide con el valor de
una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa
correspondiente. Si por el contrario, no coincide con el valor de ninguna abscisa, la
mediana se calculará a través de semejanza de triángulos en el histograma o polígono de
frecuencias acumuladas cuya fórmula es la siguiente pero su explicación dejaremos para
otra ocasión.
El valor mínimo y máximo informa de las observaciones mínimas y máximas de una

distribución de frecuencia. La combinación de estos datos a través de su diferencia (Xmax −
Xmin) dan lugar al rango estadístico que se simboliza con la letra “r”.
El siguiente cuadro sintetiza estos valores correspondientes a ambas comisiones.

COMISIÓN Nº1 COMISIÓN Nº2
Mínimo 2 6
Máximo 10 7
Rango 8 1
Ahora calcularemos la media aritmética de cada una de las comisiones. La media es una
medida estadística descriptiva que conocemos comúnmente como el promedio de algo.
La estadística descriptiva es muy útil para resumir en pocos valores el comportamiento

conjunto de una distribución. Dichas medidas se calculan para variables con niveles de
medición intervalares o de razón.
5
A partir de ahora, las medidas que utilicemos tendrán una mayúscula cuando refieran a la
población total y una letra minúscula cuando refieran a la muestra.
La media se designa con una X con una barra horizontal: ( ).
Dados los n números a1,a 2, ... , an, la media aritmética se como el resultado de la suma
de las observaciones divido por la cantidad de casos totales. Se expresa de la siguiente
forma:+
A partir de esta fórmula, calcularemos la media aritmética del parcial de la comisión Nº1
que será igual a:
A partir del mismo procedimiento, podremos calcular que la media aritmética del parcial
correspondiente a la comisión Nº2 es de:
Con las medias ya calculadas, es alta la tentación de decir que el rendimiento en la

comisión Nº2 es mayor que el observado en la comisión Nº1. Veamos entonces por qué
hombre (o mujer) precavido vale por dos.
Calcularemos ahora la diferencia entre medias aritméticas para dos conjuntos.
Para ello será necesario calcular la desviación estándar1 que hace referencia a la forma
que asume una distribución dada. En la medida en que el desvío se acerca a cero (0), la
distribución es cada vez más homogénea y en la medida que se aleja de dicho valor se
hace, por el contrario, más heterogénea.
La desviación estándar2, sintetiza en un valor cuánto se alejan (o dispersan) los valores

de la distribución con relación a la media aritmética o promedio. La unidad de medida de
la desviación es la misma que la de la media; en este caso, puntos de parcial.
El siguiente gráfico muestra cómo puede variar una distribución en cuanto a la dispersión
de los valores. Tomaremos como ejemplo el promedio obtenido en la comisión Nº1 igual a
5,30.
1
Puede encontrarse también como desviación típica, desvío estándar o desvío típico.
2
Introducida en 1894 por el científico inglés Karl Pearson.
6
DISTRIBUCIONES SEGÚN DISPERSIÓN

12
10 10 10 10 10 10
VALOR DE NOTA
6
5,4 5,2 5,4 5,2 5,4 5,2 5,4 5,2 5,4 5,2
4
0,6 0,6 0,6 0,6 0,6

0
1 2 3 4 5 6 7 8 9 10
ALUMNO
x max disp x min disp
Como se observa, las distribuciones son diametralmente opuestas aún cuando comparten
la misma media aritmética (5,30).
La distribución de máxima dispersión supone la obtención del máximo de nota posible de

una mitad de los alumnos conjuntamente con el mínimo posible de la otra mitad de forma
tal de alcanzar el promedio solicitado (5,30 puntos).
La distribución de mínima supone el alejamiento de tan sólo una décima con relación al
promedio ya sea por exceso como por defecto.
Veamos, entonces, cómo se calcula la desviación estándar.
La desviación estándar se simboliza con la letra “S”.
Calcularemos paso a paso el desvío del parcial de la comisión Nº1.
7
alumno COM. Nº1

2
1 2 (2,0 - 5,3) -3,3 (-3,3) 10,89
2
2 3 (3,0 - 5,3) -2,3 (-2,3) 5,29
2
3 4 (4,0 - 5,3) -1,3 (-1,3) 1,69
2
4 4 (4,0 - 5,3) -1,3 (-1,3) 1,69
2
5 4 (4,0 - 5,3) -1,3 (-1,3) 1,69
2
6 5 (5,0 - 5,3) -0,3 (-0,3) 0,09
2
7 6 (6,0 - 5,3) 0,7 (0,7) 0,49
2
8 7 (7,0 - 5,3) 1,7 (1,7) 2,89
2
9 8 (8,0 - 5,3) 2,7 (2,7) 7,29
2
10 10 (10,0 - 5,3) 4,7 (4,7) 22,09
(sumatoria de x) 53 0,0 54,1

Sumatoria de X Sumatoria de x menos la
Sumatoria de x menos la media media al cuadrado
Obsérvese que como consecuencia de trabajar con los datos no agrupados, la sumatoria
de debe ser igual a cero. Esta es una buena medida de control en los casos
en que se hacen los cálculos manualmente. Dicha sumatoria es igual a cero porque todo
lo que algunos valores se alejan por exceso de la media están compensados por otros
que se alejan pero por defecto.
Con los datos de la tabla anterior sólo resta calcular:
Utilizando el mismo procedimiento de cálculo obtendremos que la desviación estándar de

la comisión Nº2 es = 0,51.
La primer lectura de estos datos permite asegurar que la distribución de notas de la

comisión Nº2 es más homogénea que la observada en la comisión Nº1 dado que sus
valores se han dispersado menos y en consecuencia el valor de la desviación estándar es
menor.
La siguiente tabla resume los datos obtenidos hasta ahora con relación a las notas de los
parciales de dos comisiones comparadas.
8
ESTADÍSTICA COMISIÓN Nº1 COMISIÓN Nº2

MEDIA 5,30 6,40
DESVÍACIÓN ESTÁNDAR 2,45 0,51
Los datos muestran que la comisión Nº2 ha obtenido un promedio de notas mayor que la
comisión Nº1 combinado con un desvío menor.
Ahora bien, ¿son suficientes estos datos para asegurar que la comisión Nº2 ha tenido un
mejor rendimiento que la Nº1?
ESTADÍSTICA INFERENCIAL
Estos datos no son suficientes por cuanto para realizar dicha afirmación necesitamos
hacer un cálculo de diferencias de medias en función de su ubicación en un intervalo de
confianza.
El intervalo de confianza se apoya sobre tres datos:
• Una media o porcentaje obtenido de la muestra

• Un límite inferior y otro superior que enmarcan dicho intervalo
• Una probabilidad asociada al intervalo que refiere a la probabilidad de que el valor
real de una variable en una población esté ubicado dentro del intervalo mencionado
Analicemos punto por punto cada uno de estos ítems.
El primero de esto refiere a una estimación media puntual a partir de los observados en
una muestra dada. En nuestro ejemplo, podría ser la calificación de la comisión Nº1 en las
notas del parcial =6,40.
Los límites inferiores y superiores de un intervalo informan el marco en el cual puede

oscilar la estimación puntual. En este sentido, la correcta lectura de la estimación puntual
ya no será decir que la calificación media de la comisión Nº1 es de 6,40 sino que será un
número comprendido entre tal y cual número.
En este caso puntual, el límite inferior será 3,79 mientras que el superior será 6,81.
En este punto es necesario pedirle al lector, paciencia y confianza (en término de fe) de
que dichos valores son correctos. Aunque luego veremos cómo calcularlos, ahora
necesitamos usar dichos valores para anclar las definiciones que se van utilizando.
Finalmente, la probabilidad asociada al intervalo es una suerte de pronóstico. Este

pronóstico indica qué probabilidad existe de que el valor real (de la nota del parcial) en
una población (los estudiantes de la comisión Nº1) esté ubicado entre el límite inferior y
superior del intervalo antes mencionado. Para el caso que estamos analizando, se han
realizado los cálculos a una probabilidad del 95%.
De esta manera, los resultados de nuestra muestra indican que existe un 95% de
probabilidad de que la nota de la población de estudiantes de la comisión Nº1 (obsérvese
que hablamos de todos los estudiantes y ya no de la muestra extraída) sea un número
comprendido entre 3,79 y 6,81 puntos.
9
Como se habrá observado, el pronóstico tiene un 95% de confianza que es “mucho” pero
no es lo que sería matemáticamente un certeza del 100%.
En este punto, se abre una conclusión muy interesante con relación a los pronósticos que
habitualmente realizan los estadísticos.
Sucede que si censáramos las calificaciones de todos los estudiantes de la comisión Nº1
y observáramos que efectivamente el promedio de notas es un valor ubicado entre los
límites inferior y superior pronosticados; podremos decir que el pronóstico ha sido
acertado. Ahora bien, si de dicho censo resultara que la calificación promedio de dicha
comisión es de 2,40 (por ejemplo) que es un valor no comprendido entre dichos límites, el
pronóstico también habrá acertado.
Cómo puede suceder tal cosa. Sucede que el pronóstico advertía sobre una probabilidad
de un 95% de que dicho evento sucediera pero que también existía un 5% restante de
que dicho pronóstico no sucediera.
Este artilugio estadístico puede resultar muy divertido para explicar matemáticamente lo
sucedido pero a los ojos de un cliente puede resultar un intento por explicar lo inexplicable
y el analista seguramente deba revisar los clasificados en búsqueda de trabajo aún
cuando esté justificado técnicamente.
En este punto es necesario hacer algunas aclaraciones al mismo tiempo que empezar a
dilucidar cómo se han calculado tales o cuáles valores.
El lector se preguntará de dónde sale tal 95% de probabilidad mencionado o por qué no
pronosticar con una mayor probabilidad más cercana al 100%.
Por el teorema central del límite, la mayoría de las veces es posible asumir para los
estadísticos una ley normal de distribución. El 95% de probabilidad supone una
distribución normal con una media = 0 y una desviación estándar = 1 que dan como
resultado un valor percentil de 1,96. Por si no ha quedado claro, esto permite afirmar que
el intervalo calculado a partir de la estimación puntual de la muestra contiene al verdadero
valor del parámetro poblacional en 95 de cada 100 observaciones.
El teorema central del límite supone que, en líneas generales, la distribución de la suma
de variables aleatorias tiende a ser una distribución normal3 cuando la cantidad de dichas
variables es alta. En este sentido cuanto más grande sea el valor de “n” mayor será la
aproximación.
La distribución normal es frecuentemente utilizada en la teoría de las probabilidades dado

que, por un lado, su función de densidad es simétrica y con forma de campana (de aquí
surge el concepto de campana de Gauss) por lo que facilita su aplicación como modelo a
un importante número de variables estadísticas; y por el otro, es el límite de otras
distribuciones y está vinculada por sus propiedades matemáticas a múltiples resultados
ligados a la teoría de las probabilidades.
La mayoría de las variables aleatorias de tipo continuas presentan una función de

densidad que se grafican con una forma de campana de donde deriva el nombre de
campana de Gauss.
3
Conocida también como distribución Gaussiana o distribución de Gauss.
10
El siguiente gráfico muestra la función de densidad de probabilidad de la distribución

normal en donde puede observarse la forma de campanas que dan origen a su nombre
“artístico”.
La línea verde corresponde a la distribución normal estándar con media = 0 y desvío estándar = 1
Como ya se ha dicho, el teorema del límite central garantiza una distribución normal
cuando “n” es lo suficientemente grande y la aproximación entre las dos distribuciones es,
en líneas generales, mayor en el centro de las mismas que en sus extremos o colas.
El siguiente ejemplo puede ser algo clarificador entre tanta bruma matemática. Suponga
Ud. que se dispone a comparar cuántas veces sale cara y ceca al arrojar una moneda.
La teoría de las probabilidades dirá que tanto cara como ceca saldrán la mitad de las
veces por cuanto la probabilidad de ambas es = 0,50.
Sin embargo, si el número de lanzamientos es pequeño Ud. podrá poner en duda esta
máxima de la teoría y con un justificativo empírico a partir de observar que alguna de las
caras (sea cara o sea ceca) ha salido más veces que la otra.
Ahora bien, a medida que el número de lanzamientos aumenta, Ud. podrá verificar que la
distancia entre la cantidad de veces que han salido cara y ceca disminuye hasta tender a
cero cuando el número de lanzamientos ronde el infinito.
De esta manera, cuando el número de lanzamientos sea lo suficientemente grande

estaremos cercanos a la distribución normal que garantiza el teorema del límite central.
Habida cuenta del origen del tan mentado 95% de probabilidad resta responder por qué
no pronosticar con una mayor probabilidad que se acerque aún más al 100%.
En primer lugar, diremos que no es posible hacerlo al 100% partiendo de una muestra.
Sólo se puede alcanzar dicho valor a partir de censos que incluyan la totalidad de la
población.
Ahora bien, sí es posible aumentar la probabilidad pero con un costo. El investigador

puede aumentar la probabilidad del pronóstico por ejemplo al 99% pero a costas de
aumentar o ensanchar el intervalo de confianza; es decir, aumentar lo que se conoce
11
como el margen de error muestral. En este sentido el pronóstico será más probable (casi
una certeza) pero será más impreciso.
Por el contrario, si le pedimos al investigador que reduzca el intervalo de modo de

pronosticar con mayor precisión debemos contemplar que la probabilidad de acertar el
dicho pronóstico se verá reducida.
Como se observa, estos tres componentes están íntimamente relacionados entre sí y

resulta imposible pensar en bajar el margen de error muestral (lo que redundaría en
achicar el intervalo de confianza) conjuntamente con aumentar la probabilidad de acertar
el pronóstico.
Un ejemplo que sintetice esta problemática puede ser el siguiente:
Un meteorólogo nos dice que hay un 95% de probabilidades de lluvia entre las 15 hs y las
16 hs.
Si le pidiéramos que aumente su probabilidad de acertar el pronóstico, nos dirá que hay
un 99% de probabilidades de lluvia entre las 13 hs y las 18 hs.
En el transcurso de esta breve explicación acerca de la interrelación entre los

componentes del intervalo de confianza, se ha mencionado el error muestral o error de
muestreo o error estándar de la muestra.
El error de muestreo que, como se verá más adelante, interviene en nuestros cálculos
hace referencia a la incertidumbre con relación a la exactitud del proceso de muestreo. El
error de muestreo refiere a la imprecisión en que se incurre al momento de estimar una
característica de la población estudiada (el parámetro) tomando como base los valores
obtenidos a partir de una muestra o recorte de dicha población.
Este error está afectado por múltiples factores entre los que se cuentan el tamaño de la
muestra, la naturaleza de la característica a estimar, las incidencias producidas en el
proceso de recolección de la información, el tipo de procedimiento de selección y
extracción de los elementos muestrales (el procedimiento de muestreo) así como el ajuste
paramétrico (comúnmente conocido como ponderación) al que se someten las muestras
una vez realizada la recolección de los datos. Cualquier alteración en el desarrollo de una
encuesta implicará variaciones en el cálculo de ponderadores que repercutirán sobre el
error muestral.
Ahora bien, esta incertidumbre a la que refiere el error de muestreo es habitualmente

denominada como el margen de error asociado.
El margen de error es inversamente proporcional al tamaño de la muestra por lo que a

mayor tamaño menor será el margen de error. En rigor, la elección de con qué margen de
error se quiere trabajar debiera ser la primer elección que haga el investigador ya sea
para sí mismo como de cara a un cliente.
Habitualmente el investigador tiene que hacer un equilibrio entre un margen de error

“aceptable” y el costo operativo del trabajo de campo. Las muestras que asocian
márgenes de error aceptables oscilan entre los 400 y los 1.000 elementos efectivos.
12
Al respecto, considérese que la reducción del margen de error nunca se da en una forma
proporcional al aumento del tamaño muestral. Por ejemplo, mientras una muestra de 400
elementos tendrá un margen de error de +/- 4,9%, una muestra de 800 elementos (el
doble) tendrá uno de +/-3,5%4.
Como se observa la duplicación del tamaño de la muestra y por ende del costo del trabajo
de campo, no reduce a la mitad el margen de error. Para reducir a la mitad el margen de
error de la muestra serán necesarios 1.600 elementos.
El margen de error se reduce sensiblemente a medida que agregamos casos en tamaños

muestrales pequeños pero se muestra cada vez más inelástico a dichos agregados
cuando las muestras son grandes.
En este punto, es importante señalar que el % mencionado con relación al margen de

error nada tiene que ver con el % mencionado con relación al nivel de confianza del
pronóstico aunque ambos estén expresados en la misma medida porcentual.
Hechas estas aclaraciones, estamos en condiciones de desarrollar nuestros cálculos para

dar respuesta a la pregunta que dio origen a este tour estadístico matemático.
Previamente a entrar en nuestro trance hipnótico estadístico, habíamos calculado con

relación a los parciales de las comisiones los siguientes valores o medidas.
ESTADÍSTICA COMISIÓN Nº1 COMISIÓN Nº2

MEDIA 5,30 6,40
DESVÍACIÓN ESTÁNDAR 2,45 0,51
El siguiente paso será calcular el error de muestreo a partir de la siguiente fórmula:
Calcularemos el error de muestreo para la comisión Nº1:
Habiendo calculado el error de muestreo, el intervalo de confianza se calcula de la

siguiente manera:
De esta forma, el límite inferior del intervalo será el resultado de la media menos el valor
de la constante “k”; y el límite superior, el resultado de la media más el valor de la
4
Ambos casos suponen extracciones muestrales de poblaciones infinitas con un nivel de confianza del 95% (1,96 sigmas) cuando P y
Q = 50%, es decir, en la máxima heterogeneidad.
13
constante “k”. Considérese que este “k” nada tiene que ver con Kirchner ni el
kirchnerismo.
El valor de “k” es el resultado de multiplicar el error muestral por el valor percentil que en
la curva de distribución normal supone trabajar con un nivel de confianza asociada.
Supongamos que hemos decidido trabajar con un 95% de confianza asociada al
pronóstico de la media poblacional y se calculará de la siguiente manera:
En este punto, es importante señalar que las fórmulas y cálculos hasta aquí desarrollados
en relación con los intervalos de confianza suponen estimaciones y pronósticos para
medias poblacionales cuyos tamaños sean iguales o superiores a 30 elementos (cuya
notación estadística sería la siguiente para µ cuando n >= 30)
Considérese que si hubiéramos decidido trabajar con un nivel de confianza diferente, el

valor percentil se hubiera modificado siendo mayor cuanta mayor sea la confianza en el
pronóstico a realizarse.
Así las cosas, calcularemos los límites del intervalo de confianza de la media población
correspondientes al parcial de la comisión Nº1.
Límite inferior 5,30 – (1,96 x 0,77) = 5,30 – 1,51 = 3,79

Límite superior 5,30 + (1,96 x 0,77) = 5,30 + 1,51 = 6,81
La lectura de estos datos indica que existe un 95% de probabilidad de que la media
poblacional de los parciales de la comisión Nº1 sea un valor comprendido entre 3,79 y
6,81 puntos. Al respecto, considérese que estadísticamente se considera equiprobable
cualquier valor comprendido en dicho intervalo y en nada afecta al pronóstico el hecho de
que el valor real se acerque más a alguno de los límites del intervalo.
En este sentido, si censáramos los parciales de esta comisión y releváramos que la media
poblacional es de 6,81; el pronóstico habrá sido acertado tanto como si encontráramos
que dicha media poblacional es de 3,79 aún cuando en ambos casos estén posados
sobre uno de los límites del intervalo. El pronóstico sólo habrá sido errado si
encontráramos que la media poblacional es un valor inferior a 3,79 o superior a 6,81; en
cuyo caso, estadísticamente, habrá sucedido el 5% restante de la probabilidad no
asegurada.
Las expresiones tales como error calculado para dos sigmas, error calculado para p=0,95
o error calculado al 95% deben ser consideradas como sinónimo.
En este punto es interesante señalar la vinculación de estos cálculos y conceptos

estadísticos matemáticos con el campo de la investigación empírica, en general; y la
investigación de mercados, en particular.
Como advirtiéramos, la expresión del error calculado para dos sigmas es el sinónimo de
trabajar con estimaciones que tienen un 95% de probabilidad en el pronóstico. En rigor, el
término “dos sigmas” es producto del redondeo del valor percentil 1,96 de la curva normal
que ya hemos analizado.
14
Dicho término hace referencia a la cantidad de sigmas en la curva normal que suponen
trabajar con determinado nivel de confianza en el pronóstico.
En el campo de las investigaciones de mercado es conocido el método de mejora de la

calidad total llamado seis sigmas o 6 σ.
Dicha metodología supone orientar esfuerzos para reducir los defectos y errores a un
valor cercano a cero de forma tal de alcanzar el concepto de calidad total en productos y
servicios. En este sentido, matemáticamente supone trabajar con un nivel de confianza
superior al 99,9%.
Ahora bien, “una ambiciosa meta sería trabajar con un nivel de confianza en el pronóstico
de 99,9%” pero veamos cuáles podrían ser los efectos de trabajar con tal nivel de
confianza según datos de EE.UU:
• Las guarderías de los hospitales entregarían 12 bebes por día a padres que no
corresponden.
• Algún banco descontaría 22.000 cheques por hora de cuentas equivocadas
• Se fabricarían 268,500 neumáticos defectuosos
• Se emitirían 20,000 recetas medicinales incorrectas.
“Seis sigma” reconoce que hay lugar para los defectos como consecuencia natural de los
procesos y plantea como nivel de funcionamiento correcto el 99,99966%. Dicho nivel de
confianza estipula una meta objetivo donde los defectos en muchos procesos y productos
son prácticamente inexistentes.
Matemáticamente, dicho nivel de confianza supone que el 99,99966% equivale a

0,00034% defectos que equivalen a 3,4 defectos por millón (6 sigma = 3,4 Defectos Por
Millón de Oportunidades)5. La escala de calidad de la metodología “seis Sima” mide el
número de sigmas que caben dentro del intervalo definido por los límites de tolerancia.
Ahora bien, volvamos a nuestro objetivo que era comparar los resultados de los parciales
de dos comisiones.
A partir de las fórmulas ya vistas, calcularemos el intervalo de confianza de la media

poblacional correspondiente a la comisión Nº2.
Límite inferior 6,40 – (1,96 x 0,16) = 6,40 – 0,31 = 6,09

Límite superior 6,40 + (1,96 x 0,16) = 6,40 + 0,31 = 6,71
Con estos valores graficaremos los resultados de los intervalos de ambas comisiones.
5
Leo F. Jeri: “Seis Sigma; una metodología estadística para la calidad total”, presentación ppt.
15
Como se observa, los intervalos de confianza de ambas comisiones, muestra una zona de
superposición o intersección que nos impide asegurar que el rendimiento comparado de
los parciales de las comisiones ha sido diferente. La estadística supone en dentro de los
límites de los intervalos, los sucesos son equiprobables y no hay mayor preponderancia
de valores que tiendan más a uno de sus límites en detrimento del otro.
De esta forma, la superposición de los intervalos obtura la posibilidad de asegurar que el

rendimiento de la comisión Nº2 a partir del análisis de los parciales ha sido mejor que el
observado en la comisión Nº1 aún cuando la media aritmética de sea mayor (6,40 vs
5,30).
Vistos estos resultados y la imposibilidad de asegurar que las calificaciones de una de las
comisiones son distintas (y mejores) que la de su comparada, nos propusimos observar
si, al menos, existen diferencias estadísticamente significativas en relación a la población
que ha promocionado el parcial (con valores iguales o mayores a 7 puntos).
Para ello haremos algunos cálculos vinculados a las diferencias de proporciones.
3. DIFERENCIAS DE PROPORCIONES
En primer lugar calcularemos qué porcentaje de alumnos ha promocionado el parcial en

cada una de las comisiones para lo cual volveremos a analizar la matriz de datos original.
alumno COM Nº1 COM Nº2

7
1 2
2 3 6
3 4 6
4 4 6
7
5 4
6 5 7
7 6 6
7
8 6
6
9 8
10 10 7
16
Para visualizarlos mejor los hemos circulado en rojo en nuestra tabla. En el caso de que
trabajemos con bases de datos de mayores tamaños, los procesadores pueden presentar
una tabla de distribución de frecuencias que permitan observar el dato de interés.
Como se observa, el 30% de los alumnos de la comisión Nº1 ha promocionado mientras

que lo ha hecho el 40% de los alumnos de la comisión Nº2. Ahora bien, ¿puedo afirmar
que la proporción de alumnos promocionados es diferente en ambas comisiones?
Para saber si las diferencias de proporciones son estadísticamente significativas, es

necesario realizar el siguiente cálculo.
Dicho cálculo supone la realización de un test o prueba de significación estadística. El

hecho de que una diferencia sea estadísticamente significativa es sinónimo de
considerarla NO nula. Como lo veníamos haciendo, a partir de las proporciones
observadas en las muestras de ambas comisiones, intentaremos inferir si las
proporciones poblaciones (o sea del universo) de cada comisión son distintas de cero.
Veamos nuestro caso de análisis.
Ahora calcularemos el valor proporcional de “q” que es todo aquello que NO es “p”.
Luego calcularemos “s” que es una medida de la dispersión a partir de la siguiente

fórmula:
Aplicando esta fórmula obtendremos que:
Ahora calcularemos el valor de “z”. Le pedimos tranquilidad al lector, estamos a escasas

letras de terminar el abecedario estadístico.
17
El valor de “z” indicará el resultado de la prueba de significación que en este caso apunta
a identificar si existen diferencias significativas entre las proporciones de alumnos
promocionados en ambas comisiones.
Antes de sumergirnos en sus cálculos, corresponde hacer una referencia a los orígenes
de “z”.
En estadística se conoce como normalización o estandarización al proceso de conversión

por el cual se obtiene un valor estándar. El valor estándar es una cantidad
indimensionable obtenida a partir de sustraer una media poblacional a partir de un cálculo
individual crudo y luego dividiendo la diferencia por la desviación estándar poblacional.
Según la bibliografía que se esté consultando, estos valores también son llamados
valores estándar de z, variables estandarizadas, z-scores, z-values.
El valor estándar indica qué cantidad de desviaciones estándar por encima o por debajo
de la media está ubicada una observación. Este valor permite la comparación de
observaciones de diferentes distribuciones normales.
Cuando el valor de “z” es negativo indica que el cálculo crudo lo ubica por debajo de la
media poblacional mientras que cuando es positivo indica que se ubica por encima de la
misma.
Obsérvese que es el cálculo de “z” supone el conocimiento de la media poblacional y la

desviación estándar poblacional y no el conocimiento de la media muestral y las
desviación estándar muestral. Sin embargo, este requerimiento es de difícil alcance por
cuanto no siempre es posible el conocimiento de tales medidas referidas a la población
parámetro excepto en los casos en los que se han realizado censos en los cuales la
población entera ha sido medida.
Para la mayoría de los casos en donde resulta imposible conocer la media y el desvío
poblacional, se utilizan las medidas obtenidas a partir de muestras que hayan tenido
procedimientos de selección de elementos de tipo probabilísticos.
Para aquellos casos en los que la población está normalmente distribuída el rango
percentil puede ser determinado a partir del valor estandarizado y una tabla estadística.
Una variable aleatoria “x” será estandarizada utilizando el valor de la media poblacional y
el desvío estándar poblacional y su expresión matemática será la siguiente:
Donde µ corresponde al valor de la media poblacional y σ corresponde a la desviación

estándar de la distribución de probabilidad de X.
Por otra parte, si la variable aleatoria analizada es producto de una muestra, la fórmula
para su cálculo será la siguiente según sea para el cálculo de diferencias de medias o de
diferencias de proporciones:
18
Retornemos a nuestra inquietud de observar la existencia de diferencias en ambas

comisiones y en función de que estamos trabajando con datos muestrales calcularemos el
valor de “z” según la siguiente fórmula:
Obsérvese que en la fórmula se han incluido unas barras verticales que refieren al valor
absoluto del cálculo por lo que se desestima su signo. Sucede que tal como se había
informado anteriormente, el signo del valor estandarizado indica en qué posición se ubica
con relación a la media; siendo el signo negativo cuando el cálculo crudo lo ubica por
debajo de la media y positivo cuando dicho cálculo lo ubica por encima de la media.
En este sentido, nuestro interés es detectar una diferencia de tipo significativa en las
proporciones de parciales promocionados en ambas comisiones antes que conocer si tal
diferencia se ha dado por exceso o por defecto con relación a la media. A partir de esto se
decide trabajar con el valor absoluto.
El valor de z = 0,47 nos indica que la diferencia de proporciones NO es significativa al

95% de confianza por cuanto dicho valor es menor que 2.
El lector se preguntará por qué una diferencia no es significativa cuando el valor de z < 2
y al mismo tiempo de dónde sale este 2 (dos).
Para despejar esta inquietud es necesario volver a la curva normal de distribución que es
las que se presenta a continuación.
19
El gráfico muestra la curva de distribución normal según el nivel de probabilidad, los

valores estandarizados y la cantidad de desviaciones respecto de la media; conceptos
todos que hemos ido viendo cómo se articulan entre sí.
Como se observa en el gráfico, el valor de z = 2 indica que estamos trabajando a 2

desviaciones estándar de la media (dos sigmas) lo que es equivalente a realizar
pronósticos con un 95,5% de confianza en los pronósticos a realizar.
El ensayo de hipótesis planteado con relación a las diferencias de proporciones de

parciales promovidos se ha resuelto con el cálculo del valor estandarizado “z”. El mismo
indica que NO es posible afirmar que la proporción de parciales promovidos de la
población de alumnos de ambas comisiones sea distinta por lo que deberán ser
consideradas como iguales por cuanto las diferencias entre las proporciones muestrales
de ambas comisiones no han sido significativas al 95% de confianza.
Hasta aquí hemos, por un lado, realizado pruebas de significación para identificar
diferencias significativas entre proporciones a partir del cálculo de valores estandarizados;
y por el otro, hemos comparado las medias de las calificaciones de los parciales a partir
de la construcción de sus intervalos de confianza respectivos.
En rigor, la identificación de diferencias estadísticas entre medias también podría haberse

calculado a partir del cálculo de valores estandarizados sin necesidad de conocer los
límites de los intervalos de confianza.
Veamos cómo hacerlo a partir de los siguientes cálculos.
20
4. DIFERENCIAS DE MEDIAS
En primer lugar calcularemos una medida de dispersión de la siguiente forma:
A partir de la estadística descriptiva ya calculada reemplazaremos los términos.
A continuación, calcularemos el valor estandarizado a partir de la siguiente fórmula.
Considérese que las aclaraciones hechas con relación a la diferencia de los valores
estandarizados de poblaciones y muestras aplican tanto para diferencias de proporciones
como para diferencias de medias.
Por otra parte, la evaluación del valor estandarizado en función de su ubicación en la

curvan normal también aplica en esta caso como ya se hubo señalada oportunamente.
De esta manera y siendo el valor de z < 2, estamos en condiciones de decir que NO es

posible afirmar que la media aritmética de los parciales de la población de alumnos de
ambas comisiones sea distinta por lo que deberán ser consideradas como iguales por
cuanto las diferencias entre las medias aritméticas muestrales de ambas comisiones no
han sido significativas al 95% de confianza.
Este dato no es una novedad por cuanto esta información ya había sido inferida a partir
de observar la superposición e intersección de los intervalos de confianza de las
calificaciones de los parciales de ambas comisiones.
Las diferencias resultan significativas al 95% de confianza cuando el valor estandarizado

z >=2 sea tanto para medias como para proporciones.
MARTÍN ROMEO
Ciudad de Buenos Aires, 26 de Junio de 2008
21
5. BIBLIOGRAFÍA CONSULTADA Y CITADA
Blalock, H. 1960. “Social Statistics”. New York: Mc Graw Hill.

Cramer, H. “Elementos de la teoría de probabilidades y algunas de sus aplicaciones y
métodos matemáticos de estadística”. Ed. Aguilar.
Hopkins, D.; Hopkins, B.R. y Gene Glass. 1997. “Estadística Básica para las Ciencias
Sociales y el comportamiento”. México: Prentice – Hall Hispanoamericana S.A..
Inchausti, A. 1976. “Estadística aplicada a Ciencias Sociales”. Madrid: Pirámide.
Mood, A. y F. Graybill. 1969. “Introducción a la teoría de la estadística”. Ed. Aguilar.
Muraro, H. 1985. “Apuntes de Estadística. Recetario – Introducción a la estadística para
estudiantes postmodernos”, mimeo.
Muraro, O. 1997. “Estadística elemental para Ciencias Sociales”. Buenos Aires: Ediciones
Letra Buena.
Neumann, E. 1984. “Handbook of Quantitative methods in the Social Science”. Newbury
Park, CA: Sage Publications.
22

Tecnicascuadernos9 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tecnicascuadernos9 PDF

Cargado por

Copyright:

Formatos disponibles

TÉCNICAS DE INVESTIGACIÓN EN OPINIÓN

ORGANIZADORA DE ESTA PUBLICACIÓN:

Técnicas de Investigación de Opinión Pública y Mercado es una materia cuyo objetivo

El material elaborado por Martín Romeo es una contribución para el aprendizaje y el

Quiero señalar mis felicitaciones por la iniciativa y el resultado.

ÍNDICE DEL TRABAJO

1. Estadística descriptiva Página 4

2. Estadística inferencial Página 9

3. Diferencias de proporciones Página 15

4. Diferencias de medias Página 21

5. Bibliografía consultada y citada Página 22

La cátedra se ha propuesto comparar los resultados de un parcial evaluatorio utilizado en

La hipótesis que guía dicho interés es la sospecha de que el rendimiento comparativo es

CUADRO Nº1: MATRIZ DE DATOS CON CALIFICACIONES DE PARCIALES EN DOS

La mediana corresponde al valor de la variable en el que una distribución queda dividida

En este sentido, el conjunto de datos menores o iguales que la mediana representarán el

Para su ubicación será necesario ordenar ascendentemente la distribución de frecuencias

El valor mínimo y máximo informa de las observaciones mínimas y máximas de una

El siguiente cuadro sintetiza estos valores correspondientes a ambas comisiones.

La estadística descriptiva es muy útil para resumir en pocos valores el comportamiento

La media se designa con una X con una barra horizontal: ( ).

Con las medias ya calculadas, es alta la tentación de decir que el rendimiento en la

Calcularemos ahora la diferencia entre medias aritméticas para dos conjuntos.

La desviación estándar2, sintetiza en un valor cuánto se alejan (o dispersan) los valores

DISTRIBUCIONES SEGÚN DISPERSIÓN

0,6 0,6 0,6 0,6 0,6

x max disp x min disp

La distribución de máxima dispersión supone la obtención del máximo de nota posible de

Veamos, entonces, cómo se calcula la desviación estándar.

La desviación estándar se simboliza con la letra “S”.

Calcularemos paso a paso el desvío del parcial de la comisión Nº1.

alumno COM. Nº1

(sumatoria de x) 53 0,0 54,1

Con los datos de la tabla anterior sólo resta calcular:

Utilizando el mismo procedimiento de cálculo obtendremos que la desviación estándar de

La primer lectura de estos datos permite asegurar que la distribución de notas de la

ESTADÍSTICA COMISIÓN Nº1 COMISIÓN Nº2

El intervalo de confianza se apoya sobre tres datos:

• Una media o porcentaje obtenido de la muestra

Analicemos punto por punto cada uno de estos ítems.

Los límites inferiores y superiores de un intervalo informan el marco en el cual puede

Finalmente, la probabilidad asociada al intervalo es una suerte de pronóstico. Este

La distribución normal es frecuentemente utilizada en la teoría de las probabilidades dado

La mayoría de las variables aleatorias de tipo continuas presentan una función de

El siguiente gráfico muestra la función de densidad de probabilidad de la distribución

De esta manera, cuando el número de lanzamientos sea lo suficientemente grande

Ahora bien, sí es posible aumentar la probabilidad pero con un costo. El investigador

Por el contrario, si le pedimos al investigador que reduzca el intervalo de modo de

Como se observa, estos tres componentes están íntimamente relacionados entre sí y

Un ejemplo que sintetice esta problemática puede ser el siguiente:

En el transcurso de esta breve explicación acerca de la interrelación entre los

Ahora bien, esta incertidumbre a la que refiere el error de muestreo es habitualmente

El margen de error es inversamente proporcional al tamaño de la muestra por lo que a

Habitualmente el investigador tiene que hacer un equilibrio entre un margen de error

El margen de error se reduce sensiblemente a medida que agregamos casos en tamaños

En este punto, es importante señalar que el % mencionado con relación al margen de

Hechas estas aclaraciones, estamos en condiciones de desarrollar nuestros cálculos para

Previamente a entrar en nuestro trance hipnótico estadístico, habíamos calculado con

ESTADÍSTICA COMISIÓN Nº1 COMISIÓN Nº2

El siguiente paso será calcular el error de muestreo a partir de la siguiente fórmula:

Calcularemos el error de muestreo para la comisión Nº1:

Habiendo calculado el error de muestreo, el intervalo de confianza se calcula de la

Considérese que si hubiéramos decidido trabajar con un nivel de confianza diferente, el