Está en la página 1de 22

TEMA 5

ESTADÍSTICA MUESTRAL

5.1.- Estadística Descriptiva y Estadística Muestral.

La estadística Descriptiva se ocupa de ordenar los datos obtenidos


en una muestra y de representarlos por medio de los valores
estadísticos más caracterizados, tales como medias, medidas de
variabilidad, frecuencias y porcentajes, correlaciones, etcétera.

La Estadística Muestral, también llamada Estadística Inferencial, es


aquella que trata es de resolver los problemas acerca de las
poblaciones a que estas muestras representan.

Cuando en estadística se emplea la palabra “población” se refiere a


un agregado de observaciones. La parte de población que se estudia
es lo que llamamos “muestra”.

Ejemplo: si se quiere conocer el coeficiente de inteligencia (CI) de


los estudiantes universitarios españoles (población), resulta que es
prácticamente imposible examinar a todos. Hemos de contentarnos
con estudiar un grupo de ellos (muestra).

Este proceder plantea muchos problemas: ¿Hasta qué punto la


muestra representa a la población? ¿Cómo elegir la muestra? ¿Hasta
qué punto se parecen las medias de la muestra con las de la
población?

5.2.- El Error Muestral.

El error muestral es la diferencia entre un estadístico y su parámetro


poblacional correspondiente. Se llama Estadístico a los valores
(promedios, desviaciones, porcentajes...) obtenidos en una muestra.
Se llama parámetro a cualquiera de esos valores obtenidos de una

79
población. Así, por tanto, si llamamos () al Coeficiente de
Inteligencia medio obtenido en una muestra realizada entre un
grupo de 100 universitarios y llamamos (µ) al Coeficiente de
Inteligencia medio de todos los universitarios españoles, el Error
Muestral (E) de dicha media sería el siguiente:

E = l - µl

5.3.- Precisión y Fiabilidad.

Precisión es la exactitud con que un estadístico representa a su


parámetro. Decimos que un estadístico es preciso cuando el error
muestral (E) es pequeño, o sea, cuando su valor se acerca mucho al
de su parámetro correspondiente. Cuando menor sea la diferencia,
tanto mayor será la precisión. Pero, generalmente, desconocemos el
parámetro y, por tanto, no podemos obtener de forma directa el
error muestral (diferencia entre estadístico y parámetro).

Lo que sí podemos saber es si este estadístico es más o menos


constante. Para saberlo, escogemos otras muestras iguales de la
misma población. Si las medias encontradas en cada muestra
difieren poco entre sí, tendremos motivos suficientes para pensar
que cualquiera de ellas es representativa de las demás e incluso de
la población. Fiabilidad de un estadístico es la medida de su
constancia al obtenerse valores parecidos en varias muestras del
mismo tipo.

Ejemplo: Queremos saber la inteligencia media de los universitarios


españoles. Supongamos que una muestra de 500 universitarios, en
un test de inteligencia, nos da una media de (=36). A partir de
estos datos podemos afirmar:

- Que 36 es la media de nuestra muestra.


- Que, a partir de los datos que tenemos, la mejor estimación que
podemos hacer de la media de la población es que se aproxima o es
igual a 36.

80
Obtenemos otra muestra al azar de 500 universitarios, y luego otra
y gran número de ellas. Si al hallar las medias de todas estas
muestras vemos que varían muy poco entre sí, cualquiera de ellas
puede representar a las demás, lo cual quiere decir que nos
podemos fiar de su valor, que tiene alta fiabilidad.

Esta Fiabilidad o constancia indica indirectamente una cierta


precisión, es decir, nos indica que las medias no se apartan mucho
de su parámetro.

5.4.- Errores Muestrales: Errores de Sesgo y Errores Aleatorios.

Entenderemos por errores muestrales aquellos errores cometidos


por estudiar una muestra en lugar de la población.

Los más importantes son dos:

1.- Errores de Sesgo: son los debidos a que la muestra de donde se


han obtenido los errores no representa a la población dado que la
muestra ha sido elegida con cierto sesgo o parcialidad. Esta clase de
sesgos provienen del método aplicado para elegir la muestra y
originan que el estadístico estimador obtenido no tienda a valer lo
que el parámetro de la población.

2.- Errores Aleatorios: se deben al azar. Son debidos a la casualidad


y no a la parcialidad o sesgo. Su cuantía puede ser estimada
aplicando las leyes de la probabilidad.

5.5.- Concepto y métodos de muestreo.

Por todo lo que se ha dicho anteriormente se desprende que una de


las tareas más importantes desde el punto de vista metodológico
que tiene que realizar el investigador es elegir convenientemente
muestras que representen a la población que ha de estudiar. Hay
varios métodos para ello:

81
El más sencillo es el método aleatorio simple. Consiste en tomar de
una población dada, un número cualquier de individuos
completamente al azar.

Otro método es el muestreo estratificado o por estratos. Por


ejemplo, dividimos a los universitarios por distritos y de cada distrito
tomamos un número al azar. La población queda dividida en partes,
conforme a un criterio.

Otro método es el muestro por conglomerados o áreas. Consiste


este método en sustituir las unidades físicas elementales a las que
se refiere el estudio por unidades de muestreo que comprendan un
grupo de aquéllas. Cada uno de estos grupos deberá representar lo
mejor posible a la población.

Los métodos para estudiar la fiabilidad y significación de los


estadísticos varían según el método de muestreo empleado. En los
epígrafes que siguen a continuación, vamos a utilizar ejemplos
basados en un muestreo aleatorio simple.

5.6.- Distribución Muestral.

Si aplicamos un test de inteligencia a una muestra de 500


universitarios obtenida al azar de toda la población universitaria
española podemos calcular la media resultante. Si obtenemos un
número infinito de muestras de 500 universitarios, cada una de esas
muestras tendrá una media. Entre esas infinitas medias algunas
serán iguales, otras diferentes. Si hacemos una distribución de esas
medias según su valor, resultará una distribución de medias de
muestras, una distribución muestral de medias. En general, diremos
que la Distribución Muestral de un estadístico (en este caso, las
medias de cada muestra de N=500) es la distribución de frecuencias
de los valores que ese estadístico toma en un número infinito de
muestras del mismo tipo y tamaño, es decir, de 500.

Para entender las características de la distribución muestral de la


media, es necesario exponer el Teorema Central del Límite y la Ley
de los Grandes Números.

82
El Teorema Central del Límite establece que si de una población
normal con media µ y una varianza σ² se extraen reiteradas
muestras al azar, de tamaño N, la distribución de las medias de las
muestras será normal, con una media (µ) y una desviación típica
(σ=σ/ ), es decir, con una varianza (σ²/N).

La Ley de los Grandes Números establece que, si se extraen


diversas muestras al azar de tamaño N de una población cualquiera
con media µ y una varianza σ², a medida que la N crece, la
distribución de las medias de las muestras se aproxima a la
normalidad, con una media (µ) y una varianza (σ²/N).

Si extraemos, pues, al azar de una población un gran número de


muestras y a cada una de ellas le calculamos el estadístico (),
estas medias (µ), por supuesto, variarán entre sí, pero tenderán a
agruparse alrededor de la verdadera media (µ) de la población. Es
decir, si representamos gráficamente la distribución de dichas
muestras, obtendremos una curva normal.

La DESVIACIÓN TÍPICA DE LA DISTRIBUCIÓN normal DE LAS


MEDIAS DE LAS MUESTRAS se representa por la siguiente fórmula:

σ =

En consecuencia, podemos decir que cuanto mayor sea el tamaño


de la muestra, menor será la desviación típica en la distribución de
la muestra, existiendo una mayor concentración de lo estadístico en
dichas muestras tendiendo a una curva puntiaguda, tal como se
observa en el siguiente gráfico, que muestra la representación
gráfica de las distribuciones de muestreo para muestras de tamaño
diferente.

83
La distribución muestral de la media se caracteriza, por tanto, por
las siguientes razones:

1.- Adopta la forma de la curva normal.


2.- La media de la distribución muestral (µ) es la media verdadera
de la población (µ).
3.- La distribución es más o menos variable.

Representando gráficamente la distribución de la población y la


distribución muestral de la media sería así:

El tercer dato es muy importante. Si la distribución muestral varía


mucho, es decir, si tiene una σ muy alta, las medias difieren mucho
entre sí, son poco fiables. Si la distribución muestral varía poco, es
decir, si su σ es baja, las medias difieren poco entre sí, son fiables.

Para averiguar la fiabilidad de un estadístico hay que estudiar la


variabilidad de su distribución muestral. Y como la variabilidad viene
dada por la desviación típica (σ) tendremos que una medida de la
fiabilidad de un estadístico será la desviación típica de su
distribución muestral.

El error típico (standard error) es precisamente la desviación típica


de la distribución muestral de un estadístico. En nuestro caso
concreto, por tratarse de la distribución muestral de la media () se
le representa con: σ. Cuanto menor sea el error típico, mayor será
la probabilidad de que un estadístico deducido de una muestra
aleatoria se acerque al valor del parámetro correspondiente.

84
Ejemplo: Supongamos una población con parámetros conocidos. Si
se extraen muestras de esta población, se pueden establecer ciertas
afirmaciones en sentido probabilístico, acerca de las medias de estas
muestras.

Si el coeficiente medio de inteligencia de la población universitaria


de Bilbao es µ=95 y σ=14 y se extrae una muestra de 49
estudiantes de esa población. ¿Qué probabilidad hay de que resulte
una media igual o inferior a 92?

La distribución muestral de las medias sigue la curva normal:

µ = µ ; σ =

Por tanto, la desviación típica de las medias de todas las muestras


de N=49 sería:

σ =

Calculando la puntuación tipificada de 92 en esa distribución


muestral podremos acudir a las tablas de la curva normal y
averiguar la probabilidad de que pueda darse tal Z o un valor
inferior.

El área correspondiente para un valor igual o inferior a Z=-1,50 es


0,0668. Por tanto, la probabilidad de extraer de esta población una
muestra de tamaño 49 cuya media sea igual o inferior a 92 es del
6,68%.

5.7.- Estimación de parámetros a partir de una sola muestra.

El quehacer normal en estadística inferencial o muestral es poder


concretar lo más fielmente posible, a partir de los estadísticos
calculados en una sola muestra, cuál puede ser el valor más

85
verosímil del parámetro de la población o al menos entre qué límites
se encuentra tal parámetro.

El problema se plantea partiendo del hecho de que sólo disponemos


de los estadísticos de una sola muestra y no de infinitos estadísticos
obtenidos de infinitas muestras. Es decir, si de toda una población
elegimos al azar una muestra de N datos y calculamos la media ()
y la desviación típica (S), la duda es saber qué podemos decir
acerca de la media verdadera de la población (µ).

5.7.1.- Niveles de confianza y coeficientes de riesgo.

Si tenemos en una bolsa 99 bolas blancas y una negra, podemos


pronosticar que al sacar una bola al azar será blanca. No lo diremos
con absoluta seguridad. Lo diremos con cierto riesgo de
equivocarnos. Si hacemos muchos pronósticos de este tipo, nos
equivocaremos a la larga, el 1% de las veces. En cada caso
tenemos una probabilidad del 99% de acertar y del 1% de errar.
Cuando hacemos esta clase de juicios, decimos que procedemos al
nivel de confianza del 99% y con el coeficiente de riesgo del 1%. Si
hubiera 95 bolas blancas y 5 negras, al afirmar que saldrá al azar
una blanca emitiremos un juicio al nivel de confianza del 95% o con
el coeficiente de riesgo del 5%.

De igual manera, sabemos que en una distribución muestral normal,


el 95% de las medias de las muestras se encontrarán entre 1,96 σ
por debajo y 1,96 σ por encima de la media µ = µ. Luego
podremos afirmar al nivel de confianza del 95% que la media de la
muestra () elegida al azar de una distribución muestral normal no
se apartará de la media µ (o de µ) en más de 1,96 σ.

5.7.2.- Estimación de parámetros.

Ocurre, sin embargo, que no conocemos ni la media (µ) ni la


desviación típica (σ) de la población. Ahora bien, si decimos que la
media de la muestra () no se apartará de la media verdadera de la
población en más de 1,96 σ con un 95% de probabilidades de

86
acertar, recíprocamente también podemos decir, conociendo la
media muestral (), que la verdadera media de la población (µ) no
se apartará de la media de la muestra () en más de 1,96 σ con un
95% de probabilidades de acertar.

Si tomamos el nivel de confianza del 99% diremos entonces, que,


conociendo la media de la muestra (), la verdadera media de la
población (µ) no se apartará de la media de la muestra () en más
de 2,58 σ con un 99% de probabilidades de acertar, ya que el error
muestral máxima entre la media muestral y la media poblacional,
según la distribución normal, no puede ser mayor que 2,58 σ.

Todavía es necesario solucionar un último aspecto y es el del


desconocimiento de la desviación típica (σx) de la población, lo cual
nos impide calcular cuánto vale la desviación típica de la distribución
muestral de medias, esto es, usar la fórmula…

σ =

En realidad, lo único que sabemos es cuánto vale la desviación


típica (S) de la muestra. Pues bien, lo que podemos hacer es
estimar σ a partir del dato de desviación típica de la muestra (S).
Así, la fórmula para calcular el ERROR TÍPICO DE LA DISTRIBUCIÓN
MUESTRAL DE LA MEDIA (Error de la Media) sería:

σ =

Por tanto, los intervalos entre los cuales, conociendo la media de la


muestra (), se encontrará la verdadera media de la población, al
nivel de confianza del 95% y del 99%, serán respectivamente:

Nivel de confianza del 95%

87
Nivel de confianza del 99%

En general, el intervalo de confianza viene dado por las


puntuaciones directas entre las cuales afirmamos a un nivel de
confianza dado, que se encuentra el parámetro.

Ejemplo: Supongamos que hemos extraído una muestra de 170


personas de la provincia de Vizcaya a las que se les ha propuesto un
test de valoración del lehendakari sobre 100 puntos. La media y la
desviación típica de la muestra es 76 y 9 respectivamente.

A partir de estos estadísticos se trata de inferir la media de la


población. No se conoce la media ni la desviación típica de la
población. Sin embargo, como hemos dicho antes, podemos hacer
la estimación del error típico de la distribución muestral de la media
(Error de la Media) con la siguiente fórmula:

σ =

σ =

Si se continuara extrayendo muestras de igual tamaño de la


población resultaría que la distribución de medias es normal con un
error típico estimado de 0,69. Por consiguiente, podemos decir que
el 95% de las medias de las muestras distarían menos de 1,96*0,69
= 1,35 unidades de la media de la población.

Se sabe que la media de la muestra es 76. Ahora bien, aunque esta


media sea menor o mayor que la media verdadera, la diferencia
entre esta media y la media verdadera de la población será menor
que 1,35 unidades con un 95% de probabilidades de acertar. Luego

88
puede decirse que la verdadera media de la población, con un
riesgo de equivocarnos del 5%, estará comprendida entre la la
media muestral () ± 1,96 σ. Es decir,

µ =  ± 1,96 σ = 76 ± 1,96 x 0,69 = 76 ± 1,35


(es decir, la media poblacional está entre 74,65 y 77,35)

De la misma manera puede establecer el intervalo para calcular la


media poblacional para el nivel de confianza del 99%. En este caso,
puede decirse que la verdadera media de la población, con un
riesgo de equivocarnos del 1%, estará comprendida entre la la
media muestral () ± 2,58 σ. Es decir,

µ =  ± 2,58 σ = 76 ± 2,58 x 0,69 = 76 ± 1,78


(es decir, la media poblacional está entre 74,22 y 77,78).

5.8.- Pruebas de Hipótesis.

5.8.1.- Hipótesis Nula y Razón crítica.

Todo lo expuesto anteriormente sirve para resolver hipótesis acerca


de los valores e intervalos en que pueden moverse los parámetros
de una población. La llamada prueba de hipótesis (también llamado
contraste de hipótesis) es un test estadístico que, a partir de una
muestra aleatoria y significativa, extrae conclusiones que permiten
aceptan o rechazar una hipótesis previamente emitida sobre el valor
de un parámetro desconocido de esa población. Las hipótesis
estadísticas son proposiciones acerca de los parámetros de una
población (medias, proporciones, varianza, diferencia entre medias,
etcétera) o a su distribución. Cuando llevamos a cabo este test
estadístico, estamos trabajando con lo que se llama una hipótesis
nula, que simbolizaremos como H0. Junto a ella, consideramos la
hipótesis alternativa, que queda simbolizada por H1.

La hipótesis nula (H0) sirve al investigador para establecer una


hipótesis que se considera provisionalmente como verdadera, esto
es, que no hay diferencia entre los resultados obtenidos en el test y
los resultados teóricos que se quieren confirman. Toda hipótesis

89
nula va acompañada de una hipótesis alternativa (H1), la cual
confirma el supuesto contrario de la hipótesis nula. Puesto que cada
una de estas hipótesis afirma lo contrario de la otra, es incompatible
que ambas sean ciertas. Por tanto, si llegamos a la conclusión de
que la hipótesis nula no se cumple, podemos afirmar que se cumple
la hipótesis alternativa. Y viceversa.

El ejemplo más sencillo de una prueba de hipótesis es el contraste


de hipótesis que se realiza para una media. El proceso que se sigue
es el siguiente.

a) En primer lugar, se establece una hipótesis nula (H0). En ella


suponemos que la media (µ) es igual al valor (µ0).
H0 : µ = µ0
A partir de ahí, se establece la hipótesis alternativa (H1). En ella
suponemos que la media (µ) no es igual al valor (µ0).
H0 : µ ≠ µ0 (prueba bilateral)
H0 : µ > µ0 (prueba unilateral derecho)
H0 : µ < µ0 (prueba unilateral izquierdo)

b) En segundo lugar, se define la ley de probabilidad de la población


y de la muestra, que en nuestro caso es la ley de la distribución
normal. A partir de ahí, se establece un nivel de confianza y con
este nivel de confianza se determina la zona de aceptación de la
hipótesis nula (H0), mediante un intervalo de confianza.

c) En tercer lugar, se extrae la muestra y se calcula la media


muestral ().

d) Finalmente, si el valor de la media muestral () está dentro del


intervalo, se acepta la hipótesis nula (H0), y en caso contrario se
rechaza, admitiendo la hipótesis alternativa (H1). La zona de rechazo
se denomina razón crítica.

Es importante recordar que un contraste de hipótesis no establece


la verdad de la hipótesis, sino un criterio de aceptación de la misma
y la decisión se toma a partir de una muestra y con un determinado
nivel de significación.

90
5.8.2.- Pruebas bilaterales y pruebas unilaterales.

En la resolución práctica de los casos es necesario distinguir entre lo


que se llaman “pruebas bilaterales” y “pruebas unilaterales”.

a) Las pruebas bilaterales se refieren sobre todo al cálculo del


intervalo en el cual se hallará a un nivel de confianza dado el
parámetro de la población. En este caso, evidentemente, se admite
la zona central comprendida entre dos Z determinadas (o
puntuaciones directas) según sea el nivel de confianza, y se
rechazan las dos zonas extremas ya que incluyen tan sólo un
pequeño porcentaje o probabilidad de que pueda darse el dato
hipotético propuesto. Tal como se presenta en el gráfico de la
prueba bilateral, cuando se trata de un nivel de confianza del 95%,
las dos zonas extremas de rechazo equivalen a un área de 0,025
cada una, que, traduciendo a puntuaciones Z, significa ±1,96. Estos
serán los puntos extremos admitidos y entre los ellos puede
afirmarse con 95% de probabilidades de acertar que se encontrará
el parámetro de la población.

b) Ahora bien, no pocas veces interesa conocer solamente los


valores extremos a un lado de la media, es decir, en una zona
extrema de la distribución, por ejemplo, cuando se averigua la
hipótesis de que un proceso es mejor que otro o que el parámetro
es mayor que el estadístico de la muestra. Estas pruebas se llaman
pruebas unilaterales.

En las pruebas unilaterales la región de rechazo es la zona extrema


a un lado de la distribución con un área igual al nivel de confianza
utilizado. Si se trabaja, pues, al nivel de confianza del 95% quedan

91
rechazados aquellos datos que se aparten tanto del valor central
como 1,65 (Z correspondiente a un área de 0,05) y se rechazarán
con el 95% de probabilidades de acertar.

En la siguiente tabla se dan los valores críticos de Z para pruebas


bilaterales o unilaterales según sea el nivel de confianza.

Nivel de Confianza 0,10 0,05 0,01 0,005 0,002

Valores críticos
de Z para pruebas ±1,28 ±1,65 ±2,33 ±2,58 ±2,88
unilaterales

Valores críticos
de Z para pruebas ±1,65 ±1,96 ±2,58 ±2,81 ±3,08
bilaterales

Cuando la prueba estadística a la cual hemos sometido la


investigación produzca un valor que se ubique dentro de la zona de
rechazo, dado que la probabilidad que esto suceda es muy pequeña,
se rechaza la hipótesis nula y nos lleva a la decisión de no admitirla
con el porcentaje o probabilidad de que se trate de que acertemos.
Esto sirve naturalmente tanto para pruebas bilaterales como
unilaterales.

A este valor hallado que se indica en la zona de rechazo se le


denomina significativo, es decir, diferente, que no puede darse
normalmente por azar sino por alguna razón particular.

Ejemplo de comprobación de hipótesis (prueba bilateral). Elegida


una muestra de 400 personas que son consumidoras en un
supermercado se obtiene una media de gasto diario de 33 euros,
con una desviación típica de 12 euros. Pregunta: ¿Es posible que la
media de gasto de toda la población en dicho supermercado sea de

92
36 euros, manteniendo la misma desviación típica? ¿Qué dirías de la
bondad (representatividad) de esta muestra?

Pasos para el cálculo. En primer lugar, estableceremos la hipótesis


nula (H0). Creemos que la muestra es representativa y afirmamos
que esta muestra proviene de una población de consumidores cuya
media de gasto es 36 euros y una desviación típica de 12.
H0 : µ = 36

Dado que no hay ninguna razón para pensar en qué sentido puede
ir el eventual sesgo de la muestra, la hipótesis alternativa (H1) que
realizaremos será una prueba bilateral; es decir, en caso de
rechazar (H0), diremos que la muestra proviene de una población
donde la media tiene un valor distinto a 36 euros.
H1 : µ ≠ 36

En segundo lugar, siguiendo la ley de probabilidad de la población y


de la muestra, que en este caso sería la ley de distribución normal,
calculamos entre qué valores estarán comprendidos el 95% de
todas las medias de las muestras de tamaño N=400. Si elegimos un
nivel de confianza del 95%, el intervalo sería:
36 ± 1,96 * (12/raíz cuadrada de 399) = 34,82 <  < 37,18

En tercer lugar, observamos los datos de nuestra muestra: la media


muestral ( = 33).

Finalmente, resolvemos: puesto que el estadístico cae fuera de la


región crítica (es inferior a 34,82) debemos rechazar la hipótesis
nula. Aceptamos, por tanto, la hipótesis alternativa: la media
poblacional tendrá un valor distinto a 36.

Ejemplo de comprobación de hipótesis (prueba unilateral). Elegida


una muestra de 101 estudiantes en toda España, averiguamos su
coeficiente de “conformidad” con la orientación académica de la
carrera que estudian, resultando una media muestral (=36) y una
desviación típica (s=12). Pregunta: ¿Es posible que la media de toda
la población universitaria española sea tan baja como 34?

93
Pasos para el cálculo. En primer lugar, estableceremos la hipótesis
nula (H0). Creemos que la muestra es representativa y afirmamos
que es posible que la media sea tan baja como 34.
H0 : µ ≤ 34

Dado que la hipótesis nula que vamos a realizar corresponde con


una prueba bilateral, en el caso de la hipótesis alternativa (H1)
diremos que, en caso de rechazar (H0), la muestra proviene de una
población donde la media tiene un valor mayor a 34.
H1 : µ > 34

En segundo lugar, siguiendo la ley de probabilidad de la población y


de la muestra, que en este caso sería la ley de distribución normal,
calculamos entre qué valores estarán comprendidos el 95% de
todas las medias de las muestras de tamaño N=101. Si elegimos un
nivel de confianza del 95%, el intervalo sería:
34 ± 1,65 * (12/raíz cuadrada de 100) = 32,02 <  < 35,98

En tercer lugar, observamos los datos de nuestra muestra: la media


muestral ( = 36).

Finalmente, resolvemos: puesto que el estadístico cae fuera de la


región crítica (es superior a 35,98) debemos rechazar la hipótesis
nula. Aceptamos, por tanto, la hipótesis alternativa: la media
poblacional tendrá un valor mayor de 34.

5.8.3.- Tipos de Errores: Error de Tipo I y Error de Tipo II

Al aplicar un test estadístico, la llamada prueba de contraste y


prueba de hipótesis, podemos cometer dos tipos de errores: el error
de tipo I y el error de tipo II.

El Error de tipo I (también llamado error de tipo α) se comete


cuando la hipótesis nula es verdadera pero, como consecuencia del
contraste realizado y el nivel de confianza adoptado, la hipótesis se
rechaza. Por el contrario, el Error de tipo II (también llamado error
de tipo β) se comete cuando la hipótesis nula es falsa pero, como
consecuencia del contraste realizado y el nivel de confianza
adoptado, dicha hipótesis se acepta. Naturalmente, al aplicar el test

94
ignoramos si cometemos error o no lo cometemos. Lo que sí
podemos hacer es intentar evaluar la posibilidad de cometer error
de un tipo u otro, y diseñar un experimento de modo que dichas
probabilidades de error se reduzcan al máximo.

Generalmente, la probabilidad de cometer el error de tipo I, es decir


rechazar la hipótesis nula que es verdadera, puede disminuirse
descendiendo el nivel de confianza. Por ejemplo, una hipótesis nula
verdadera es menos probable que sea rechazada al nivel de
confianza del 1% que al nivel de confianza del 5%. Pero,
desafortunadamente, en la medida en que la probabilidad de
cometer un error de tipo I decrece, la probabilidad de cometer un
error del tipo II aumenta.

Ejemplo de errores en el contraste de hipótesis. La altura media (µ)


de las mujeres en España en 1980 era 1,67m con una desviación
típica (σ) de 7cm. Emitimos la hipótesis de que las mujeres actuales
tienen la misma media. Vamos a contrastar la hipótesis mediante
una muestra de tamaño=60 con un nivel de confianza del 95%.

Se establece la hipótesis nula (H0): µ=167 y se establece la hipótesis


alternativa (H1) que, en este caso, consiste en una prueba bilateral:
µ ≠ 167.

A partir de ahí, se define la ley de probabilidad de la población y de


la muestra, que en este caso es la ley de distribución normal. Así,
calculamos entre qué valores estarán comprendidos el 95% de
todas las medias de las muestras de tamaño N=60.
167 ± 1,96 * (7/raíz cuadrada de 60) = 165,23 <  < 168,77

Si al extraer la muestra, obtenemos una media ( = 168,98)


rechazamos la hipótesis nula. Pero podemos estar equivocados. Es
decir, podemos cometer un error de tipo I.

Si al extraer la muestra, obtenemos una media ( = 168,57)


aceptamos la hipótesis nula. Si estuviéramos equivocados,
cometeríamos un error de tipo II.

95
En cualquier de los dos casos, como puede verse, el error (aunque
sea de distinto tipo) es inevitable. Ante esta situación, lo único que
podemos hacer es calcular cuáles son las probabilidades del error
que estamos cometiendo.

5.9.- Tamaño de las muestras. Muestreo aleatorio simple.

La estadística inferencia se pregunta por la bondad de una muestra


obtenida de una población determinada. Si no se cumplen una serie
de condiciones metodológicas no se podrá concluir que la muestra
procede de esa población y, en consecuencia, los resultados que
pueda ofrecer no pueden tomarse como resultados fiables o válidos
de la población total.

La teoría estadística determina cuándo una muestra puede tomarse


como representativa de una población y cuándo, por el contrario, es
una muestra sesgada con características paramétricas distintas a las
de la población de origen. El primer concepto que es necesario
manejar es el de muestras probabilísticas. Estas muestras resultan
al haber realizado un muestreo probabilístico, es decir, aquella
selección de individuos, objetos, entidades, etcétera, por medio del
azar teniendo en cuenta que mediante leyes estadísticas se
determinan de antemano tanto los elementos que han de entrar a
formar parte de la muestra como el valor y peso que se deben
conceder a sus resultados.

Una muestra no probabilística será aquella que, en general, no ha


respetado las leyes del azar y ha sido controlada o determinada de
algún modo por condicionantes externos. Estos pueden ser, entre
otros: la elección “interesada”, la elección “dirigida” y la selección de
“cuotas”.

(a) la elección “interesada” por parte del investigador de aquellos


elementos que han de opinar, como, por ejemplo, los elementos
más fáciles o más a mano para ahorrar tiempo, dinero, etc.; los que
voluntariamente o fortuitamente salen al encuentro, etcétera;

96
(b) la elección “dirigida” por parte del investigador hacia aquellos
elementos que por su mayor conocimiento o representatividad en el
problema que se ha de investigar se le antojan ser los más idóneos
y representativos de la población.

(c) la selección de “cuotas”, es decir, la selección de un número


concreto de elementos representativos de la población o, incluso, de
elementos representativos de estratos o partes distintas de la
población.

Las muestras probabilísticas tienen un cierto grado de


representatividad respecto a la población de origen, a diferencia de
las muestras no probabilísticas, que carecen de este requisito. Esto,
evidentemente, no significa que los resultados de las muestras no
probabilísticas serán inválidos o no fiables sino que con ellas no
puede determinarse hasta qué punto los parámetros de la población
se acercan o se alejan de los estadísticos calculados en la muestra.
Por el contrario, las muestras probabilísticas permiten comprobar
hipótesis o hallar los límites entre los cuales se encontrarán los
verdaderos parámetros de la población.

Un segundo aspecto a tener en cuenta en las muestras


probabilísticas es la magnitud de la población de la que se obtiene la
muestra. Si la población es finita se demuestra que el tamaño
muestral debe ser menor que si la población fuese infinita dada la
no reintegración a la población de los individuos elegidos para
formar la muestra. La distribución muestral de cualquier estadístico
(medias o desviaciones típicas muestrales) sigue la distribución
normal cuando el tamaño de la muestra tiende a infinito (en la
práctica cuando la N>30). Asimismo, suele ser relevante diferenciar
si el tamaño de la población es finito, o es infinito, porque en cada
caso el cálculo de la muestra es diferente.

Finalmente, un tercer aspecto que debemos considerar es el nivel


de confianza con que se desea investigar. Cuando el tamaño de la
muestra es pequeño las posibilidades de error por azar son mayores
que si el tamaño de la muestra es grande. Esto significa que para
calcular de antemano qué tamaño de muestra se debe tomar para
analizar una población es necesario determinar a priori qué margen

97
de error se está dispuesto a tolerar. Por otra parte, también es
necesario que se imponga el nivel de confianza con el que se quiere
trabajar. No es lo mismo, para un determinado margen de error,
trabajar al nivel de confianza del 95% o del 99%.

Así, por tanto, el tamaño de una muestra vendrá dado según sean
las poblaciones y el nivel de confianza deseado.

El tamaño de la muestra se puede calcular en función de unos datos


que se tienen previamente, en relación con una variable continua
(de la que se conocen medias y desviaciones típicas) o de una
variable de categorías (de la que se conocen porcentajes de cada
categoría). En función de una o de otra, las fórmulas para calcular el
tamaño de la muestra son:

Tamaño muestral en función de datos de media (población finita).

Tamaño muestral en función de datos de media (población infinita).

Np = tamaño de la población finita.


( X - µx ) = margen de error tolerado.
Z = puntuación típica que depende del nivel de confianza.
S = estimación de la varianza de la población.

98
Tamaño muestral en función de proporciones (población finita)

Tamaño muestral en función de proporciones (población infinita)

Np = tamaño de la población finita.


( Pm – Ppob) = margen de error tolerado.
Z = puntuación típica que depende del nivel de confianza
p = proporción de la variable en función de la población.
q = 1 – p.

99
100

También podría gustarte