Está en la página 1de 22

1

Clase de Estimación de parámetros

Estadística Aplicada a la Psicología y Psicoestadística Descriptiva

Prof. Tit. Dra. Mariela Ventura

Año 2017

Introducción

El uso principal de la inferencia estadística en la investigación empírica, es


lograr conocimiento de una gran clase de unidades estadísticas o población
(seres humanos, plantas, parcelas de tierra, tornillos, etc.), a partir de un
número relativamente pequeño de los mismos elementos de las muestras. Es
decir, conocer parámetros a partir de los estadísticos de las muestras.

Hemos dicho que los métodos de inferencia estadística emplean el


razonamiento inductivo, razonamiento de lo particular a lo general y de lo
observado a lo no observado, de la muestra a la población.

Los valores de medidas descriptivas (media, desviación típica, variancia, r


de Pearson, proporción, etc.) calculadas para las poblaciones, se
llaman parámetros. Para las muestras, estas mismas medidas descriptivas
se llaman estadísticos. Un parámetro describe una población de la misma
manera que un estadístico describe a una muestra.

Un estadísticocalculadoen una muestra es un estimador del parámetro en la


población de la cual se extrajo la muestra.La media calculada en la muestra
escogida es un estimador de la media poblacional o verdadera.

La Inferencia estadística

La teoría clásica de la Inferencia Estadística trata dos cuestiones


fundamentales:

* Estimar el valor de un parámetro desconocido, por ejemplo µ. Es


decir, ¿Cuál es el valor de la media parámetroµ?

* Verificar si un determinado valor cualquiera poblacional (µ) es o no


igual, o consistente, con cierto valor predeterminado de una muestra
( ). ¿Es razonable que este valor de la muestra se de en la
población?
2

El primero de estos dos procedimientos, de inferir de una muestra a una


población, se llama estimación de un parámetro; el segundo, en el que se
afirma acerca de un parámetropara una población y se va a una muestra se
llama, prueba de una hipótesis.

En la Estimación de Parámetros con determinadas técnicas se realiza una


predicción sobre cuáles podrían ser los parámetros de la población. En
general, se suele preferir realizar una estimación mediante un intervalo,
esto es, obtener un intervalo dentro del cual se espera se encuentre el valor
real del parámetro con un cierto nivel de confianza, a una estimación
puntual. Utilizar un intervalo resulta más informativo, porque proporciona
información sobre el posible error de estimación, que está asociado con la
amplitud de dicho intervalo.

Se establece con un determinado nivel de confianza. El nivel de confianzaes


la probabilidad de que a priori el verdadero valor del parámetro quede
contenido en el intervalo.

Entonces, el proceso inferencial comienza con

1) La selección de una muestra aleatoria, luego de definir la población


con un parámetro desconocido.
2) Encontrar un estimador del parámetro, su distribución muestral
teórica y su deviación típica.
3) Luego se obtienen los datos
4) Se calcula el estadístico – estimación- a partir del cual se realizará la
inferencia.
5) Hacer un informe con los resultados y su error muestral.

Una vez calculado el estadístico, comienza el proceso de estimación. En


este proceso -de estimación de parámetros- intervienen tres
distribuciones:

1) La distribución muestral empírica y conocida,


2) La distribución de muestreo del estadístico (teórica) y
3) La distribución poblacional (generalmente desconocida e hipotética).

Estimador y estimación

 Un estimador es un estadístico.
3

 Que sea un estadístico significa que es una función de la muestra


usada para estimar un parámetro desconocido de la población. Por
ejemplo,si en un estudio socio demográfico se desea conocer el
salario medio (el parámetro desconocido) se recogerán observaciones
del salario en distintos grupos al azar de una comunidad (la muestra)
y la media aritmética de las observaciones puede utilizarse como
estimador del salario medio.
 Un estimador es la regla usada para obtener estimaciones:puede ser
la media que es la suma de los X/n o la desviación estándar que es la
raíz cuadrada del promedio de los desvíos. Como vimos antes, un
estimador proporciona dos modos de obtener estimaciones: puntual y
por intervalos.
 El estimador nos da alguna información respecto del parámetro, o sea
una estimación. Por ejemplo, la media de la muestra, , es un
estimador de la media µ en la población.
 Para cada parámetro pueden existir varios estimadores diferentes. En
general, escogeremos el estimador que posea mejores propiedades
que los restantes, como insesgadez, eficiencia, convergencia y
robustez o consistencia.

¿Cómo debe ser la muestra?

Para que una muestra sirva adecuadamente como base para obtener
estimadores de parámetros poblacionales, debe ser representativa de la
población. No solo se debe pensar en el tamaño de la muestra sino
asegurarse estadísticamente su calidad. Es decir, que esa muestra
represente verdaderamente a la población hacia la cual se extienden los
resultados. Sabemos que un método de muestreo aleatorio asegura que la
muestra elegida sea representativa de la población y que el proceso sea
adecuado. Que sea representativa, significa que la información
proporcionada por una muestra será en mayor o menor grado, un reflejo de
la información contenida en la población. Por lo tanto podemos servirnos de
las muestras para hacer inferencias sobre la población.

El muestreo al azar de una población producirá muestras que -"a la larga”-


son representativas de la población.

Si una muestra se extrae aleatoriamente, es representativa de la población


en todos los aspectos, y el estadístico diferirá del parámetro solo por azar.
4

Otro rasgo importante de una muestra al azar es el poder estimar el grado


de error debido al azar (error de muestreo).

Distribución muestral del estadístico

Un parámetro como vimos, es un valor poblacional único, constante, que en


general se desconoce.

Para determinar su valor exacto deberíamos realizar observaciones en


todos los elementos de la población y esto, pocas veces ocurre. El costo, y
el esfuerzo que supondría sobre todo en poblaciones numerosas nos obligan
a establecer inferencias de los valores del conjunto total a partir de cifras
que se basan sólo en muestras de este conjunto.

Gracias a la distribución muestral de un estadísticoes posible realizar esta


inferencia si no podemos acceder a toda la población.

La distribución de muestreo es una distribución teórica probabilística


formada por todos los valores que puede asumir un estadístico (que hemos
dicho, es una variable aleatoria) a partir de todas las muestras aleatorias de
tamaño n que es posible extraer de una población (N) y que le asigna una
probabilidad concreta de ocurrencia a cada uno de ellos.

La distribución de muestreo de un estadístico o distribución muestral de un


estadístico en general, nos indica:

1) Todos los valores que un estadístico puede aceptar.

2) La probabilidad de obtener cada valor, bajo el supuesto de que


éstos sean obtenidos solo por azar.

Todo valor estadístico tiene una distribución muestral (la media, la mediana,
la desviación estándar, la diferencias entre medias de una misma población,
una proporción, la correlación, etc.).

Nosotros veremos en esta materia, la distribución muestral de la media, ya


que lo que estimaremos es la media parámetro o poblacional (µ), así como la
de diferencia de medias. No es la misma la distribución muestral de la
media, que de la mediana como podemos ver en estos gráficos.

Vamos a ver cómo utilizar estas distribuciones para hacer inferencias


estadísticas con una sola observación o medida estadística. Nos permite
5

evaluarel conocimiento que tenemos sobre la media de la muestra para


estimar la media de la población.

Esta puede determinarse de manera empírica y teórica Para entender lo que


significa una distribución muestral y sus propiedades la vamos a obtener
primero de manera empírica, en ejemplo ficticio e hipotético, ya que la
población estará formada por 3 elementos, es decir, N=3.

Si calculáramos la media de la población o parámetro (µ) que consta de 3


datos y su varianza esto sería sencillo.

N=3 con tres valores 1,2, y 3

Datos: 1; 2; 3

µ=6/3=2

σ2=2/3=0,66

σ= 0,66 =0,81

Ahora, si extraemos de esa población (N=3) muestras de tamaño n=2,


tendremos las siguientes combinaciones posibles de muestras, y si luego
calculamos la media para cada una de ellas, son nueve los posibles valores
del estadístico de las muestras que se pueden obtener (en este caso, las
medias):
Valores de _

las muestras X

1-1; 1

1-2; 1,5

1-3; 2

2-1; 1,5

2-2; 2

2-3; 2,5

3-1; 2

3-2; 2,5

3-3 3
6

Esta tabla nos muestra las medias de las distintas muestras. Podemos ver
las veces que las mismas se repiten. Es decir construir un cuadro de
frecuencias.

Ahora podemos construir la distribución de probabilidad de esos datos. Es


decir, la distribución de muestreo de medias en la que, en la tercera
columna se adjunta la probabilidad asociada de ocurrencia de cada

uno de esos valores o estadísticos, como vemos en la siguiente:

_
_

X F P f.X

1 1 0.11 1
1,5 2 0.22 3
2 3 0.33 6
2,5 2 0.22 5
3 1 0.11 3

N 9 1.00 18

Esta distribución de probabilidad muestra que el valor más probable es 2 y


los menos probables 1 y 3.

Una de las características o propiedades que se desprende de esto es que:

µ X =18/9=2= µ
_

La media de la distribución de muestreo de medias, es igual a la media


parámetro, µ.

Por otra parte,

σ2 X =3/9=0,33
_

σX =_
0,33  0,57

Observamos que σ2 X = σ2/n, de modo que σ= σ/ n


_

σ2/n= 0,66/2=0,33

σ= σ/ n =0,57

A través de este ejemplo de tres casos hemos podido demostrar dos


características importantes de la distribución muestral de medias:
7

1) La media de la distribución de muestreo de medias es igual a la media


parámetro
µ X =µ
_

2) La varianza de la distribución de muestreo de medias es igual al


cociente entre la varianza y n.
σ2 X = σ2/n
_

Pero a medida que las poblaciones y las muestras incluyen mayor


número de casos, el procedimiento realizado anteriormente se
complica.

Entonces, ya no se hace posible calcular empíricamente la


distribución de muestreo de un conjunto de datos numerosos.

Por ello, recurrimos entonces a la estadística teórica, a partir de algunos


teoremas matemáticos útiles como el Teorema del Límite Central y la
Ley de los Grandes Números.

1) Teorema del límite central

Los estadísticos han demostrado que si tenemos una pobla


población cuyas
observaciones se distribuyen normalmente (µ; σ2), si se extraen
numerosas muestras del mismo tamaño n al azar, la distribución muestral
de medias es una curva normal con media µ y una variancia σ 2=σ 2/n,
_

X
_

X X
_

por lo tanto la desviación estándar (que se llama error estándar) es σ =σ X


_ _

/√n.

Esto es lo que dice lo que se suele llamar Teorema del límite central o
central del límite:

“Si se sacan repetidas muestras de tamaño n de una población con media µ


y variancia σ2, la distribución muestral de las medias será normal con media
µ y variancia σ 2=σ 2/n o desviación estándar (que se llama error estándar)
_

X
_

igual a σ =σ /√n ”.
_

X
_

X
8

La desviación típica de una distribución de muestreo de medias, es una


medida del error muestral (error estándar), de las fluctuaciones al azar, es
decir en el cálculo de cada media de la muestra. Este error es inversamente
proporcional al tamaño de la muestra. Si se aumenta el tamaño de la
muestra la dispersión disminuye. Lo simbolizaremos como σ , que es σ /√n.
_

X
_

Es decir, que la distribución muestral de medias se asemeja a la distribución


normal de probabilidades: Cuanto mayor sea el número de casos más
leptocúrtica será la distribución muestral como se ve en la figura:

Lo que se puede ver aquí también es que a medida que n aumenta,


disminuye la desviación.

En efecto, el tamaño muestral (cantidad de casos o n) se encuentra


íntimamente relacionado con el error típico de una distribución muestral.
Hemos visto que σ2 = σ2/n, lo cual significa que a medida que n va
_

aumentando la varianza de la distribución muestral va disminuyendo.

2) La Ley de los grandes números


Ofrece una información adicional este Teorema, y dice que
“independientemente de la forma de la distribución de la población, a
medida que n aumente, la distribución será normal con media µ y variancia
σ2/n.

Pero por más maravilloso que sea el Teorema del Límite Central presenta
como mínimo dos problemas:

1) Depende de un tamaño muestral muy grande;

2) Para utilizarlo, necesitamos conocer σ, la desviación típica


poblacional.

Pasaje de la distribución real a una distribución normal (muestras grandes)

Recordemos que cuando estudiamos la distribución normal vimos que era


posible el pasaje de una distribución real a la distribución normal expresada
en términos de puntajes z o puntajes típicos (desvíos reducidos de z), de
manera que un valor cualquiera de la variable X (normal) tenía un valor
determinado z.

X X
z= o bien, (valor X respecto a la media)

9

X 
Lo mismo con el estadístico (media de las muestras)= (media
x
respecto a la parámetro)

Ahora bien, si la media (estadístico) de la muestra es una variable aleatoria,


también se distribuye normalmente, y se puede transformarla a la variable

tipificada z= X  µ / σ X , la que se distribuirá N (0, 1). Esto significa que


_

podemos utilizar la distribución normal estandarizada para conocer las


probabilidades asociadas a los diferentes valores del estadístico X . _

En general, los parámetros son desconocidos, y tenemos que hacer la


inferencia para los valores de la población a partir de los datos de la
muestra únicamente.

1) Distribución muestral de medias cuando se desconoce σ, las muestras


son grandes s y se extraen de manera aleatoria simple

Si las muestras son grandes (N≥30 casos) la distribución de muestreo de


medias es normal se asemeja a la distribución normal de probabilidades y
esa similitud crece a medida que n aumenta (ley de los grandes números)
independientemente de la forma de la población; a su vez, s es una buena

estimación de σ, y en consecuencia s/ n es una buena estimación del error


estándar de la media. Como en este caso se estima σ, el error estándar de la

media lo representaremos con sigma con copete σ X = s/ n .


_

Ahora bien, la distribución muestral de la medias es distinta para muestras


grandes (igual o mayor de 30 casos) o muestras pequeñas (menor de 30).

A menudo las muestras son pequeñas y normalmente se desconoce σ. Lo


que podemos hacer en este caso, es estimar, usando la desviación típica de
la muestra (s). Hemos visto que la distribución de las medias de las
muestras no son todas normales, que dependen de su tamaño.

En el caso de que las muestras son pequeñas, en lugar de la variable


aleatoria


= . Y definimos una nueva variable aleatoria t. Por ello, en las muestras

más pequeñas usamos la distribución t como modelo teórico.


− μ
=

10

La distribución muestral de medias tiene la forma de la distribución normal


si se extrae de una población normal. Igualmente, si la forma no es normal a
medida que la n aumente, la distribución muestral será normal.

1) Distribución muestral de medias cuando se desconoce σ, las muestras son


pequeñas y se extraen de manera aleatoria simple
Cuando el número de casos es pequeño (n<30 casos), la distribución de
muestreo de medias no se asemeja a la curva normal, es más achatada en el
medio y más elevada en los extremos y la diferencia es mayor a medida que
los casos de la muestra disminuye. En estos casos la distribución de
muestreo se distribuye según otro modelo probabilístico que es el de la
distribución t de student, introducida por Gosset bajo el seudónimo de
student.

Comparemos:

Z= X  µ / σ/ n

t= X  µ / Sn/ n -1

Observemos que los numeradores son idénticos pero los denominadores


difieren en que en t, la σ es reemplazada por s y n, por n-1. Se puede hacer
esa corrección en el cálculo del error o en el de la desviación estándar. Si
se hace en uno, no se hace en el otro (n-1).

Sabemos que para estimar σ se hace a partir de s de la muestra, y que los


desvíos se calculan en relación con la media de la muestra. Debemos tener
en cuenta que tenemos n-1 valores que pueden variar libremente para que
la suma de los desvíos con respecto a la media sea igual a 0. Esto está
relacionado con los grados de libertad (gl).
Hay una regla que dice: “Cuando un estadístico se usa para estimar un
parámetro, los grados de libertad (libertad de variar) dependen del número
de restricciones impuestas sobre las observaciones. Por cada restricción
impuesta se pierde un grado de libertad”.

La desviación estándar (s) de una muestra es una buena estimación de σ


cuando n es grande, no sucede lo mismo cuando n es pequeña, a menos que
en el cálculo de s se consideren los grados de libertad (n-1). Del mismo
modo para obtener una buena estimación del error estándar de media se
consideran los grados de libertad porque s interviene en su fórmula.
11

S X =S/ n -1
_

Si el cálculo ya lo toma en cuenta en la s no se llo repite en el error


estándar.

Características de la distribución t de student

Student es un seudónimo que utilizó un inglés llamado Gosset


Gossetquien elaboró
el modelo de la curva de t en 1908, y le puso así en honor a su maestro, el
famoso estadístico Fisher
Fisher.

Es una distribución más chata y aplanada que la distribución normal, más


platicúrtica
cúrtica y esto dependerá del tamaño de la muestra. Si n es muy
pequeña, la distribución t será más chata. Por lo tanto, hay una distribución t
para cada tamaño de muestra.

Para usar t debe suponerse siempre que la distribución de la población es


normal, especialmente
specialmente si n es muy pequeño.

Se trata de una familia de curvas porque hay una distribución t por cada
número diferente de grados de libertad. A medida que aumentan los grados
de libertad la distribución se asemeja cada vez más a la normal, tal como s
se
observa en el gráfico siguiente:

En los problemas, la distribución de t se usa igual que la distribución normal.


Así sabemos que en la tabla en la distribución normal, el área central del
95% está entre ±1,96 y la de 99% entre ± 2,58. En la tabla de t e
esos
valores son distintos y han sido calculados para los d
distintos Grados de
Libertad (se los busca en tabla de puntajes t)

Conociendo estos conceptos ahora podemos ir a la Estimación de


Parámetros

Estimación de parámetros
12

Una estimación de parámetros es el procedimiento utilizado para


conocer las características de un parámetro poblacional, a partir
del conocimiento de la muestra.

Tenemos dos tipos de estimación de parámetros:

1) Estimación puntual

Constituye la más simple de las inferencias estadísticas. Consiste en asignar


directamente un valor muestral concreto –estadístico- al parámetro
poblacional que se desea estimar. Esuno de los métodos de estimación más
simples ideado por Pearson. Un estimador puntual es un único punto o valor,
el cual se considera va a estimar a un parámetro. La expresión E ( )
= me sugiere que ese, un único valor de es un estimador puntual
insesgadoo no viciado de µ.

Para ejemplificar lo anterior, supongamos que evaluadores externos en una


universidad están interesados en conocer el CI promedio de los profesores.
Se toma la muestra aleatoria y el promedio es de 135. El estimado sería
entonces 135. El valor de 135 se llama estimado puntual porque utiliza solo
un valor para la estimación. Si en cambio le preguntáramos a estos
evaluadores si creen que la media verdadera es de 135, lo más seguro es
que dirían que no. entonces, ¿cuán cerca está 135 de la media poblacional?

El problema con la estimación puntual es que dado un parámetro concreto


siempre es posible disponer de más de un estadístico diferente para
efectuar una estimación del mismo. Y no hay una forma natural de
determinar cuál de ellos es el ideal para efectuar una estimación concreta.
Se hace necesario por lo tanto, determinar cuáles son las características de
un buen estimador.

Estimación por intervalo de confianza


Se basa en un rango de valores entre los que se espera se pueda encontrar
el verdadero valor del parámetro con una probabilidad alta y conocida.

Un estimador por intervalo se construye sobre el concepto de un estimador


puntual, pero además, proporciona algún grado de exactitud del estimador. Y
se estima con un error determinado.

Es decir que
13

 el nivel de confianza es la probabilidad de que el parámetro a


estimar se encuentre en el intervalo de confianza.p= 1 - α
 El nivel de significación se designa mediante α. La
construcción de este tipo de intervalos sólo cabe para las muestras
probabilísticas. Las distintas fórmulas del error estándar según el
diseño de la muestra sirven como poderosos instrumentos para
establecer estimaciones por intervalo de confianza.
Convencionalmente suelen utilizarse intervalos que tienen un nivel de
confianza de 0,95 o de 0,99.
 Como vimos, el tamaño del intervalo está controlado por el nivel de
confianza 1-α (es como el radio que establezco en la diana) y el
tamaño de la muestra (n).

Como ya dijimos el estadístico solo tiene una distribución


aproximadamente normal cuando se calcula utilizando una muestra muy
grande (30 o más).Para muestras más pequeñas, se va a utilizar la
distribución t de student. Ya dijimos que la distribución t es más dispersa
que la normal y que la cantidad de dispersión depende del tamaño de la
muestra.

Gosset calculó tablas de la distribución t para diferentes tamaños


muestrales, donde encontramos también los valores críticos de acuerdo a
los Gl y el nivel de confianza. Como la curva de t es más plana que la
normal, el valor de t que delimita se encuentra más lejos que 0 o que z0,025.
Cuanto más grados de libertad, más se aproxima al valor crítico de z para el
mismo nivel de confianza.

Si hablamos con exactitud, la derivación de la distribución t depende de la


presunción de que la muestra era de una población normal, pero incluso dan
buenos resultados cuando la forma de la distribución poblacional no es muy
normal.
14

Propiedades de un buen estimador

Para que un estadístico pueda ser considerado un buen estimador debe


reunir determinadas propiedades, entre ellas:
1. Debe ser insesgado
Parece razonable pensar que un buen estimador debe cumplir como
primera propiedad la de ofrecer estimaciones correctas. Podemos
esperar de un buen estimador que ofrezca al menos, como promedio,
estimaciones correctas. A esta propiedad de obtener como promedio
estimaciones correctas, se le llama carencia de sesgo. Un estimador
es insesgado si su valor esperado coincide con el parámetro que
estima.
Es decir, un estimador es insesgado cuando el valor de la media de la
distribución muestral del estadístico es exactamente igual al valor del
_
parámetro por estimar. Por ejemplo, X es un estimador insesgado de

µ porque µ X =µ_

2. Debe ser eficiente

Un estimador es tanto o más eficiente cuanto menor es su varianza.


Supongamos que disponemos de dos estadísticos (la media estimador 1,
y la mediana estimador 2, por ejemplo) para estimar la media poblacional.
Decimos que el estimador 1 es más eficiente que el 2 si la varianza del 1

es menor que la del 2. Una mayor eficiencia, por lo tanto indica que un
estadístico varía menos de muestra en muestra por lo que las
estimaciones que se pueden hacer con él serán más precisas que las
efectuadas con un estimador menos eficiente.

Tirador insesgado y eficiente

Tirador eficiente pero sesgado

Lo cierto es que si un estimador insesgado, ofrece en promedio


estimaciones correctas si ese estimador no es eficiente (es decir, si su
varianza es muy grande) nos encontraremos que muchas de esas
15

estimaciones están muy por encima del verdadero valor, y otras muy por
debajo. Aunque se estén contrarrestando entre unas y otras para ofrecer
una estimación promedio correcta, podríamos estar cometiendo un error
muy grande al usar una de esas estimaciones. De ahí la importancia de que
un buen estimador debe ser además de insesgado, eficiente.

La media es un estimador es un estimador insesgado y eficiente de la media


parámetro, más que la mediana (insesgada, pero no eficiente).

Tiene otras propiedades que se deben dar como la consistencia y la


suficiencia, pero solo veremos las dos anteriores que son las más
importantes.

Estimación de µ por intervalos de confianza

Para poder estimar la media de la población µ debemos especificar un


intervalo dentro del cual podemos afirmar con cierto grado de confianza
conocido que está la media de la población. Definamos entonces un intervalo
de confianza como un rango de valores que es probable que contenga el
valor poblacional; en tanto que los límites de confianza son los valores que
delimitan el intervalo de confianza.

Llamaremos coeficiente de confianza o nivel de confianza a la probabilidad


asociada al mismo. Llamaremos límites de confianza a los dos valores
extremos del intervalo. Vamos a ver cómo la distribución muestral de un
estimador (en este caso la media) nos permite determinar la amplitud del
intervalo de confianza o confidencial y el correspondiente coeficiente
confidencial o “nivel de confianza” como también se lo suele llamar.

Si tenemos la media de la muestra y queremos estimar, a partir de ella, la


media parámetro µ, usaremos el error estándar de la distribución de
muestreo de medias, nos fijamos un nivel de significación α, o sea un riesgo
máximo en la estimación (0,05 o 0,01), y usaremos la siguiente fórmula
siempre y cuando las muestras sean grandes:

 s
  X  z.
n

1-α= p (µ+ zα/2. σ2/n< X < µ+ -zα/2. σ2/n)

Podemos ser más exactos y definir los intervalos con un grado determinado
de confianza (95% y 99%). Un intervalo de confianza del 95 % es uno tal que
16

hay una probabilidad del 95 % que contenga a la media parámetro y 5 % de


error. Uno de 99% goza de una probabilidad de 0,99 y 1% de error.

Aquí vemos los intervalos cuyos límites pueden quedar afuera.

Entonces, una vez que ya hemos calculado el estadístico (la media, por
ejemplo) comenzamos el proceso de estimación del parámetro (esto es, la
media poblacional). Para ello nos basaremos en tres distribuciones: la de la
muestra , que es empírica; la de la población que es generalmente
desconocida e hipotética y la distribución muestral del estadístico que es
probabilística, y que es la que nos permite el pasaje de la muestra a la
población al permitirnos estimar el parámetro.

Habrá siempre una discrepancia entre el valor muestral y el valor del


parámetro que se desea estimar. Llamaremos error muestral a esa
discrepancia. En la estimación puntual no hay forma de conocer el valor del
error por lo que no sabemos si el error que estamos cometiendo es grande
o pequeño. Y sin embargo, cualquier investigador necesita conocer la
precisión con la que está trabajando, y por lo tanto, el error. Este tema
puede resolverse procediendo a través de la estimación por intervalos.

Procediendo de esta forma es posible conocer el error muestral máximo


(Emáx) cometido en la estimación, es decir, el tamaño de la distancia máxima
que con una determinada probabilidad esperamos exista entre el verdadero
valor del parámetro estimado y el valor del estadístico utilizado como
estimador.

Entonces, en la estimación por intervalos, se trata de obtener dos valores


que permitan afirmar que existe una alta probabilidad de que el verdadero
valor del parámetro se encuentra entre esos dos valores.
17

Para obtener esos valores, a un estimador puntual (el estadístico de la


muestra) se le suma y se le resta una cantidad (Emáx) relacionada con el
error típico de su distribución muestral. Por lo tanto para realizar la
estimación por intervalos necesitamos utilizar estimadores con distribución
muestral conocida.

Errores que se pueden cometer en la estimación de parámetros:

Hay dos tipos de errores que se pueden cometer al estimar un intervalo de


confianza: debidos al azar y no debidos al azar

 Errores debidos al azar

Sabemos que ningún subconjunto de datos mide exactamente al conjunto


total del que forma parte. El grado de error al que se incurre al extender
los resultados de una muestra probabilística a la población se puede
establecer a partir del error estándar. Este error mide las variaciones
debidas al azar, es decir, los errores de muestreo que son los errores de
muestra en muestra o casuales (que son los errores que eventualmente
pueden afectar las mediciones). Por supuesto que cuanto menor es su
valor mayor es la precisión en la inferencia, de allí la importancia en
determinarlo.

 Errores no debidos al azar

Tanto en un censo cuando se examina la población completa como en un


muestreo cuando se toma una porción de la población pueden deslizarse
errores no casuales, asociados con que la población no está bien definida,
hubo fraude, cansancio, etc. El error estándar no descubre este tipo de
descuidos no accidentales como tampoco el derivado de una selección
inapropiada de las muestras. Si no se tienen en cuenta estos errores puede
que hagamos un esfuerzo considerable incluso económico para conformar
muestras más grandes, y esto no sirva de nada.

Pasos para calcular el intervalo de confianza

1) Cuando se desconoce sigma, muestras grandes (≥ 30 casos)

*Estimación por intervalo de confianza: el valor de µ se encuentra en algún


punto de un intervalo de valores con una probabilidad alta y conocida.
Cuando hacemos este tipo de razonamientos, suponemos que la distribución
de la media muestral es aproximadamente normal (porque es grande, mayor
18

de 30 casos) con media µ y desviación típica σ= , que recibe el nombre de


error estándar, o error típico de muestreo. Como no conocemos el valor de


sigma, lo sustituimos por s (es decir, la desviación típica o estándar de la
muestra elegida). Entonces tenemos un sigma estimado, no conocido, que

lo nombramos con el término = .


Pasos
 Establecer el nivel de confianza (por lo general de 0,95 o de
0,99)
 Calcular el error estándar estimado (porque no se conoce y se
usa s) de la distribución de muestreo de medias, que es igual a
s sobre raíz cuadrada de n. Calcular el error estándar de X _

donde eσ =s/√n

 Determinar el valor de z que delimita el área de la distribución


muestral de medias (normal) asociada con la probabilidad del nivel de
confianza establecido.
 Se calcula el error máximo, que es igual a / z/ por el error
estándar.
 Determinar el Li (Límite inferior) que es igual al estadístico
menos el error máximo.
 Determinar el Ls (Límite superior) que es el estadístico más el
error máximo.
 Establecer el intervalo de confianza entre esos dos valores.
o µ= X ± z. σ/√n
_

Nivel de Z
confianza
0,95 ±1,96
0,99 ±2,58

Por ejemplo para construir un intervalo de confianza del 95 %;


µ= X ±1,96 .σ X
_
_
19

Veamos un ejemplo,

Así supongamos que para una muestra de 100 casos, la media sea de 20
puntos. Como no conocemos el σ de la población, en este caso lo que
tenemos es el desvío de la muestra, y hacemos el supuesto que es la mejor
estimación posible de la desviación estándar de la población. Usamos, para
estimar el error estándar de la distribución de muestreo de medias, la “s” de
la muestra que es =5. Entonces σX, que es 5/√100=5/10=0,5

Ahora ya tenemos todos los datos que necesitamos

X =20

n=100

s=5

σ =0,5
X

Podemos establecer un intervalo de confianza para establecer los límites


entre los cuales se encuentra con un cierto grado de probabilidad (en este
caso de 0, 95) la media parámetro, dado que sabemos que la distribución
muestral de medias es normal. Gráficamente vemos que si el intervalo es
del 95%, quedan fuera 5% dividido en 2,5 para cada lado o 0,025.

Si se resta el 50% que corresponde a la mitad de la curva, ese segmento de


0,025= 0,475; buscamos esa área en la tabla y corresponde a un z de 1,96.
Del otro lado de la curva, lo mismo nada más que el z es negativo, de -1,96.

Calculemos los límites entonces:


20

µ = X ±1,96.s/√n

µ= X ±1,96. 0, 5=

20±0,98

O sea que la µ se encuentra con un 95% entre los valores 19, 01 y 20,
98 con un 5% de error.

Si queremos establecer límites más exactos, por ejemplo, podemos


fijar el 99%. Entonces busquemos en la tabla de puntajes z, esto
corresponde aun z de 2, 58, y -2,58. Estos valores de z se usan siempre
que una muestra sea considerada grande o mayor de 30 casos.

µ = X ±2,58.s/√n

µ= X ±2,58. 0, 5=

20±1,29

18,71 y 21,29

Concluimos que entre 18,71 y 21,29 se encuentra la media parámetro


con un 99% de confianza y 1% de error.

1) Cuando se desconoce σ; n ˂ 30 y el muestreo es aleatorio simple

*Estimación por intervalo de confianza: rango de valores entre los


que probablemente se encuentra µ.
Pasos
 Establecer el nivel de confianza 1-α (por lo general de 0,95 o
de 0,99).
 Para el nivel de confianza establecido y gl=n-1; determinar el
valor absoluto de t (ver en Tabla de Puntajes t).
 Calcular el error estándar de la distribución de muestreo de la
media (estadísticos): eσ =s/√n-1
 Calcular el error máximo que es /t/. eσ
 Establecer el Li (Límite inferior): X -t .s/√n1-1

 Establecer el Ls (Límite superior): X +t .s/√n1-1


 Valores críticos de t asociado con la probabilidad del
nivel de confianza y de acuerdo a los gl=n-1 (se busca
en Tabla de puntajes t)
µ= X ±t.s/√n-1
_

Veamos un ejemplo,
21

Supongamos un caso con n=16; X =24; s=8.

Los grados de libertad son n-1=16-1=15; tendremos que la verdadera


media con una probabilidad del 95% estará entre

8
24±2,13.
16  1

24±4,41, o sea,

Entre 19,58 y 28,41 se encuentra la media parámetro con una


probabilidad de certeza del 95% y un riesgo de error de 5%.

Entre 17,89 y 30,11 se encuentra la media de la población o


parámetro con un 95 % de confianza y un 5 % de error.

Tabla de puntajes t
Gl Probabilidad
0,10 0,05 0,02
0,01


25 2,06 2,79

….

En esa tabla se ubican para determinados grados de libertad asociados con


el tamaño de la muestra. El valor aparece positivo, pero sabemos que es el
mismo con signo negativo. Para ello, también debemos determinar el nivel
de confianza con el que lo haremos.
En este caso el IC= µ= X ± 2,06.s/√n-1.
_

Veamos un ejemplo:

Un estadístico se dice que no es segado o parcial cuando la media de una


gran cantidad de valores muestrales por muestreo repetido, se acerca al
valor de la población, o sea, al parámetro. Ya vimos que el estadístico de la
media de la distribución muestral es igual a la media de la población, es
decir, no tiene parcialidad o sesgo, en cambio, el valor de la variancia de
22

una muestra calculada según la fórmula común: s2= ( X  X ) es una


n

estimación parcial o segada de la variancia de la población. En el caso de


que la muestra sea grande no hay problemas, pero en el caso de que la
muestra sea pequeña (menor de 30 casos), hay que corregir este sesgo que
puede ser muy grande y lo que se hace es dividir en n-1, la fórmula

( X  X )
entonces queda: s2= , de modo que así tendremos una estimación
n 1
imparcial de la σ poblacional.

El uso de (n-1) para obtener una estimación no sesgada implica el concepto


de Grados de Libertad. Si n es el número de las observaciones de la
muestra, n-1 es el número de grados de libertad, es decir, la cantidad, de
valores de la variable que tenemos libertad para cambiar cuando calculamos
los desvíos.

Supongamos que tenemos 5 medidas: 10, 14, 6, 5, 5. Su media es 8, luego


los desvíos respecto de la media es 2, 6, -2, -3,-3. La suma de los desvíos
respecto a la media es 0. En consecuencia, si se conocen 4 cualesquiera de
estos desvíos, el desvío restante está determinado. Así 4 de los desvíos
pueden variar independientemente y por esto, sus Grados de Libertad son 4;

n-1= 5-1=4. Se usa el símbolo gl.

El concepto de grados de libertad es simple. El número de grados de


libertad es siempre el número de valores que puede variar dadas la cantidad
de restricciones impuestas en los datos.

También podría gustarte