Está en la página 1de 19

1

Estimación de parámetros

Estadística Aplicada a la Psicología

Psicoestadística Inferencial

Facultad de Psicología (UNT)

2020

Dra. Mariela Ventura

Introducción

El uso principal de la inferencia estadística en la investigación empírica, es


lograr conocimiento de una gran clase de unidades estadísticas o
población (seres humanos, plantas, parcelas de tierra, tornillos, etc.), a
partir de un número relativamente pequeño de los mismos elementos de
las muestras. Es decir, conocer parámetros a partir de los estadísticos de las
muestras.

Para determinar el valor exacto de un parámetro deberíamos realizar


observaciones en todos los elementos de la población y esto pocas veces
ocurre, pues el costo y el esfuerzo requeridos –sobre todo si se trata de
poblaciones muy numerosas nos obligan a hacer inferencias de los valores
del conjunto total a partir de una muestra de ese conjunto. Ya hemos
dicho que los métodos de inferencia estadística emplean el razonamiento
inductivo, razonamiento de lo particular a lo general y de lo observado en
las muestras, a lo no observado, en la población.

Los valores de medidas descriptivas (media, desviación típica, variancia, r


de Pearson, proporción, etc.) calculadas para las poblaciones, se
llaman parámetros. Para las muestras, estas mismas medidas descriptivas se
llaman estadísticos y se designan con , en el caso de la medida de la
media de la muestra, por ejemplo, o s, es la s de la muestra . Un parámetro
describe una población de la misma manera que un estadístico describe a
una muestra, y se designa con letras griega, µ (mu) cuando se trata de la
media parámetro, o sigma, σ, cuando se trata de la desviación estándar
en la población.

Un estadístico calculado en una muestra es un estimador del parámetro en


la población de la cual se extrajo la muestra. Así, la media calculada en la
muestra escogida es un estimador de la media poblacional o verdadera.
2

En la Estimación de Parámetros con determinadas técnicas se realiza una


predicción sobre cuáles podrían ser los parámetros de la población. En
general, se suele realizar una estimación mediante un intervalo –un
intervalo de confianza- y al procedimiento de obtener un intervalo [en el
que se establecen dos límites a,b –uno inferior y otro superior] dentro del
cual se espera esté el valor real o verdadero del parámetro con un cierto
nivel de confianza –confiabilidad de un estadístico- es preferible con
respecto a una estimación puntual, en la que se estima solo a partir del
estadístico. Por supuesto que utilizar un intervalo resulta más informativo y
confiable puesto que proporciona información sobre el posible error de
estimación, asociado con la amplitud de dicho intervalo.

Cuando calculamos este intervalo de confianza lo hacemos con un


determinado nivel de confianza, es decir, establecemos a priori la
probabilidad de que el verdadero valor del parámetro quede contenido
en el intervalo.

Entonces, para realizar la inferencia del parámetro hay que tener en


cuenta los siguientes pasos:

1) Seleccionar una muestra aleatoria, luego de definir la población con


un parámetro desconocido.
2) Obtener los datos de la muestra
3) Calcular el estadístico a partir del cual haremos la inferencia del
parámetro equivalente.

Una vez calculado el estadístico, que puede ser la media, por ejemplo,
comienza el proceso de estimación, en el que participan tres
distribuciones:

1) La distribución muestral empírica y conocida,


2) La distribución de muestreo del estadístico (teórica)
3) La distribución poblacional (generalmente desconocida e
hipotética).

El paso final es la estimación del probable valor del parámetro a través de


fórmulas específicas. De las tres distribuciones señaladas anteriormente la
distribución de muestreo, teórica y probabilística es la que posibilita el
pasaje de la muestra a la población, por lo que les prestaremos especial
atención.

Distribución muestral de un estadístico


3

La distribución de muestreo es una distribución teórica probabilística


formada por todos los valores que puede asumir un estadístico (que hemos
dicho, es una variable aleatoria) cuando se calcula de de todas las
muestras aleatorias de tamaño n que es posible extraer de una población
(N) y que le asigna una probabilidad concreta de ocurrencia a cada uno
de ellos. Las distribuciones de probabilidad se asemejan a las distribuciones
de frecuencias relativas, pero mientras que en las de probabilidad, son
teóricas en las de frecuencias relativas las probabilidades son empíricas.

La distribución de muestreo de un estadístico o distribución muestral de un


estadístico en general, nos indica:

1) Todos los valores que un estadístico puede aceptar.

2) La probabilidad de obtener cada valor, bajo el supuesto de que


éstos sean obtenidos solo por azar.

Todo valor estadístico tiene una distribución muestral (la media, la


mediana, la desviación estándar, la diferencias entre medias de una
misma población, una proporción, la correlación, etc.).

Nosotros veremos en esta materia, la distribución muestral de la media, ya


que lo que estimaremos es la media parámetro o poblacional (µ), así como
la de diferencia de medias (µ1- µ2) .

Veamos el caso de la distribución muestral del estadístico de la media.

Estas distribuciones nos permiten estimar la media de la población a partir


de la media de la muestra.

Para entender lo que significa una distribución muestral y sus propiedades


la vamos a obtener de manera empírica, en un ejemplo ficticio e
hipotético, ya que la población estará formada por 3 elementos, es decir,
N=3, cosa que casi es imposible que sea de tan pocos casos.

Si calculáramos la media de la población o parámetro (µ) que consta de 3


datos y su varianza esto sería sencillo.

N=3 con tres valores supuestos: 1,2, y 3

Datos: 1; 2; 3

µ=6/3=2 (media parámetro o de la población)

σ2=2/3=0,66 (Varianza de la población)


4

σ= 0,66 =0,81 (desviación estándar de la población)

Ahora, si extraemos de esa población de tres elementos (N=3) muestras de


tamaño n=2, tendremos las siguientes combinaciones posibles de muestras
(9 en total), y si luego, de cada muestra extraída calculamos la media
para cada una de ellas, son nueve los posibles valores del estadístico de
las muestras) que se pueden obtener en este caso como se observa en la
tabla:

Distribución de medias de muestras

_
Valores de
las muestras
X
1-1; 1

1-2; 1,5

1-3; 2

2-1; 1,5

2-2; 2

2-3; 2,5

3-1; 2

3-2; 2,5

3-3 3

Esta tabla nos muestra las medias de las distintas muestras. Podemos ver las veces
que las mismas medias se repiten. Es decir construir un cuadro de frecuencias de las
medias. Luego, podemos construir la distribución de probabilidad de esos datos. Es
decir, la distribución de muestreo de medias en la que, en la tercera columna se
adjunta la probabilidad asociada de ocurrencia de cada uno de esos valores o
estadísticos, como vemos en la siguiente:

F P
_ _
X f.X

1 1 0.11 1
1,5 2 0.22 3
2 3 0.33 6
2,5 2 0.22 5
3 1 0.11 3
N 9 1.00 18
5

Esta distribución de probabilidad de las medias de muestras muestra que el


valor más probable es 2 (pues su frecuencia es 3) y los menos probables son 1 y
3 (con una frecuencia de 1 cada uno). Hemos visto que los valores posibles en
ese caso eran de 9, y que luego se le podía asociar una probabilidad de
ocurrencia mediante la fórmula conocida de probabilidad que consiste en:
Número de veces que puede esperarse que ocurra un resultado/Total de los
resultados posibles. Por ejemplo, la probabilidad de que ocurra el resultado 3 es
igual a la cantidad de veces que ocurre ese suceso (1), sobre la totalidad de los
resultados posibles (9), esto es 1/9.

Recordemos los datos calculados en la población sobre la media, la varianza y


la desviación estándar para hacer las relaciones:

µ=6/3=2

σ2=2/3=0,66 (Varianza de la población)

σ= 0,66 =0,81 (desviación estándar de la población)

Ahora, si calculamos la media de la distribución de muestreo de medias (la


media de las medias) obtenemos:

µ X =18/9=2= µ
_

Y la varianza de la distribución de muestreo de medias como la desviación


estándar de esta misma distribución (error estándar) de muestras de n=2,
observamos lo siguiente:

σ2 X =3/9=0,33 (varianza de la distribución de muestreo de medias)


_

σX = _
0,33  0,57 (desviación estándar de la distribución de muestreo de

medias)

Entonces encontramos dos características de la distribución de muestreo de


medias:

1)

µ X =18/9=2= µ
_

Es decir, que la media de la distribución de muestreo de medias, es igual a la


media parámetro, µ.

2) σ2 X =σ2/n =0,66/2=0,33; En consecuencia σ X = σ/√n


_ _
6

Observamos que σ2 X (varianza de la distribución de muestreo de medias)


_

= σ2/n (varianza poblacional sobre n) de modo que, desviación estándar


de la población, σ= σ/ n (deviación estándar de la población sobre raíz
cuadrada de n).

En nuestro ejemplo, σ2/n= 0,66/2=0,3

σ= σ/ n =0,57

A través de este ejemplo de tres casos hemos podido demostrar dos


características importantes de la distribución muestral de medias:

1) La media de la distribución de muestreo de medias es igual a la


media parámetro
µ X =µ
_

2) La varianza de la distribución de muestreo de medias es igual al


cociente entre la varianza y n.
σ2 X = σ2/n
_

En consecuencia, σ= σ/ n (desviación estándar de la distribución


de muestreo de medias)

A medida que las poblaciones y las muestras incluyen mayor número de casos,
el procedimiento realizado anteriormente se complica. Entonces, ya no se hace
posible calcular empíricamente la distribución de muestreo de un conjunto de
datos numerosos y, recurrimos entonces a la estadística teórica.

Así si queremos estimar µ a partir de X , nos basamos para determinar las


_

características de la distribución muestral de medias en algunos teoremas


matemáticos útiles como el Teorema del Límite Central y la Ley de los Grandes
Números que nos ofrece información adicional.

1) Teorema del límite central

Los estadísticos han demostrado que si tenemos una población cuyas


observaciones se distribuyen normalmente (µ; σ2), si se extraen numerosas
muestras del mismo tamaño n al azar, la distribución muestral de medias es una
curva normal con media µ y una variancia σ 2=σ 2/n, por lo tanto la desviación
_

X
_

X
_

estándar (que se llama error estándar) es σ =σ /√n.


_

X
_

Como podemos ver, la desviación típica de una distribución de muestreo de


medias, es el error muestral, llamado error estándar, que mide las fluctuaciones al
azar, en el cálculo de cada media de la muestra. Como puede deducirse de la
fórmula, este error es inversamente proporcional al tamaño de la muestra por lo
7

que si se aumenta el tamaño de la muestra la dispersión disminuye. Lo


simbolizaremos como σ , que es σ /√n.
_

X
_

Lo que dice también este Teorema es que la distribución muestral de medias se


asemeja a la distribución normal de probabilidades: “Cuanto mayor sea el
número de casos más leptocúrtica será la distribución muestral”, tal como puede
verse en la figura:

2) La Ley de los grandes números


Dice que “independientemente de la forma de la distribución de la población,
a medida que n aumente, la distribución será normal con media µ y variancia
σ2/n.

Estimador y estimación

 Un estimador es un estadístico.
 Que sea un estadístico significa que es una función de la muestra (se
calcula de los valores de la muestra) para estimar un parámetro
desconocido de la población.
 Un estimador es la regla usada para obtener estimaciones: por
ejemplo, para calcular la media se debe sumar todos los valores de
X y dividirlos en el número de casos ∑X/n o para la desviación
estándar decimos: es la raíz cuadrada del promedio de los desvíos.
Un estimador proporciona dos modos de obtener estimaciones:
puntual o por intervalos.
 Para cada parámetro pueden existir varios estimadores diferentes. En
general, escogeremos el estimador que posea mejores propiedades
que los restantes, como insesgadez, eficiencia, convergencia y
robustez o consistencia.

Características de una muestra para hacer una buena estimación

Para que una muestra sirva adecuadamente como base para obtener
estimadores de parámetros poblacionales, debe ser representativa de la
población. No solo se debe pensar en el tamaño de la muestra sino
8

asegurarse estadísticamente su calidad, y ello se logra con el azar. Es decir,


que esa muestra represente verdaderamente a la población hacia la cual
se extienden los resultados. Sabemos que un método de muestreo
aleatorio o al azar, asegura que la muestra elegida sea representativa de
la población y que el proceso sea adecuado.

Que sea representativa, significa que la información proporcionada por


una muestra será en mayor o menor grado, un reflejo de la información
contenida en la población. Por lo tanto podemos servirnos de las muestras
para hacer inferencias sobre la población. El muestreo al azar de una
población producirá muestras que -"a la larga”- que serán representativas
de la población.

Si una muestra se extrae aleatoriamente, es representativa de la población


en todos los aspectos, y el estadístico diferirá del parámetro solo por azar.
Además en una muestra al azar es posible estimarse el grado de este error
debido al azar (que lo hemos llamado error de muestreo).

Pasaje de la distribución real a una distribución normal

Vamos a estimar en dos distribuciones de medias (grandes y pequeñas:

1) Distribución muestral de medias cuando se desconoce σ, las muestras


son grandes s y se extraen de manera aleatoria simple
Recordemos que cuando estudiamos la distribución normal vimos que era
posible el pasaje de una distribución real o empírica a la distribución normal
teórica expresada en términos de puntajes z o puntajes típicos (desvíos
reducidos de z), porque un valor cualquiera de la variable X (siempre que fuera
normal o aproximadamente) podía ser traducida en un valor determinado z,
X X
donde z= . Si como vimos, la media de la muestra (estadístico) es una

variable aleatoria, también se distribuye normalmente, entonces, podemos
transformarla a la variable tipificada z= X  µ / σ X , la que se distribuirá N (0, 1).
_

Esto significa que podemos utilizar la distribución normal estandarizada como


modelo para conocer las probabilidades asociadas a los diferentes valores del
_
estadístico X (medias de las muestras)y de esa manera hacer nuestras

inferencias.

Si las muestras son grandes (n≥30 casos) la distribución de muestreo de medias es


normal se asemeja a la distribución normal de probabilidades y esa similitud
crece a medida que n aumenta (según Ley de los grandes números)
independientemente de la forma de la población; a su vez, s es una buena
9

estimación de σ, y en consecuencia s/ n es una buena estimación del error


estándar de la media. Como en este caso se estima σ, el error estándar de la
media lo representaremos con sigma con copete σ X = s/ n o bien usar el
_

símbolo S X para decir que es el sigma estimado.


_

La distribución muestral de medias tiene la forma de la distribución normal si se


extrae de una población normal. Pero, igualmente, si la forma no es normal a
medida que la n aumente, la distribución muestral será normal.

2) Distribución muestral de medias cuando se desconoce σ, las muestras


son pequeñas y se extraen de manera aleatoria simple
La distribución muestral de la medias es distinta para muestras grandes que en
muestras pequeñas (menor de 30 casos, n<30 casos). Muy frecuentemente, las
muestras son pequeñas y se desconoce σ (desviación estándar poblacional). Lo
que podemos hacer en este caso, es hacer la estimación usando la desviación
típica de la muestra (s) haciéndole una corrección en la fórmula (n-1). En el caso
de que las muestras son pequeñas, en lugar de la variable aleatoria

, se usa una nueva variable aleatoria, llamada t. Por ello, en las muestras

más pequeñas usamos la distribución t de student como modelo teórico o


probabilístico.

Esta distribución de muestreo de medias no se asemeja a la curva normal, es


más achatada en el medio y más elevada en los extremos y la diferencia es
mayor a medida que los casos de la muestra, disminuye.
Comparemos:
Z= X  µ / σ/ n

t= X  µ / Sn/ n -1

Observemos que los numeradores son idénticos pero los denominadores difieren
en que en t, la σ es reemplazada por s y n, por n-1; en z también podemos usar
s como estimador de sigma cuando no lo conocemos.
Como sabemos que para estimar σ se hace a partir de s de la muestra, y que
los desvíos se calculan en relación con la media de la muestra. Entonces,
debemos tener en cuenta que en este cálculo tenemos n-1 valores que pueden
variar libremente para que la suma de los desvíos con respecto a la media sea
10

igual a 0. Esto está relacionado con los grados de libertad (gl) que hay que
conocer a la hora de calcular t.
Hay una regla que dice: “Cuando un estadístico se usa para estimar un
parámetro, los grados de libertad (libertad de variar) dependen del número de
restricciones impuestas sobre las observaciones. Por cada restricción impuesta
se pierde un grado de libertad”.

La desviación estándar (s) de una muestra es una buena estimación de σ


cuando n es grande, no sucede lo mismo cuando n es pequeña, a menos que
en el cálculo de s se consideren los grados de libertad (n-1). Del mismo modo
para obtener una buena estimación del error estándar de media se consideran
los grados de libertad porque s interviene en su fórmula.

S X =S/ n -1
_

Si el cálculo ya lo toma en cuenta en la s no se lo repite en el error estándar.

Características de la distribución t de student

“Student” es un seudónimo que utilizó un inglés llamado Gosset quien elaboró el


modelo de la curva de t en 1908, y le puso así en honor a su maestro, el famoso
estadístico Fisher.

Es una distribución más chata y aplanada que la distribución normal, más


platicúrtica y esto dependerá del tamaño de la muestra. Si n es muy pequeña,
la distribución t será más chata. Por lo tanto, hay una distribución t para cada
tamaño de muestra.

Para usar t debe suponerse siempre que la distribución de la población es


normal, especialmente si n es muy pequeño.

Se trata de una familia de curvas porque hay una distribución t por cada
número diferente de grados de libertad. A medida que aumentan los grados de
libertad la distribución se asemeja cada vez más a la normal, tal como se
observa en el gráfico siguiente:

En los problemas, la distribución de t se usa igual que la distribución normal. Así


sabemos que en la tabla en la distribución normal, el área central del 95% está
entre ±1,96 y la de 99% entre ± 2,58. En la tabla de t esos valores son distintos y
han sido calculados para los distintos Grados de Libertad (se los busca en tabla
de puntajes t)
11

Conociendo estos conceptos ahora nos focalizaremos en la estimación de


parámetros en estas dos distribuciones (cuando las muestras son grandes y
pequeñas).

Ya nos referimos anteriormente sobre que hay dos maneras de estimar


parámetros:

1) Estimación puntual

Constituye la más simple de las inferencias estadísticas. Consiste en asignar


directamente un valor muestral concreto –estadístico- al parámetro poblacional
que se desea estimar. Es uno de los métodos de estimación más simples ideado
por Pearson. Un estimador puntual es un único punto o valor, el cual se
considera va a estimar a un parámetro. Un único valor de es un estimador
puntual de µ.

Para ejemplificar lo anterior, supongamos que evaluadores externos en una


universidad están interesados en conocer el CI promedio de los profesores. Se
toma la muestra aleatoria y el promedio es de 135. El estimado sería entonces
135. El valor de 135 se llama estimado puntual porque utiliza solo un valor para
la estimación. Si en cambio le preguntáramos a estos evaluadores si creen que
la media verdadera es de 135, lo más seguro es que dirían que no. entonces,
¿cuán cerca está 135 de la media poblacional? El problema con la estimación
puntual es que dado un parámetro concreto siempre es posible disponer de
más de un estadístico diferente para efectuar una estimación del mismo. Y no
hay una forma natural de determinar cuál de ellos es el ideal para efectuar una
estimación concreta. Se hace necesario por lo tanto, determinar cuáles son las
características de un buen estimador.

2) Estimación por intervalo de confianza

Se basa en un rango de valores entre los que se espera se pueda encontrar el


verdadero valor del parámetro con una probabilidad alta y conocida; en tanto
que los límites de confianza son los valores que delimitan el intervalo de
confianza. Un estimador por intervalo se construye sobre el concepto de un
12

estimador puntual, pero además, proporciona algún grado de exactitud del


estimador con un error determinado.

Entonces, el nivel de confianza es la probabilidad de que el parámetro a


estimar se encuentre en el intervalo de confianza. En términos
estadísticos , intervalo de confianza es : p= 1 – α (probabilidad p, es
igual a 1menos el nivel de significación α , alfa). Convencionalmente
suelen utilizarse intervalos que tienen un nivel de confianza de 0,95 o de 0,99.
Esto significaría, que 95 veces en 100 puedo equivocarme, y en el segundo
caso, 99 veces en 100, es decir que mi parámetro no se encuentre en realidad
en ese intervalo.

Aquí vemos los intervalos cuyos límites pueden quedar afuera.

La construcción de este tipo de intervalos sólo cabe para las muestras


probabilísticas. Las distintas fórmulas del error estándar según el diseño de
la muestra, sirven como poderosos instrumentos para establecer
estimaciones por intervalo de confianza.

Como ya dijimos el estadístico solo tiene una distribución aproximadamente


normal cuando se calcula utilizando una muestra muy grande (30 o más). Pero
para muestras más pequeñas, se va a utilizar otra distribución, que es la
distribución t de student.

Si tenemos la media de la muestra y queremos estimar, a partir de ella, la media


parámetro µ, usaremos el error estándar de la distribución de muestreo de
medias, nos fijamos un nivel de significación α, o sea un riesgo máximo en la
13

estimación (0,05 o 0,01) y usaremos la siguiente fórmula siempre y cuando las


muestras sean grandes:

 s
  X  z.
n

Respecto al procedimiento, entonces, una vez que ya hemos calculado el


estadístico (la media, por ejemplo) comenzamos el proceso de estimación del
parámetro (esto es, la media poblacional). Para ello nos basaremos en tres
distribuciones: la de la muestra , que es empírica; la de la población que es
generalmente desconocida e hipotética y la distribución muestral del
estadístico que es probabilística, y que es la que nos permite el pasaje de la
muestra a la población al permitirnos estimar el parámetro.

Habrá siempre una discrepancia entre el valor muestral y el valor del parámetro
que se desea estimar; esto es un error que se puede calcular, llamado “error
muestral”. En la estimación puntual no hay forma de conocer el valor del error
por lo que no sabemos si el error que estamos cometiendo es grande o
pequeño; pero todo investigador necesita conocer la precisión con la que está
trabajando, esto es, el error lo que puede resolverse procediendo a través de la
estimación por intervalos. Procediendo de esta forma es posible conocer el
error muestral máximo (Emáx) cometido en la estimación, es decir, el tamaño de
la distancia máxima que con una determinada probabilidad esperamos exista
entre el verdadero valor del parámetro estimado y el valor del estadístico
utilizado como estimador. Entonces, en la estimación por intervalos, se trata de
obtener dos valores que permitan afirmar que existe una alta probabilidad de
que el verdadero valor del parámetro se encuentra entre esos dos valores.

¿Cómo se obtiene ese intervalo de confianza? Para obtener esos valores, a un


estimador puntual (que es el estadístico de la muestra) se le suma y se le resta
una cantidad (que es el error máximo, Emáx) relacionada con el error típico de
su distribución muestral. Por lo tanto para realizar la estimación por intervalos
necesitamos utilizar estimadores con distribución muestral conocida.

Errores que se pueden cometer en la estimación de parámetros:

Hay dos tipos de errores que se pueden cometer al estimar un intervalo de


confianza: debidos al azar y no debidos al azar

 Errores debidos al azar

Sabemos que ningún subconjunto de datos mide exactamente al conjunto total


del que forma parte. El grado de error al que se incurre al extender los
resultados de una muestra probabilística a la población se puede establecer a
14

partir del error estándar. Este error mide las variaciones debidas al azar, es decir,
los errores de muestreo que son los errores de muestra en muestra o casuales
(que son los errores que eventualmente pueden afectar las mediciones). Por
supuesto que cuanto menor es su valor mayor es la precisión en la inferencia,
de allí la importancia en determinarlo.

 Errores no debidos al azar

Tanto en un censo cuando se examina la población completa como en un


muestreo cuando se toma una porción de la población pueden deslizarse
errores no casuales, asociados con que la población no está bien definida,
hubo fraude, cansancio, etc. El error estándar no descubre este tipo de
descuidos no accidentales como tampoco el derivado de una selección
inapropiada de las muestras. Si no se tienen en cuenta estos errores puede que
hagamos un esfuerzo considerable incluso económico para conformar muestras
más grandes, y esto no sirva de nada.

Pasos para calcular el intervalo de confianza

1) Cuando se desconoce sigma, y las muestras son grandes (≥ 30 casos)

* Suponemos que la distribución de la media muestral es


aproximadamente normal (porque es grande, mayor de 30 casos) con
media µ y desviación típica σ , que recibe el nombre de error estándar,

o error típico de muestreo. Como no conocemos el valor de sigma lo


sustituimos por s (es decir, la desviación estimado, no conocido, que lo
nombramos con el término) por lo que la fórmula queda así . (error

estándar estimado)

Pasos

 Decidir el nivel de confianza (de 0,95 o de 0,99).


 Calcular el error estándar estimado (se dice estimado porque
no se conoce y se usa s en lugar del valor poblacional) de la
distribución de muestreo de medias, que es igual a s sobre raíz
cuadrada de n. Calcular el error estándar de X donde eσ X
_
_

=s/√n
 Determinar el valor de z que delimita el área de la distribución
muestral de medias (normal) asociada con la probabilidad del nivel
de confianza establecido.
 Se calcula el error máximo, que es igual a / z/
multiplicado por el error estándar.
15

 Determinar el Li que es igual al estadístico menos el error


máximo.
 Determinar el Ls que es el estadístico más el error máximo.
 Establecer el intervalo de confianza entre esos dos valores.
o µ= X ± z. σ/√n
_

Nivel de Z
confianza
0,95 ±1,96
0,99 ±2,58 Por ejemplo para construir un
intervalo de confianza del 95 %; µ= X ±1,96 .σ X
_
_

Veamos un ejemplo,

Así supongamos que para una muestra de 100 casos, la media sea de 20
puntos. Como no conocemos el σ de la población, en este caso lo que
tenemos es el desvío de la muestra, y hacemos el supuesto que es la mejor
estimación posible de la desviación estándar de la población. Usamos,
para estimar el error estándar de la distribución de muestreo de medias, la
“s” de la muestra que es =5. Entonces σX, que es 5/√100=5/10=0,5

Ahora ya tenemos todos los datos que necesitamos

X =20

n=100

s=5

σ =0,5
X

Podemos establecer un intervalo de confianza para establecer los límites


entre los cuales se encuentra con un cierto grado de probabilidad (en este
caso de 0, 95) la media parámetro, dado que sabemos que la distribución
muestral de medias es normal. Gráficamente vemos que si el intervalo es
16

del 95%, quedan fuera 5% dividido en 2,5 para cada lado o 0,025.

Si se resta el 50% que corresponde a la mitad de la curva, ese segmento


de 0,025= 0,475; buscamos esa área en la tabla y corresponde a un z de
1,96. Del otro lado de la curva, lo mismo nada más que el z es negativo, de
-1,96.

Calculemos los límites entonces:

µ = X ±1,96.s/√n

µ= X ±1,96. 0, 5=

20±0,98

O sea que la µ está entre 19, 01 y 20, 98

Si queremos establecer límites más exactos, por ejemplo, podemos fijar el


99%. Este porcentaje si lo divido en dos y busco en tabla de puntajes z
(Área A) corresponde para cada lado 49,5% o 0,495 lo que corresponde
aun z de

2, 58, y -2,58 para el otro lado. Entonces reemplazamos para calcular los
límites del intervalo.

µ = X ±2,58.s/√n

µ= X ±2,58. 0, 5=

20±1,29

18,71 y 21,29

Estos valores de z se usan siempre que una muestra sea considerada


grande o mayor de 30 casos.

1) Cuando se desconoce σ; n ˂ 30 y el muestreo es aleatorio simple

* Pasos
 Establecer el nivel de confianza 1-α (por lo general de 0,95 o
de 0,99).
17

 Para el nivel de confianza establecido y gl=n-1; determinar el


valor absoluto de t (ver en Tabla de Puntajes t).
 Calcular el error estándar de la distribución de muestreo de la
media (estadísticos): eσ X =s/√n-1
_

 Calcular el error máximo que es /t/. eσ X _

 Establecer el Li: X -t .s/√n1-1

 Establecer el Li: X +t .s/√n1-1


 Valores crí ticos de t asociado con la probabilidad del
nivel de confianza y de acuerdo a los gl=n -1 (se
busca en Tabla de puntajes t)
µ= X ±t.s/√n-1
_

Veamos un ejemplo,

Supongamos un caso con n=16; X =24; s=8.

Los grados de libertad son n-1=16-1=15; tendremos que la verdadera


media con una probabilidad del 95% estará entre

8
24±2,13.
16  1

24±4,41, o sea,

Entre 19,58 y 28,41 se encuentra la media parámetro con una


probabilidad de certeza del 95% y un riesgo de error de 5%.

Entre 17,89 y 30,11

Usaremos una tabla de Puntajes t (Uds la tienen en el cuadernillo)


Tabla de puntajes t
Gl Probabilidad
0,10 0,05 0,02
0,01


15 2,13
….

En esa tabla se ubican para determinados grados de libertad asociados


con el tamaño de la muestra. El valor aparece positivo, pero sabemos que
es el mismo con signo negativo.
Veamos un ejemplo:
18

Un estadístico se dice que no es segado o parcial cuando la media de una


gran cantidad de valores muestrales por muestreo repetido, se acerca al
valor de la población, o sea, al parámetro. Ya vimos que el estadístico de
la media de la distribución muestral es igual a la media de la población, es
decir, no tiene parcialidad o sesgo, en cambio, el valor de la variancia de

una muestra calculada según la fórmula común: s2= ( X  X ) es una


n

estimación parcial o segada de la variancia de la población. En el caso de


que la muestra sea grande no hay problemas, pero en el caso de que la
muestra sea pequeña (menor de 30 casos), hay que corregir este sesgo
que puede ser muy grande y lo que se hace es dividir en n-1, la fórmula
( X  X )
entonces queda: s2= , de modo que así tendremos una estimación
n 1
imparcial de la σ poblacional.

El uso de (n-1) para obtener una estimación no sesgada implica el


concepto de Grados de Libertad. Si n es el número de las observaciones
de la muestra, n-1 es el número de grados de libertad, es decir, la
cantidad, de valores de la variable que tenemos libertad para cambiar
cuando calculamos los desvíos.

Supongamos que tenemos 5 medidas: 10, 14, 6, 5, 5. Su media es 8, luego


los desvíos respecto de la media es 2, 6, -2, -3,-3. La suma de los desvíos
respecto a la media es 0. En consecuencia, si se conocen 4 cualesquiera
de estos desvíos, el desvío restante está determinado. Así 4 de los desvíos
pueden variar independientemente y por esto, sus Grados de Libertad son
4;

n-1= 5-1=4. Se usa el símbolo gl.

El concepto de grados de libertad es simple. El número de grados de


libertad es siempre el número de valores que puede variar dadas la
cantidad de rest Propiedades de un buen estimador

Para que un estadístico pueda ser considerado un buen estimador debe


reunir determinadas propiedades, entre ellas:
1. Debe ser insesgado
Parece razonable pensar que un buen estimador debe cumplir
como primera propiedad la de ofrecer estimaciones correctas.
Podemos esperar de un buen estimador que ofrezca al menos, como
promedio, estimaciones correctas. A esta propiedad de obtener
como promedio estimaciones correctas, se le llama carencia de
19

sesgo. Un estimador es insesgado si su valor esperado coincide con


el parámetro que estima.
Es decir, un estimador es insesgado cuando el valor de la media de
la distribución muestral del estadístico es exactamente igual al valor
del parámetro por estimar. Por ejemplo, X es un estimador insesgado
_

de µ porque µ X =µ
_

2. Debe ser eficiente

Un estimador es tanto o más eficiente cuanto menor es su varianza.


Supongamos que disponemos de dos estadísticos (la media estimador 1, y
la mediana estimador 2, por ejemplo) para estimar la media poblacional.
Decimos que el estimador 1 es más eficiente que el 2 si la varianza del 1 es
menor que la del 2. Una mayor eficiencia, por lo tanto indica que un
estadístico varía menos de muestra en muestra por lo que las estimaciones
que se pueden hacer con él serán más precisas que las efectuadas con un
estimador menos eficiente. La media es un estimador es un estimador
insesgado y eficiente de la media parámetro, más que la mediana
(insesgada, pero no eficiente).

Tiene otras propiedades que se deben dar como la consistencia y la


suficiencia, pero solo veremos las dos anteriores que son las más
importantes.

Los cuatro cuadros representan dianas sobre las que se han efectuado
diez disparos: lógicamente lo que se busca es el disparo en el centro de la
diana. La situación puede extrapolarse fácilmente al contexto de la
estimación de parámetros. El centro de la diana sería el parámetro que
queremos estimar (verdadero) y los disparos son las estimaciones en 10 con
un estimador en 10 muestras diferentes.

********************************************************************************

También podría gustarte