Está en la página 1de 34

Teorema del límite central

Si se seleccionan muestras aleatorias de n observaciones de una población con media y


desviación estándar , entonces, cuando n es grande, la distribución muestral de medias
tendrá aproximadamente una distribución normal con una media igual a y una
desviación estándar de . La aproximación será cada vez más exacta a medida de que n
sea cada vez mayor.

Ejemplo

Para la dsitribución muestral de medias del ejercicio pasado, encuentre:

El error muestral de cada media

La media de los errores muestrales

La desviación estándar de los errores muestrales.

Solución:

En la tabla siguiente se ven las muestras, las medias de las muestras y los errores
muestrales:

Muestra
x
Error muestral, e=x-

(0,0)
0
0 - 3 = −3

(0,2)
1
1 - 3 = −2

(0,4)
2
2 - 3 = −1

(0,6)
3
3 – 3 = 0

(2,0)
1
1 – 3 = −2

(2,2)
2
2 – 3 = −1

(2,4)
3
3 – 3 = 0

(2,6)
4
4 – 3 = 1

(4,0)
2
2 – 3 = −1

(4,2)
3
3 – 3 = 0

(4,4)
4
4 – 3 = 1

(4,6)
5
5 – 3 = 2

(6,0)
3
3 – 3 = 0

(6,2)
4
4 – 3 = 1
(6,4)
5
5 – 3 = 2

(6,6)
6
6 – 3 = 3

La media de los errores muestrales es e, es:

La desviación estándar de la distribución de los errores muestrales e, es entonces:

La desviación estándar de la distribución muestral de un estadístico se conoce como


error estándar del estadístico. Para el ejercicio anterior el error estándar de la media
denotado por x, es 1.58. Con esto se puede demostrar que si de una población se eligen
muestras de tamaño n con reemplazo, entonces el error estándar de la media es igual a la
desviación estándar de la distribución de los errores muestrales.

En general se tiene:

Cuando las muestras se toman de una población pequeña y sin reemplazo, se puede usar
la formula siguiente para encontrar x .

donde es la desviación estándar de la población de donde se toman las muestras, n es el


tamaño de la muestra y N el de la población.

Como rfegla de cálculo, si el muestreo se hace sin reemplazo y el tamaño de la


población es al menos 20 veces el tamaño de la muestra (N20), entonces se puede usar
la fórmula.

El factor se denomina factor de corrección para una población finita.

Distribución maestral
Distribuciones continuas

Distribución normal

La distribución normal o de Gauss es sin duda la más importante de cuantas hay, tanto
por razones prácticas como teóricas.
Formalmente, una variable aleatoria es normal de media y varianza , lo que se expresa
como , si su función de densidad es

La función de probabilidad acumulada, o función de distribución, tiene la forma

la cual sólo se puede evaluar numéricamente para los diferentes valores de . Como
queda indicado, la media y varianza de la variable aleatoria normal son y ,
respectivamente.

Caso 1

Supóngase que el cociente intelectual (CI) de niños de educación elemental, según


la medida de cierto examen, tiene una media de 100 y una desviación típica 12. En una
clase de 30, ¿cuántos se espera que tengan un CI de 120 o más?

Solución La proporción de alumnos con CI mayor que 120 coincide con

siendo una variable aleatoria ,

(%i1) load(“distrib”)$

(%i2) 1 - disnormal(120,100,12), numer;

(%o2) 0.0477903522728147

(%i3) /* el símbolo % se refiere al último resultado */

30 * %;

(%o3) 1.433710568184441

Luego la proporción de alumnos es 0.0478 y en el grupo de 30 se espera que haya un


total de 1.4 alumnos con esta característica.

Caso 2 Investíguese gráficamente cómo varía el modelo normal con el cambio de los
parámetros.

Solución

(%i3) plot2d(‘([dennormal(x,0,1),dennormal(x,1,1/3)]),[x,−3,3],
[gnuplot_preamble,
“set grid; set size 0.8, 0.8;
set terminal png; set out ‘grafico1.png’”])$

El gráfico que se obtiene muestra la forma acampanada de las dos curvas gaussianas. Al
modificar la media se traslada horizontalmente el eje de la curva y el cambio en la
desviación típica provoca una dilatación o una contracción de la misma.

DISTRIBUCIONES MUESTRALES
DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS

Sean X1 y X2 dos variables aleatorias con valores esperados m1 y m2 y varianzas y ,


respectivamente. Por ejemplo, X1 puede ser la duración de una batería para carro de una
marca, y X2 la duración de una batería de otra marca diferente. Si los medias m1 y m2
son desconocidas, podríamos estar interesados en conocer si ambas baterías tienen la
misma duración media. En forma similar, si las varianzas son desconocidas, podríamos
estar interesados en saber si son iguales o no. Para realizar estas inferencias, se pueden
someter a pruebas idénticas diferentes baterías, controlando los factores externos, de tal
forma que las diferencias se deban exclusivamente a la clase de marca probada

Inicialmente estaremos interesados en verificar si ambas distribuciones tienen la misma


media poblacional, es decir si m1 = m2 ó equivalentemente m1 - m2 = 0.

Suponga que es una muestra aleatoria de tamaño n1 tomada de una población con media
m1 y varianza , es otra muestra aleatoria de tamaño n2 tomada de una población con
media m2 y varianza . Si deseamos realizar alguna inferencia sobre m1 - m2, nos
podemos basar en la distribución de la diferencia de las medias muestrales. Por el TCL
sabemos que tanto como se distribuyen normalmente con los siguientes parámetros: ,

Ahora bien, para la diferencia de las medias muestrales se tiene:

Para conocer la distribución muestral de las diferencias entre las medias se debe saber si
las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean
desconocidas, se debe saber si son iguales o diferentes. Cada uno de estos tres casos se
analizará por separado.

a) Distribución de la diferencia entre dos medias cuando las varianzas son conocidas. Si
las varianzas y son conocidas, tanto como se distribuyen normalmente. Por lo tanto la
distribución de la diferencia entre las medias muestrales es normal con el valor esperado
y la varianza dados anteriormente, es decir,
De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribución normal
estándar:

Por lo tanto, con base en la expresión anterior se pueden realizar inferencias con
respecto a la diferencia de medias poblacionales, bajo el supuesto de que las varianzas
sean conocidas. Si además, son iguales, la expresión anterior se puede expresar como:

b) Distribución de la diferencia entre dos medias cuando las varianzas son desconocidas
pero iguales ( = = )

Cuando las varianzas son desconocidas, se debe realizar previamente una prueba
estadística para verificar si éstas son iguales o diferentes. Para realizar esta prueba
debemos hacer uso de la distribución F para verificar si la relación de varianzas es igual
a uno o diferente de uno.

Para cada una de las dos muestras se definen sus respectivas varianzas como:

Además tienen distribuciones chi cuadrado con n1–1 y n2–1 grados de libertad
respectivamente. Por lo tanto su suma también sigue otra distribución chi cuadrado con
n1+n2–2 grados de libertad. Es decir:

Ahora bien, si Z es una variable normal (0,1) y Y tiene una distribución chi cuadrado
con n grados de libertad, entonces la variable tiene una distribución t con n grados de
libertad. Para nuestro caso la variable Z corresponde a la distribución de la diferencia de
las dos medias, con varianzas conocidas, y la variable chi cuadrado corresponde a la
variable Y acabada de definir. Por lo tanto

donde es un estimador ponderado de la varianza poblacional s


obtenida ponderando las varianzas poblacionales por sus respectivos
grados de libertad.

c) Distribución de la diferencia entre dos medias cuando las varianzas son desconocidas
y diferentes (¹ )

Cuando las varianzas son diferentes se puede demostrar que la siguiente variable
aleatoria T sigue una distribución t con n grados de libertad, donde

y el número de grados de libertad n está dado por:


Ejemplo. El gerente de una refinería piensa modificar el proceso para producir gasolina
a partir de petróleo crudo. El gerente hará la modificación sólo si la gasolina promedio
que se obtiene por este nuevo proceso (expresada como un porcentaje del crudo)
aumenta su valor con respecto al proceso en uso. Con base en un experimento de
laboratorio y mediante el empleo de dos muestras aleatorias de tamaño 12, una para
cada proceso, la cantidad de gasolina promedio del proceso en uso es de 24.6 con una
desviación estándar de 2.3, y para el proceso propuesto fue de 28.2 con una desviación
estándar de 2.7. El gerente piensa que los resultados proporcionados por los dos
procesos son variables aleatorias independientes normalmente distribuidas con
varianzas iguales. Con base en esta evidencia, ¿debe adoptarse el nuevo proceso?

Distribucion Muestral De La Varianza


La varianza de las muestras sigue un proceso distinto a los de la media y proporción. La
causa es que el promedio de todas las varianzas de las muestras no coincide con la
varianza de la población s2. Se queda un poco por debajo. En concreto, se verifica que

Hemos usado el subíndice n para recordar que en la varianza se divide entre n.

Si deseamos que la media de la varianza coincida con la varianza de la población,


tenemos que acudir a la cuasivarianza o varianza insesgada, que es similar a la varianza,
pero dividiendo las sumas de cuadrados entre n-1.

Su raíz cuadrada es la cuasidesviación típica o desviación estándar.

Si se usa esta varianza, si coinciden su media y la varianza de la población

lo que nos indica que la cuasivarianza es un estimador insesgado, y la varianza lo es


sesgado.

Distribución muestral de la varianza

La suma de cuadrados de la varianza, dividida entre la varianza de la población

se distribuye según una chi-cuadrado c2 con n-1 grados de libertad


Distribucion Muestral Razon De
Varianzas
PRUEBA DE LA VARIANZA CON UNA POBLACIÓN

A veces, los analistas investigan la variabilidad de una población, en lugar de su media o proporción.

Esto es debido a que la uniformidad de la producción muchas veces es crítica en la práctica industrial.

La variabilidad excesiva es el peor enemigo de la alta calidad y la prueba de hipótesis está diseñada para
determinar si la varianza de una población es igual a algún valor predeterminado.

La desviación estándar de una colección de datos se usa para describir la variabilidad en esa colección y
se puede definir como la diferencia estándar entre los elementos de una colección de datos y su media.

La varianza de un conjunto de datos se define como el cuadrado de su desviación estándar; y la varianza


muestral se utiliza para probar la hipótesis nula que se refiere a la variabilidad y es útil para entender el
pocedimiento de análisis de la varianza.

La hipótesis nula; para la prueba de la varianza, es que la varianza poblacional es igual a algún valor
previamente especificado. Como el aspecto de interés, por lo general es si la varianza de la población es
mayor que este valor, siempre se aplica una de una cola.

Para probar la hipótesis nula, se toma una muestra aleatoria de elementos de una población que se
investiga; y a partir de esos datos, se calcula el estadístico de prueba.

Para este cálculo se utiliza la siguiente ecuación:

( n - 1 ) s2

2 = ----------------

Donde:

* n-1 = Grados de libertad para la prueba de tamaño n.

* s2 = Varianza muestral.

* 2 = Varianza poblacional si y solo si suponemos que la hipótesis nula

es cierta.

EJEMPLO

1.- Averiguar si la variabilidad de edades en una comunidad local es la misma o mayor que la de todo el
Estado. La desviación estándar de las edades del Estado, conocida por un estudio reciente es de 12
años. Tomamos una muestra aleatoria de 25 personas de la comunidad y determinamos sus edades.
Calcular la varianza de la muestra y usar la ecuación anteriormente explicada para obtener el estadístico
muestral.

Las hipótesis nula y alternativas son:

• H0 : 2 = 144
• H1 : 2 144

Se toma la muestra y resulta una desviación estándar muestral de 15

Años. La varianza de la muestra es entonces 225, y el estadístico ji cuadrada de la muestra es:

(n - 1 ) s2 (25-1)(15)2

2 = --------------- = ------------------- = 37,5

2 122

Si la hipótesis nula es cierta, el estadístico muestral de 37,5 se obtiene de la distribución ji cuadrada


teórica, en particular, la distribución con 24 grados de libertad ( 25 - 1 = 24 ).

Como se puede observar en la ecuación anterior, cuanto mas grande es la varianza muestral respecto a
la varianza poblacional hipotética, mas grande es el estadístico que se obtiene. Luego deducimos que de
un estadístico muestral grande llevamos al rechazo de la hipótesis nula, y un estadístico muestral
pequeño implicará que no se rechaze. La tabla ji cuadrada se usa para determinar si es probable o no que
el valor 37,5 haya sido obtenido de la distribución muestral ji cuadrada hipotética.

Supongamos que esta prueba debe llevarse a un nivel de significancia de 0,02. En la columna 0,02 de la
tabla de ji cuadrada y la fila 24, se encuentra el valor critico de 40, 27. La regla de decisión es:

Si 2 40,27, se rechaza la hipótesis nula de que la varianza de la población es 144 ( Se rechaza H0 si 2 >
40,27 ).

Como estadístico de prueba calculado es 37,5, la hipótesis nula no se rechaza (con riesgo de un error de
tipo II). Si en la tabla de ji cuadrada se hubiese elegido un alfa de 0,05, el valor crítico de la tabla sería
36,415, y la hipótesis nula se hubiera rechazado (37,5 > 36,415). En este ejemplo se ilustra la importancia
de pensar con cuidado en el riesgo apropiado de un error de tipo I en una prueba de hipótesis.

Se supone que la hipótesis nula es cierta, lo que conduce a la obtención de un estadístico muestral de
una distribución ji cuadrada con 2 grados de libertad.

PRUEBA DE LA VARIANZA CON DOS POBLACIONES


En ocasiones es importante comparar dos poblaciones para ver si una es mas variable que la otra en
alguna medida específica. La hipótesis nula es que las dos poblaciones tienen la misma varianza, y la
hipótesis alternativa es que una tiene mayor varianza que la otra. Se obtienen muestras aleatorias de
cada población y se calculan las varianzas muestrales. Estos valores se usan entonces en la ecuación
siguiente para calcular el estadístico de la muestra:

Cociente F

S12

F = ---------

S22

Donde:

• S12 = Varianza de la muestra 1

• S22 = Varianza de la muestra 2

Nota: Por convivencia, para encontrar los valores de F, por lo general se pone en el numerador la
varianza muestral mas grande.

El estadístico de prueba dado por la ecuación anteriormente nombrado,

es el cociente F . Si la hipótesis nula de varianzas poblacionales iguales es

cierta, la razón de las varianzas muestrales se obtiene de la distribución F

teórica. Al consultar la tabla F se puede evaluar la probabilidad de este suceso.

Si parece probable que el cociente F pueda haberse obtenido de la distribución

muestral supuesta, la hipótesis nula no se rechaza. Si es poco probable que el

cociente F se haya obtenido de la distribución supuesta, la hipótesis nula se

rechaza.

La distribución F especifica que se aplica a una prueba en particular queda determinada por dos
parámetros: los grados de libertad para el numerador y los grados de libertad para el denominador. Cada
uno de estos valores es n-1. Si se conocen estos valores y se elige un valor alfa, al valor crítico de F se
puede encontrar en la tabla F.

EJEMPLO

1.- Averiguar si la variabilidad del salario por hora es la misma en dos sucursales, o si la variabilidad de la
sucursal 1 es mayor que la de la sucursal 2. La comparación de la variabilidad de las dos sucursales
constituye el primer paso en un estudio detallado sobre ingresos.

Se toman muestras aleatorias de los salarios por hora en cada sucursal para determinar las varianzas
muestrales y elegimos un nivel de significancia de 0,05. La hipótesis nula y alternativa son:

• H0 : 12 - 22 0

• H1 : 12 - 22 > 0

Los resultados de la muestra son:


S1 = $3,79 S12 = 14,3641 n1 = 21 (Sucursal 1)

S2 = $2,48 S22 = 6,1504 n2 = 25 (Sucursal 2)

El estadístico F se calcula mediante la ecuación anteriormente explicada:

S12 14,3641

F = ------- = ---------------- = 2,34

S22 6,1504

El cociente F indica que la varianza muestral de la población 1 es 2,34 veces la varianza muestral de la
población 2. Sin embargo, dados los tamaños de las muestras ¿Es suficiente esta evidencia para
rechazar la hipótesis de que las poblaciones tiene la misma varianza?. Se necesita el valor crítico de F
para contestar esta pregunta. Primero, se calculan los grados de libertad para el numerador y el
denominador:

Gl (numerador) = (n1 - 1) = (21 - 1) = 20

Gl (denominador) = (n2 - 1) = (25 - 1) = 24

Se usa la tabla F para encontrar el valor crítico. Hay dos valores de F en la tabla: uno para el nivel de
significancia de 0,05 y otro para el nivel de 0,01. Al ser ésta una prueba de una cola, como sugiere la
hipótesis alternativa, toda el área de 0,05 o de 0,01 estará en el extremo superior de la curva.

Las columnas de la tabla F representan los grados de libertad del numerador, por lo que se selecciona la
columna 20. Las filas corresponden a los grados de libertad del denominador, así que se elige la fila 24. El
valor crítico de F a un nivel de significancia de 0,05 para 20 grados de libertad en el numerador y 24
grados de libertad en el denominador es 2,02.

El cociente F calculado a partir de los datos de la muestra es 2,34. Según este valor de prueba, la
hipótesis nula se rechaza (2,34 > 2,02). Si acepta un riesgo del 5% de un error de tipo I, las poblaciones
no tienen la misma varianza.

EJEMPLO

2.- ¿Son iguales las varianzas de dos poblaciones de edades de los artículos en inventario, o la población
2 tiene una mayor varianza? Se toman muestras aleatorias de 53 artículos de cada población de
inventario y se calculan las varianzas muestrales. La prueba ha de llevarse a cabo con un nivel de
significancia de 0,01. Las hipótesis nula y alternativa son:

• H0 : 22 - 12 0

• H1 : 22 - 12 > 0

Los grados de libertad del numerador y denominador son 52 (53-1). En

La tabla F abreviada, la fila 50 y la columna 50 se usan como aproximaciones de los grados de libertad.
La regla de decisión es:

Si el cociente F calculado es mayor que 1,94, se rechaza la hipótesis

nula (se rechaza H0 si F > 1,94).

Los resultados de la muestra son:

S12 = 489 n1 = 53 (inventario 1)


S22 = 1,37 n2 = 53 (inventario 2)

El estadístico F se calcula mediante la ecuación anteriormente

explicada:

S12 1,370

F = --------- = ----------- = 2,8

S22 489

Una de las varianzas muestrales es 2,8 veces mas grande que la otra.

La hipótesis nula se rechaza ya que el estadístico de prueba (2,8) excede al

valor crítico (1,94) de la tabla F. Se puede concluir que el inventario 2 tiene mas

variabilidad en el tiempo que el inventario 1.

“ TEORIA DE LA ESTIMACION ESTADÍSTICA “


Estimación de Parámetros

La teoría de muestreo puede emplearse para obtener información acerca de muestras


obtenidas aleatoriamente de una población conocida. Sin embargo, desde un punto de
vista practico, suele ser mas importante y ser capaz de inferir información acerca de una
población a partir de muestras de ellas. Dichos problemas son tratados por la inferencia
estadística que utiliza principios de muestreo. Un problema importante de la inferencia
estadística es la estimación de parámetros poblacionales o simplemente parámetros
( como la media y la varianza poblacionales ), a partir de los estadísticos muéstrales
correspondientes o estadísticos ( como la media y la varianza muestral.

Estimados sin Sesgo

Si la media de la distribución muestral de un estadístico es igual al parámetro


poblacional correspondiente, el estadístico se denomina estimador sin sesgo del
parámetro; de otra manera, es denominado estimador sesgado. Los valores
correspondientes de dichos estadísticos se llaman estimados sin sesgo o sesgados,
respectivamente.

1.- La media de la distribución muestral de las medias es x , la media poblacional. Por


lo tanto, la media muestral x es un estimado sin sesgo de la media poblacional .

2.- La media de la distribución muestral de las varianzas es :

s2 = ( N-1/ N ) 2
donde 2 es la varianza poblacional y N es el tamaño de la muestra .Entonces, la varianza
muestral s2 es un estimado sesgado de la varianza poblacional 2. Usando la varianza
modificada.

2 =( N/ N-1 )s2

Se encuentra que 2 = 2 , de modo que 2 es un estimado sin sesgo de 2 .Sin embargo


es un estimado de .En términos de esperanza matemática se podía decir que un
estadístico no esta sesgado si su esperanza es igual al parámetro poblacional
correspondiente. Por lo tanto, x y 2 no están sesgados , porque E

Estimados Eficientes

Si las distribuciones muéstrales de dos estadísticos tienen la misma media o esperanza


matemática entonces el estadístico con la menor varianza se denomina estimador
eficiente de la media , mientras que el otro estadístico se le llama estimador ineficiente.
Los valores correspondientes de los estadísticos se conocen, respectivamente , como
estimadores eficientes. Si se consideran todos los estadísticos posibles, cuyas
distribuciones muéstrales tienen la misma media, aquel con la menor varianza suele
denominarse el mejor o mas eficiente estimador de dicha media.

La distribución muestral de la media y la mediana tienen la misma media; a saber la


media poblacional. Sin embargo, la varianza de la distribución muestral de las medias es
mas pequeña que la varianza de la distribución muestral de las medianas . por lo tanto,
la media muestral ofrece un estimado ineficiente de esta De todos los estadísticos que
estiman la media poblacional, la media muestral ofrece el mejor o mas eficiente
estimado. En la practica , suelen usarse los estimados ineficientes debido a la relativa
facilidad con que se obtienen algunos de ellos.

Estimados por Punto y Estimados por Intervalo; su Confiabilidad

El estimado de un parámetro poblacional dado por un solo numero se denomina


estimado puntual del parámetro. El estimado de un parámetro poblacional dado por dos
números , entre los cuales se considera esta el parámetro, se denomina estimado por
intervalo del parámetro. Los estimados por intervalo indican la precisión de un estimado
y son, por lo tanto preferibles a los estimados por punto.

Ejemplo: Si se dice que una distancia medida es de 5.28 metros se esta dando un
estimado por punto. Si por otro lado, la distancia es de 5.28 mas menos 0.03metros ( es
decir , la distancia esta entre 5.25m y 5.31 m ) , se esta dando un estimado por
intervalo .
La información sobre el error o precisión de un estimado se conoce como confiabilidad.

Estimados por Intervalo de Confianza de Parámetros Poblacionales

Sean s y s la media y la desviación estándar ( error estándar ), en ese orden, de la


distribución muestral de un estadístico S. Entonces, si la distribución muestral de S es
en formas aproximadas a la normal ( lo cual es verdadero para muchos estadísticos si el
tamaño de la muestra es N mayor o menor que 30.

Intervalos de Confianza para Medias

Si el estadístico S es la media muestral x , entonces los limites de confianza de 95% y


99% para estimar la media poblacional están dados por x mas menos 1.96 x y 2.50x
respectivamente. De manera mas general , los limites de confianza están dados por x ±
zc x donde zc que depende del nivel particular de confianza deseado , usando los
valores de x obtenidos se ve que los limites de confianza para la media poblacional
están dados por :

X ± Zc /

si el muestreo se lleva a cabo a partir de una población infinita o de una población finita
con reemplazamiento y están dados por :

X ± Zc /

si el muestreo se realizo sin reempalzamiento de una población de tamaño finito Np .


generalmente , la desviación estándar poblacional es desconocida ; por consiguiente ,
para obtener los limites de confianza anteriores, se utiliza la estimación muestral o s
.Esta mostrara ser satisfactoria cuando N se mayor o menor que 30 para N menor que 30
, la aproximación es pobre y se debe usar la teoría de pequeñas muestras .

Intervalos de Confianza para Proporciones

Si el estadístico S es la proporción de “éxitos “ en una muestra de tamaño , obtenida de


una población binomial en la que p es la proporción de éxitos es decir la probabilidad de
éxito, entonces los limites de confianza para p están dados por la proporción de éxitos
en la muestra de tamaño N. Usando los valores de p obtenidos, ve que los limites de
confianza para la proporción poblacional están dados por :

P ± Zc
Si el muestreo se efectuó de una población finita o de una población infinita con
reemplazamiento y están dados por :

P± Zc

Si el muestreo se hizo sin el reemplazamiento de una población de tamaño finito Np.


Para calcular estos limites de confianza se puede usar el estimado muestral P que por lo
general , mostrara ser satisfactorio si N es mayor o igual a 30.

Intervalos de Confianza para Diferencias y Sumas

Si S1 y S2 son dos estadísticos muéstrales con distribuciones de muestreo


aproximadamente normales, entonces los limites de confianza se puede usar para la
diferencia de los parámetros poblacionales correspondientes a S1 y S2 están dados por :

S1 y S2 ± zc s1 - s2

Intervalos de Confianza para Desviaciones Estándar

Los limites de confianza para la desviación estándar de una población normalmente


distribuida, estimados a partir de una muestra con desviación estándar s, están dados por
:

S + - Zc s = s ± Zc /

Para calcular estos limites de confianza se utiliza s o para estimar

Error Probable

Los limites de confianza de 50% de los parámetros poblacionales correspondientes al


estadístico S dados por S + - 0.675 s la cantidad de 0.675 s es conocida como error
probable de la estimación.

“ Problemas Resueltos “
*

Estimados sin Sesgo y eficientes

1.- De un ejemplo de estimadores y estimados que sean a).- sin sesgo y eficientes , b).-
sin sesgo e ineficientes y c).- sesgados e ineficientes
Solución

a).- La media maestral x y la varianza maestral modificada

2 =( N/ N-1 ) s2

b).- La media muestral y el estadístico muestral ½ (Q1 + Q3) donde Q1 y Q3 son los
cuartiles inferior y superior , son dos de dichos ejemplos. Ambos estadísticos son
estimados sin sesgo de la media poblacional, ya que la media de sus distribuciones
muéstrales es la media poblacional.

c).- La desviación estándar muestral s , la desviación estándar modificada , la


desviación media y el rango semiintercuartilar son cuatro de dichos ejemplos

2.- En una muestra de cinco mediciones , los registros de un científico para el diámetro
de una esfera fueron 6.33, 6.37, 6.32, 6.37 centímetros. Determine estimados sin sesgo y
eficientes de a) la media verdadera y b) la varianza verdadera.

Solución

a).- el estimado sin sesgo y eficiente de la media verdadera , es decir , la media


poblacional es :

x = x / N = 6.33 + 6.37 + 6.36 +6.32 + 6.37 / 5 = 6.35 cm

b).- El estimado sin sesgo y eficiente de la varianza verdadera , es decir la varianza


poblacional es :

2 = ( N / N - 1 ) s2

(6.33 - 6.35 )2 + ( 6.37 - 6.35 ) 2 + ( 6.32 - 6.35 ) 2 + ( 6.37 - 6.35 )2 / 5 - 1 = 5.5 x 10 -


4 cm2

3.- Suponga que las estaturas de 100 estudiantes hombres de la universidad XYZ
representan una muestral aleatoria de las estaturas del total de 1546 estudiantes de la
universidad. Determine los estimados sin sesgo y eficientes de a) la media verdadera y
b) la varianza verdadera.

Solución

a) Del problema , el estimado sin sesgo y eficiente de la estatura media verdadera es x =


67.47 pulgadas
b) Del problema el estimado sin sesgo y eficiente de la varianza verdadera es :

2 = ( N/ N-1 ) s2 = (100/99 ) 8.5275 = 8.6136

Por lo tanto = “8.6136 = 2.93 pulgadas. Obsérvese que dado que N es grande
esencialmente no existe diferencia entre y 2 .

4.- De un estimado sin sesgo e ineficiente del diámetro medio verdadero de la esfera del
problema 2.

Solución

La mediana es un ejemplo de un estimado sin sesgo e ineficientes de la media


poblacional. Para las cinco mediciones, ordenadas por magnitud, la media es 6.36 cm

5.- En una muestra de cinco mediciones , los registros de un científico para el diámetro
de una esfera fueron 6.33, 6.37, 6.33, 6.38 centímetros. Determine estimados sin sesgo y
eficientes de a) la media verdadera

Solución

a).- el estimado sin sesgo y eficiente de la media verdadera , es decir , la media


poblacional es :

x = x / N = 6.33 + 6.37 + 6.36 +6.33 + 6.38 / 5 = 6.354 cm

6.- Suponga que las estaturas de 10 estudiantes hombres de la universidad XYZ


representan una muestral aleatoria de las estaturas del total de 100 estudiantes de la
universidad. Determine los estimados sin sesgo y eficientes de

Solución

a) Del problema el estimado sin sesgo y eficiente de la varianza verdadera es :

2 = ( N/ N-1 ) s2 = (10/9 ) 8.5275 = 9.47

7.- De un estimado sin sesgo e ineficiente del diámetro medio verdadero de la esfera del
problema 2.

Solución
La mediana es un ejemplo de un estimado sin sesgo e ineficientes de la media
poblacional. Para las cinco mediciones, ordenadas por magnitud, la media es 6.36 cm

ESTIMACIÓN PUNTUAL PROPIEDADES DE LOS


ESTIMADORES
Estimadores insesgados

Como no hay ningún estimador perfecto que de siempre la respuesta correcta, debería
hacerlo por lo menos en promedio. El valor esperado del estimador debería ser igual al
parámetro que trata de estimar. En caso de que lo sea, se dice que el estimador es
“insesgado”, en caso contrario se diría que es sesgado.

Definición. Un estadístico T es un estimador insesgado del si y solo siθ parámetro

θ E(T) =

. En caso contrario decimos que es un “estimadorΘ∈ θ para todo sesgado”.

Sesgo. Si T es un estimador sesgado, la diferencia E(T) recibe el nombre deθ - sesgo.

Ejemplo. La media muestral es un estimador insesgado de la media .µ ya que E( ) =


µ poblacional

µ ya que E(X1) = µ Ejemplo. T = X1 es un estimador insesgado de

), demostrar que X/n es unθ Ejemplo. Si X es Binomial (n, .θ estimador insesgado del
parámetro

Solución. Sea P =

Tenemos que:

.µ Ejemplo. Sea X1, X2,…, Xn una muestra aleatoria con E(Xi) = Demostrar que si ,
entonces T = a1X1 + a2X2 +…+anXn es un estimador insesgado de . Ejemplo: Si Sµ
es la varianza de una muestra tomada al azar de una población
infinita, entonces S

σ es un estimador insesgado de
. Previamente habíamos demostrado que E(S

σ )=

σ . Ejemplo. Si , será un estimador insesgado de

?. Se puede demostrar que Ejemplo. Sea , será un estimador σ insesgado de


es un parámetro conocido?.µ si
σ Ejemplo. Será , un estimador insesgado de la varianza
σ de una población finita?. No, si la población es finita de tamaño N,
se puede demostrar que el estimador insesgado de

Estimacion Por Intervalo

Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro
estimado con una cierta probabilidad. En la estimación por intervalos se usan los
siguientes conceptos:

Intervalo de confianza El intervalo de confianza es una expresión del tipo [θ1,


θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al
parámetro estimado con una determinada certeza o nivel de confianza.

Variabilidad del parámetro Si no se conoce, puede obtenerse una aproximación en los


datos aportados por la literatura científica o en un estudio piloto. También hay métodos
para calcular el tamaño de la muestra que prescinden de este aspecto. Habitualmente se
usa como medida de esta variabilidad la desviación típica poblacional y se denota σ.

Error de la estimación Es una medida de su precisión que se corresponde con la


amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de
un parámetro, más estrecho deberá ser el intervalo de confianza y, por tanto, menor el
error, y más sujetos deberán incluirse en la muestra estudiada. Llamaremos a esta
precisión E, según la fórmula E = θ2 - θ1.

Nivel de confianza Es la probabilidad de que el verdadero valor del parámetro estimado


en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se
denota por (1-α), aunque habitualmente suele expresarse con un porcentaje ((1-
α)·100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se
corresponden con valores α de 0,05 y 0,01, respectivamente.
Valor α También llamado nivel de significación. Es la probabilidad (en tanto por uno)
de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de
confianza (1-α). Por ejemplo, en una estimación con un nivel de confianza del 95%, el
valor α es (100–95)/100 = 0,05.

Valor crítico Se representa por Zα/2. Es el valor de la abscisa en una determinada


distribución que deja a su derecha un área igual a α/2, siendo 1-α el nivel de confianza.
Normalmente los valores críticos están tabulados o pueden calcularse en función de la
distribución de la población. Por ejemplo, para una distribución normal, de media 0 y
desviación típica 1, el valor crítico para α = 0,05 se calcularía del siguiente modo: se
busca en la tabla de la distribución ese valor (o el más aproximado), bajo la columna
“Área”; se observa que se corresponde con −0,64. Entonces Zα/2 = 0,64. Si la media o
desviación típica de la distribución normal no coinciden con las de la tabla, se puede
realizar el cambio de variable t=(X-μ)/σ para su cálculo.

Con estas definiciones, si tras la extracción de una muestra se dice que “3 es una
estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%”,
podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con
una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando,
respectivamente, la mitad del error, para obtener el intervalo de confianza según las
definiciones dadas.

Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza van
relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del intervalo
de confianza, tenemos también una mayor probabilidad de éxito en nuestra estimación,
es decir, un mayor nivel de confianza.

Intervalo De Confianza Media Con


Varianza Conocida Y Desconocida
Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.

Hipótesis es una aseveración de una población elaborado con el propósito de poner


aprueba, para verificar si la afirmación es razonable se usan datos.

En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis,


después se hacen las pruebas para verificar la aseveración o para determinar que no es
verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y
la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación
razonable.

Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco


paso:

Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar


la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la
consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta
prueba aporta una clase de prueba más allá de una duda razonable. Analizaremos cada
paso en detalle

Objetivo de la prueba de hipótesis.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico


(muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra
y un valor planteado del parámetro.

Intervalo De Confianza Proporción Y


Diferencia De Proporciones

Chorrillos, Lima. E-Mail: sikayax@yahoo.com.ar

Resumen

En la actualidad se acepta por indicaciones de diferentes revistas científicas de


ciencias sociales y salud, que los intervalos de confianza aportan información
más descriptiva y son interpretativamente mejores que las pruebas de hipótesis,
como una expresión de la incertidumbre que resulta del estudio de una muestra
de limitado tamaño. En la investigación comparativo-descriptiva de las ciencias
sociales, los métodos de análisis para variables categóricas parecen ser menos
frecuentes, e incluso menos conocidos, que las variables independientes de
intervalo. Hasta ahora, no hubo buenos métodos para calcular los intervalos de
confianza para proporciones y diferencias entre proporciones. En este artículo se
presentan métodos basados en trabajos de Newcombe (1998a, 1998b, 1998c) que
superan los procedimientos tradicionales para estos cálculos y su cómputo es
acompañado por una hoja de cálculo en MS Excel, en español, inglés y galés.
Los métodos aquí presentados se basan en el método score, proveniente del
trabajo de Wilson (1927). También se presentan ejemplos de los intervalos de
confianza para proporciones simples y la diferencia entre ellas en muestras
independientes y dependientes. Finalmente, se discute su uso juicioso en el
contexto del diseño de la investigación.

Introducción

De acuerdo con las normas mínimas y generales de publicación


científica, los autores para someter sus manuscritos a revisión
deben encarar una variedad de métodos a fin de resumir y presentar
sus resultados. Estos incluyen resúmenes estadísticos, tales como
media, desviación estándar y las proporciones, como así también
las pruebas de hipótesis, que intentan dar criterios de decisión para
saber si las diferencias o relaciones entre grupos son
estadísticamente significativas. El uso de resúmenes estadísticos es
fundamental en estudios descriptivos y comparativos. Durante
muchas décadas, la prueba de hipótesis fue el soporte principal de
la inferencia en los estudios comparativos. Frecuentemente surgen
resultados no significativos cuando el tamaño de la muestra en
estudio es muy pequeña como para detectar una diferencia
importante.
En particular, los intervalos de confianza generalmente aparecen
como la forma más útil de expresar la incertidumbre vinculada con
los hallazgos de investigación, la misma que resulta del hecho que
por necesidad, se estudia solo una muestra de limitado tamaño.
Muchas publicaciones relacionadas con la salud, como la Revista
Médica Británica, tienen tal política desde hace una década; pero
esto se aplica no solamente al área de la investigación en salud, ya
que por ejemplo Language Learning (2002) aclara en sus
instrucciones que cuando se reporten hallazgos de investigación
utilizando métodos estadísticos y cuantitativos, los autores deben
informar acerca de las medidas de la magnitud del efecto y sus
intervalos de confianza, al menos para los contrastes estadísticos
más importantes que se informan.
Por otro lado, en las conceptualizaciones psicométricas la
evaluación del error de medición ocupa un lugar prominente en la
teoría clásica de los tests (Nunnally & Bernstein, 1995). La
construcción de intervalos de confianza para los puntajes obtenidos
es una práctica usual y a veces referida como un elemento esencial
para la interpretación de los resultados de un sujeto (Gregory,
2000); la práctica de informar intervalos de confianza para los
resultados advierte al usuario que no debe tomar como un indicador
exacto la estimación cuantitativa del atributo medido. Las pruebas
psicológicas que pretenden ser utilizadas para incrementar la
información acerca de cómo tomar decisiones sobre un grupo de
sujetos, frecuentemente en sus manuales presentan información
para calcular intervalos de confianza basados en el error estándar de
medición, por ejemplo, la muy conocida prueba de integración
visomotora (Beery, 2000), la prueba Meeting Street para el
desarrollo perceptual-motor (Woodburn, Boschini, Fernández &
Rodríguez, 1993), la Escala de Dimensiones Conductuales (Bullock
& Wilson, 1989) o las escalas de inteligencia de Weschler (Sattler,
1988). Incluso, recientemente se propuso reportar los intervalos de
confianza para las estimaciones del coeficiente alpha, pues ello da
al usuario una mejor información que la estimación puntual
(Onwuegbuzie & Daniel, 2000, 2001).
Algunas cuestiones metodológicas tienen relevancia para aplicar
técnicas de análisis. Por ejemplo, el tamaño del estudio se refiere,
usualmente, al número de sujetos de un estudio o grupo. Pero
también puede referirse a algún otro tipo de unidad de análisis más
grande, como la familia o los episodios de crisis en una persona,
aun cuando en el último caso se requiere gran precaución para
considerar los diferentes episodios en el mismo sujeto, como
eventos independientes. Otro aspecto es que muchos de los trabajos
científicos de Psicología utilizan medidas continuas o al menos
pseudocontinuas, tales como instrumentos llamados escalas. Al
respecto, hay un considerable debate acerca de lo apropiado de
considerar las puntuaciones en las pruebas psicológicas como
escalas de intervalos, pero hay un fuerte sustento para considerarlas
más bien como datos básicamente ordinales (Caruso & Cliff, 1997).

Los intervalos de confianza para las medias y las diferencias entre


medias se calculan directamente con programas estadísticos
comerciales, tales como el Statistica (StatSoft, 1995) o el Minitab
(Minitab, 2000). Desafortunadamente, la mayoría de los métodos
para calcular las proporciones y sus diferencias tienen serias
deficiencias (Newcombe, 1998a, 1998b, 1998c).
El objetivo del presente trabajo es mostrar cómo calcular intervalos
de confianza para proporciones y diferencias entre proporciones,
aplicando métodos óptimos y explicar con ejemplos cómo se
pueden interpretar. También se proporciona una hoja de cálculo MS
Excel en español, inglés y galés, que ejecuta todos estos cálculos y
que puede ser descargada gratuitamente de la siguiente dirección de
internet:

http://www.uwcm.ac.uk/epidemiology_statistics/research/statistics/
newcombe.htm

Muchas variables existentes en todas las áreas de investigación con


sujetos humanos son binarias, es decir que tienen dos posibles
valores, como por ejemplo, el género (varón o mujer), estatus del
cliente (afectado o no afectado), respuesta al tratamiento (positivo o
negativo), etc. Cuando se registra una variable binaria para cada
individuo o unidad de la muestra, usualmente se reporta la
proporción de casos que contiene cada grupo en particular y
frecuentemente es expresada en términos de porcentaje. Por
ejemplo, de 32 familias que tienen hijos jóvenes con esquizofrenia,
25 son calificadas con altos niveles de la expresividad emocional en
el registro de línea base (Santos et al., 2001), aquí la proporción es .
781 ó 78.1%. Las restantes siete familias tienen una baja
expresividad emocional de 100 - 78.1 = 21.9%.
Aunque el intervalo de confianza de esta simple proporción se
puede calcular fácilmente con una calculadora electrónica, sería
más útil disponer de una computadora con el software apropiado.
Generalmente se observa que las opciones por defecto de los
programas de análisis estadísticos más difundidos tienen
limitaciones para ayudar al usuario en esta área, así que la
elaboración de una hoja de cálculo para calcular los intervalos de
confianza para las proporciones y sus diferencias resultaría un
elemento útil y accesible para los usuarios. También se
desarrollaron versiones equivalentes en el lenguaje de macros para
SPSS y Minitab, que incluso se encuentran disponibles en la
dirección de internet mencionada.

Intervalo de confianza para una simple proporción

Se supone que de n individuos o unidades, r son positivos, es decir,


que tienen una característica de interés. Entonces la proporción de
respuestas positivas es p = r/n. Debido a ciertas necesidades
analíticas y descriptivas, se quiere calcular un intervalo de
confianza (IC) para tal proporción en la población de la cual se ha
extraído la muestra. Un IC para p se calcula comúnmente como:

donde EE es el error estándar y queda definido como:

y z toma el valor usual de 1.96 para el 95% IC. Por ejemplo, con n
= 32 y r = 25, p = .781, y el intervalo de confianza construido con
la ecuación (1) va desde .638 a .924, es decir, desde 63.8% hasta
92.4%.
Si bien este es un cálculo muy sencillo, desafortunadamente tiene
serias fallas. Tomando el ejemplo anterior, imaginemos que algunos
datos se han registrado con una frecuencia igual a cero. Si se
sustituye con p = 0 en la ecuación (1), se obtendrá un error estándar
igual a cero y el intervalo resultante degenerará, de tal modo que el
límite superior y el inferior serán cero. Similarmente, cuando p = 1
el límite superior y el inferior serán 1. Es más, cuando r es pequeño
(1, 2 ó algunas veces 3), algo igualmente absurdo puede ocurrir:
que se obtenga un límite inferior debajo de cero; igualmente,
consideremos además que cuando n – r es pequeño, el límite
inferior puede exceder a 1. Pero eso no es todo, pues aunque el
intervalo de confianza esté delimitado al 95% para incluir la
verdadera proporción poblacional, un estudio de simulación
muestra que su verdadera probabilidad de cobertura está debajo del
90% para un moderado valor de n. Además, el intervalo tiende a
estar ubicado bastante lejos de .5, que es el punto medio de la
escala. La consecuencia directa es que el cálculo de un límite
superior para, por decir, la incidencia de algún efecto adverso
tenderá a estar falsamente declarado (Newcombe, 1998a). Por lo
tanto, cuando la proporción p es muy pequeña y el tamaño de la
muestra es bastante moderado, o cuando las proporciones obtenidas
son 0 ó 1, las condiciones para obtener el IC por medio del enfoque
tradicional (ecuación 1) llevarán a resultados cuestionables. En
resumen, el método de Wald (ecuación 1) es aplicable si se cumple
el criterio np > 5 y n (1-p) > 5. Pero la previa evaluación
desarrollada en Newcombe (1998a) sugiere que la aplicación del
método de Wald no es apropiada, considerando que el desempeño
de este método es pobre aun cuando se cumple la condición
descripta. Dados los resultados previos de Newcombe, se
recomienda el método de Wilson, que es apropiado aun sin
considerar el tamaño de la muestra ni las frecuencias o
proporciones observadas.
Se formuló una variedad de métodos para afrontar estos problemas.
Entre ellos, se recomienda el método de Wilson (1927), conocido
como método score, porque tiene muy buenas propiedades para el
análisis y es razonablemente aprovechado cuando se dispone de una
calculadora. Primeramente, se han de calcular tres cantidades:

Luego, el intervalo de confianza está dado por:

De esta manera, con n = 32, r = 25 y z = 1.96, se pueden calcular


los componentes de las ecuaciones 2 a 5:
El intervalo de confianza al 95% para la proporción de familias,
entre las que tienen un adolescente esquizofrénico quienes son
calificadas con alto nivel de expresividad emocional, tiene un rango
desde:

(53.84 – 9.94) / 71.68 = 0.612 hasta (53.84 + 9.94) / 71.68 = 0.890,

es decir, desde 61.2% hasta 89%. Obsérvese que la proporción


obtenida, 78.1%, no es el punto medio del intervalo. Y, en efecto, el
punto medio del intervalo solo puede ser igual a la proporción de
interés (p), si este último es igual a .5.
El lector puede preparar una hoja de cálculo MS Excel para
efectuar todas estas operaciones. Esta hoja ya está preparada en el
archivo denominado ICPROPORCION.XLS. Para el ejemplo
previo, la proporción observada es 25 de 32, es decir, .781.
Colocando apropiadamente los valores en las ecuaciones, el límite
de confianza al 95% es de .6125 y .8898. Si un intervalo requiere
otros límites de confianza, por ejemplo .90 ó .999, simplemente se
reemplaza el valor 95 por 90 ó 99.9.
La interpretación es muy similar a la del intervalo de confianza que
se obtiene para la media. Asumiendo que estos resultados dan una
guía confiable de las familias que tienen como miembro a un
esquizofrénico en una amplia población, la mejor estimación es que
en un 78.1% de familias como estas, el grado de expresividad
emocional podría ser alto. Se admite que esta proporción
poblacional podría ser tan baja como 61.2% o tan alta como 89%.
El ancho de este intervalo es una expresión del grado de precisión
que demarca los probables límites en que la verdadera proporción
puede ubicarse.
Cuando r, y por lo tanto p es cero, el intervalo se simplifica desde
cero hasta z2/(n + z2). Cuando r = n, de tal modo que p = 1, el
intervalo abarca desde n/(n + z2) hasta 1. De esta manera, de las
ocho familias en crisis, en las que el nivel de hostilidad del padre
fue inicialmente bajo, ninguna cambió su estatus hacia altos niveles
de hostilidad en el seguimiento. Un intervalo de confianza del 95%
para esta proporción va desde 0 hasta 1.962/(8 + 1.962) = 0.324, es
decir, desde 0 hasta 32.4%.

Intervalos de confianza para dos proporciones: Muestras


independientes

En un estudio sobre el contacto corporal madre-niño, Sadurní y


Rostan (2002) observaron un incremento del contacto en 27
(84.4%) de 32, en los períodos de regresión y 9 (14.3%) de 63 para
períodos de no regresión. Esta diferencia resultó estadísticamente
significativa (p < .001) según la prueba de ji cuadrado. La
diferencia aquí es D = 0.844 – 0.143 = 0.701 ó 70.1%. Después de
este resultado, sin embargo, se podría calcular un intervalo de
confianza para una diferencia entre dos proporciones. Aquí, se
puede pensar que hay una alta taza del 70% de incremento del
contacto corporal durante los períodos de regresión comparados con
aquellos que no tuvieron estos períodos, pero nos gustaría expresar
el grado de precisión de este resultado, que proviene de una muestra
limitada. El método que se aplica en este caso es sencillo, está
estrechamente relacionado con el método tradicional para una
simple proporción y comparte con él también varios
inconvenientes. El cálculo tradicional del IC para la diferencia está
dado por:

Pero un método mejor es calcular l1 y u1, los límites inferior y


superior que definen el IC 95% para la primera muestra, y l2 y u2,
que provienen del límite inferior y superior de la segunda muestra;
este es el método score utilizado previamente. Entonces, el IC 95%
para la diferencia calculada está dado por (Newcombe, 1998b):

En el ejemplo, p1 = 0.844, p2 = 0.143, D = 0.701, l1 = 0.682, u1 =


0.931, l2 = 0.077 y u2 = 0.250. Finalmente, el IC 95% para la
diferencia es:

En otras palabras, desde 0.507 hasta 0.810. De esta forma, aunque


la mejor estimación para la diferencia entre las proporciones es
70%, el IC 95% va desde 51% hasta 81%, demostrando la
imprecisión que proviene del uso de una muestra de tamaño
limitado. Este intervalo no incluye el valor cero, lo que se
corresponde con la diferencia que fue juzgada como
estadísticamente significativa en el artículo original después de
aplicar la prueba ji cuadrado.

Intervalos de confianza para dos proporciones: Muestras


dependientes

En el estudio de familias con un miembro esquizofrénico se evaluó


la expresividad emocional en un punto de línea base y luego en un
período de 9 meses. Así que la prevalencia en el primer momento
fue de 25/32 y para el segundo momento, 20/32. Estas dos
proporciones se basan en exactamente la mismas 32 unidades en
este caso, familias. En esta situación el análisis puede tomar en
cuenta la naturaleza apareada individualmente de los datos. Los
autores de acuerdo a ello aplicaron la prueba McNemar, que es la
versión para muestras dependientes de la prueba ji cuadrado. Sin
embargo, también podría ser importante obtener los intervalos de
confianza para las diferencias entre estas proporciones. El método
(Newcombe, 1998c) se basa en el explicado anteriormente, pero es
más complejo, por lo que es altamente recomendado el uso de una
hoja de cálculo, como MS Excel.
Para ello, se necesita ubicar los datos tal como lo hicieron Santos y
colaboradores (2001). Ahí, en 18 casos la expresividad emocional
permaneció alta, en 2 casos se incrementó a un nivel alto, en 7 se
decrementó de alto a bajo, y en 5 casos permanecieron bajos.
Sustituyendo esta información en la sección final de la hoja
ICPROPORCION.XLS, la diferencia estimada es simplemente (20-
25)/32 = -0.1563 ó -15.6%, el signo negativo significa un
decremento. Un intervalo al 95% de confianza se obtiene desde
-0.3311 hasta +0.0317. Entonces, aunque se observa un moderado
decremento, esto podría corresponder a un sustancial decremento
tal como un 33%, o inversamente a un leve incremento de 3%, en la
amplia población de familias similares. Este intervalo de confianza
abarca el cero, en acuerdo con el resultado no significativo de la
prueba de McNemar.

Discusión

En este artículo se ha descripto la utilidad del cálculo de intervalos


de confianza con métodos sólidos y sencillos de aplicar. Tales
cálculos pueden ser efectuados con la hoja de cálculo elaborada por
los autores. Pero tener los resultados exactos es solamente una parte
del problema. Hay otros aspectos tan importantes como la elección
del análisis estadístico y del diseño de estudio y dentro de este
último, el proceso de muestreo, que continúa siendo la fuente de
sesgo altamente prevalente en la literatura de investigación.
Una pregunta importante a considerar es la siguiente: ¿Cuál es la
unidad de análisis en los datos? Todos los tipos de análisis
estadísticos involucran una elección implícita de la unidad de los
datos. Un estudio que implique un número de sujetos que ha sido
seleccionado independientemente y que proporciona cada uno un
dato en un único punto de tiempo, se analiza apropiadamente
usando al sujeto como unidad de análisis. Pero la unidad de estudio
puede ser grande, como en el ejemplo de expresividad emocional
citado anteriormente, en que la unidad de análisis fue la familia. Sin
embargo, en el análisis del ejemplo de los períodos de regresión,
esto puede parecer un defecto. El estudio utilizó solamente 18
infantes, pero se analizó como si los 95 períodos o episodios fueran
independientes uno de otro. Errores de este tipo no son raros en los
informes de investigación. El correcto análisis ahí podría ser
complejo, considerando que el mismo infante puede contribuir a
uno o más episodios de ambos tipos. Podría ser preferible un tipo
de análisis intra-sujeto.
Por otro lado, se enfatiza que la construcción de un intervalo de
confianza expresa solamente una forma de incertidumbre, que
resulta de la naturaleza finita de la muestra bajo estudio. Aplicando
tal estimación a una muestra representativa, en la que se incluyera
un proceso aleatorio en la selección de las unidades definidas por el
investigador, la discusión sobre la generalización de los resultados
sería más o menos sencilla. Pero si por alguna razón la muestra no
es representativa de la población relevante, tanto la estimación
puntual (por ejemplo, la proporción específica de aquellos que han
sido maltratados, por decir, 30%) como los intervalos de confianza
a calcular (por decir, de 25% a 38%) serán afectados por esta
situación. Si la muestra específica está sesgada hacia la población
que se pretende estudiar (por ejemplo, cierto segmento puede estar
más motivado para llenar cuestionarios o para participar en estudios
y es una muestra autoseleccionada), todo lo que se calcule estará
sesgado. Ninguna de las herramientas estadísticas tales como las
estimaciones puntuales, los intervalos de confianza o las pruebas de
hipótesis, puede corregir tal sesgo. Y más aún, no se debería
postular que tales herramientas superan el sesgo. En otras palabras,
el diseño de todo el proceso de investigación debe controlar las
fuentes de posibles sesgos.
Finalmente, se debe recordar que la estimación de los intervalos no
da una información en términos absolutos, pues también solo ofrece
una probabilidad de contener la cantidad en estudio (Howell, 1997;
May, Masson& Hunter, 1990). De esta manera, los intervalos son
los límites que tienen una alta probabilidad de que ocurra un
determinado valor poblacional y esta probabilidad es de una
extensión del 95% u otro límite crítico.

INTERVALO DE CONFIANZA PARA LA


DIFERENCIA DE MEDIAS DE DOS
DISTRIBUCIONES NORMALES, VARIANZAS
DESCONOCIDAS
En esta sección se verá el caso en donde se tienen dos poblaciones con medias y
varianzas desconocidas, y se desea encontrar un intervalo de confianza
para la diferencia de dos medias 1–2. Si los tamaños de muestras n1 y n2 son mayores
que 30, entonces, puede emplearse el intervalo de confianza de la distribución normal.
Sin embargo, cuando se toman muestras pequeñas se supone que las poblaciones de
interés están distribuidas de manera normal, y los intervalos de confianza se basan en la
distribución t.

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS


DISTRIBUCIONES NORMALES, VARIANZAS DESCONOCIDAS PERO
IGUALES

Si s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaño n1 y
n2, respectivamente, tomadas de dos poblaciones normales e independientes con
varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100() por
ciento para la diferencia entre medias es:

en donde:

es el estimador combinado de la desviación estándar común de la población con n1+n2


– 2 grados de libertad.

Ejemplos:

Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en
cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio
indican que el mecanismo de hidratación del cemento queda bloqueado y esto permite
que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras
de cemento estándar, se encontró que el peso promedio de calcio es de 90 con una
desviación estándar de 5; los resultados obtenidos con 15 muestras de cemento
contaminado con plomo fueron de 87 en promedio con una desviación estándar de 4.
Supóngase que el porcentaje de peso de calcio está distribuido de manera normal.
Encuéntrese un intervalo de confianza del 95% para la diferencia entre medias de los
dos tipos de cementos. Por otra parte, supóngase que las dos poblaciones normales
tienen la misma desviación estándar.

Solución:

El estimador combinado de la desviación estándar es:

Al calcularle raíz cuadrada a este valor nos queda que sp = 4.41


expresión que se reduce a – 0.72 1–2 6.72

Nótese que el intervalo de confianza del 95% incluye al cero; por consiguiente, para
este nivel confianza, no puede concluirse la existencia de una diferencia entre las
medias.

Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo


humano para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para
que cada medicamento alcance un nivel específico en el torrente sanguíneo se distribuye
normalmente. Se eligieron al azar a doce personas para ensayar cada fármaco
registrándose el tiempo en minutos que tardó en alcanzar un nivel específico en la
sangre. Calcule un intervalo de confianza del 95% para la diferencia del tiempo
promedio. Suponga varianzas iguales.

Medicamento A
Medicamento B

nA = 12
nB = 12

SA2= 15.57
SB2 = 17.54

Solución:

2.35 B-A 9.25

Con un nivel confianza del 95% se sabe que el tiempo promedio para alcanzar un nivel
específico es mayor para el medicamento B.

Intervalos Confianza Varianza


Si deseamos estimar la proporción p con que una determinada característica se da en
una población, a partir de la proporción p’ observada en una muestra de tamaño n,
sabemos que

· la distribución muestral de proporciones sigue una distribución normal con q=1-p


Como la proporción p de la población es desconocida, se aproxima por la de la muestra
siempre que n>100.

· Entonces para un nivel de confianza 1-a, p pertenece al intervalo:

3.9 INTERVALOS DE CONFIANZA PARA LA RELACIÓN DE VARIANZAS

Se tienen dos poblaciones normales e independientes con varianzas desconocidas s

1ys

2, respectivamente. De este par de poblaciones se tienen disponibles dos muestras


.aleatorias de tamaños n1 y n2, respectivamente; sean S1
y S2

las varianzas muestrales respectivas. Para hallar el intervalo de


confianza del 100(1-a)% para el cociente de dos varianzas sabemos que
la siguiente relación tiene una distribución muestral F con n1–1 y n2–
1 grados de libertad:

Entonces, para construir el intervalo de confianza para la relación de dos varianzas, nos
basamos en la siguiente probabilidad:

Si invertimos el término central de la desigualdad anterior, obtenemos lo siguiente:

Usando el hecho de que obtenemos el siguiente intervalo de confianza para la relación


de dos varianzas.

Teorema. Si son las varianzas de muestras aleatorias independientes tomadas de


poblaciones normales, entonces un intervalo de confianza 100(1-a)% para el cociente de
dos varianzas está dado por:

INTERVALO DE CONFIANZA PARA LA VARIANZA DE UNA DISTRIBUCIÓN


NORMAL

Si X1, X2, Xn es una muestra aleatoria de tamaño n tomada de una población normal, y
si S
es la varianza muestral, entonces S

es un estimador puntual razonable de la varianza poblacional s


. Por otra parte, si la población es normal, la distribución muestral de la siguiente
variable es una distribución ji-cuadrado con n-1 grados de libertad.

Por lo tanto, para obtener un intervalo de confianza del 100(1-a)% para la varianza s2
nos basamos en el estadístico S
y en la distribución chi cuadrado. Por lo tanto, tenemos la siguiente
probabilidad:

Manipulando las expresiones tenemos que:

Teorema. Si S
es la varianza muestral de una muestra aleatoria de n observaciones
tomadas de una distribución normal con varianza desconocida s

, entonces el intervalo de confianza de 100(1-a)% para s


es:

Ejemplo. Un proceso produce cierta clase de cojinetes de bola cuyo diámetro interior es
de 3 cm. Se seleccionan en forma aleatoria 12 de estos cojinetes y se miden sus
diámetros interiores, y los valores resultantes son los siguientes: 3.01, 3.05, 2.99, 2.99,
3.02, 3.00, 2.98, 2.99, 2.97, 2.97, 3.02 y 3.01. Suponiendo que el diámetro es una
variable aleatoria normal, determine un intervalo de confianza para la varianza
poblacional . Use un intervalo de confianza del 99%.

Solución. Tenemos: ,

El intervalo de confianza estará dado por:

En el intervalo de confianza para la varianza, el punto medio del intervalo (0.001266)


no coincide con el estimador puntual, debido a la no simetría de la distribución chi
cuadrado.

Intervalo Confianza Razon Varianzas

Aplicación a un caso especifico


El estudio se inicia con la búsqueda de las estadísticas de importación de la OECD para el
periodo reciente. La información localizada en el internet (2004:www.sourceoecd) indica que
existen datos de 1993 al 2003, de ramas de actividad por países, por ejemplo para EEUU,
cuyas importaciones pasaron de 580,584.0 miles de dólares en 1993 a 1,229,846.6 miles de
dólares en el año 2003; de ahí que la variación porcentual en el período haya sido de 111.8%.
Destacaron sus importaciones de maquinaria y equipo de transporte y de bienes
manufacturados. En 1993 el primer grupo representó el 44.8% y el segundo, el 11.4%, en tanto
que en el año 2003, el 45.1% y el 10.8% del total, respectivamente; juntos registraron un poco
más del 55.0% de la demanda estadounidense en el mercado internacional, misma que creció
significativamente en esos diez años: más que se duplicó por el auge de su economía que
influyó en el crecimiento de las importaciones de estas dos ramas de actividad, cuya tasa
media anual de crecimiento observado fue del 7.6%.Indudablemente, gran parte correspondió a
la industria automotriz.

La identificación de la demanda internacional del sector automotriz fue corroborada con el


reporte que hizo el gobierno federal mexicano de las exportaciones en el periodo 1995-2003. El
cuadro 19 muestra las exportaciones de la industria manufacturera, en que la división
económica más importante es Productos metálicos, maquinaria y equipo, misma que en el
período representó alrededor del 72.0% del total exportado y registró una variación porcentual
en el periodo del 137.2%, revelando un dinamismo superior inclusive al total de la industria
manufacturera: 111.7%.