Está en la página 1de 21

Capitulo II

ELEMENTOS DE ESTADISTICA MATEMÁTICA


18. Método muestral

Al exponer el capítulo I, habíamos supuesto que las leyes de distribución de


variables aleatorias y los parámetros de esas leyes eran conocidos. Sin
embargo, al resolver problemas prácticos tales hipótesis nunca se verifican del
todo. Por lo general, suele conocerse solo la ley de distribución, y los
parámetros de esta se determinan a partir de los resultados de mediciones. En
ocasiones, a base de los resultados de mediciones se determina también la ley
de distribución.
Ambas tareas, la determinación tanto de la ley de distribución como de sus
parámetros, pueden ser resueltas con exactitud, si de las mediciones se
obtienen todos los valores de la variable aleatoria, que reciben el nombre de
población madre estadística. No obstante, para las variables aleatorias
continuas esto, de principio, es imposible, y para las variables aleatorias
discretas, en la mayoría de los casos, también es prácticamente imposible. Por
eso, en la práctica se utiliza el llamado método muestral. La esencia de este
método radica en que la población madre se toma solo un parte de los valores
o, como se dice, se hace un muestreo estadístico y, a partir de este se resuelve
la tarea. Desde luego, así se obtienen tan solo soluciones aproximadas.
La estadística matemática estudia los métodos de soluci0on aproximada de
problemas estadísticos a base de muestreos.
El muestreo se procura realizar de manera que este se distribuya
uniformemente entre la población madre y por consiguiente, refleje lo mejor
posible de las propiedades de la variable aleatoria. Presentemos algunos
ejemplos.

Ejemplo 1. Para determinar la reserva de madera en cierta superficie de un


bosque se realiza una medición de muestreo de la altura y e diámetro del
tronco (a la altura del pecho) de ciertos árboles típicos o medios en áreas de
50x50 m uniformemente distribuidas por el bosque y, además, se cuenta el
número de árboles en dichas áreas. Como resultado se obtiene un volumen
medio de madera en un área media. Multiplicando el resultado obtenido por
Pha
, donde
0.25 ha
Pha es el área total del bosque, en hectáreas, se obtiene una solución
aproximada del problema. La estadística matemática permite en este caso dar
también una estimación probabilística del resultado obtenido.

Ejemplo 2. Para determinar rápidamente la estatura de soldados llamados a


filas y pedir en el almacén los uniformes correspondientes, los soldados se
colocan en filas (por estatura) y se toman las medidas a uno de cada diez de
ellos por orden de fila. Estos datos resultan ser suficientes para la solución
satisfactoria del problema, en especial, si también se consideran las posibles
desviaciones de los parámetros estadísticos obtenidos y, consecuentemente,
se obtienen uniformes de reserva.

De modo similar, por muestreo se determinan las cosechas de gramíneas, el


volumen de precipitación pluvial, la precisión de mediciones, etc.
Los valores aproximados de las características básicas de una variable
aleatoria (esperanza matemática y varianza) se obtiene por las formulas

 xi
M (X )  x  i 1

n
n

 ( xi  x)
2

D( X )  D´(x )  i 1

n 1

Donde n es el número de mediciones.


Esta claro que los parámetros estadísticos (empíricos) de distribución
obtenidos serán tanto más precisos cuanto mayor sea el número de
observaciones efectuadas y mejor haya sido tomada la muestra.

Una imagen aproximada del carácter de distribución de una variable aleatoria


es la que presenta la curva empírica de distribución. Para trazar esta curva, se
calculan, a partir de los materiales del muestreo, las frecuencias relativas de los
valores observados de la variable aleatoria en ciertos intervalos equidistantes.
Luego, se trazan sucesivamente a lo largo del eje de las X intervalos de la
variación de X iguales entre si y trazan en estos intervalos rectángulos de
alturas numéricamente iguales a las respectivas frecuencias relativas. Como
resultado, se obtiene una línea escalonada (histograma). Al alisarla, se obtiene
una suave curva empírica de distribución.

 19. Características complementarias de los muestreos


1.exceso
Llamase exceso E una magnitud que se calcula por la formula
´
E  42  3
´2
En caso de cumplirse exactamente la ley de distribución normal, en un
muestreo la magnitud E debe ser igual a cero, lo que se deduce de la relación
(I.145). Para los valores empíricos de ´2 y ´4, el exceso, por lo general, no
será nulo.
La desviación del exceso de una distribución empírica respecto a su valor
teórico, es decir, respecto a cero, es indicio de la desviación de la distribución
empírica respecto a la normal; en tal caso, si E>0, la distribución resulta
escarpada; si E>0, aplanada (veáse la fig. 7)
No requiere aclaraciones la afirmación de que la distribución empírica puede
coincidir exactamente con la normal por casualidad o siendo en un numero
ilimitadamente grande de ensayos. De ese modo, el investigador,
prácticamente siempre, obtiene una magnitud de exceso diferente de cero.
Pero, ¿puede acaso considerarse de poca importancia el valor obtenido del
exceso en las condiciones dadas y, por consiguiente, tolerable la desviación del
vértice de la curva empírica de distribución con respecto a la curva normal?
Para esto se aplica la siguiente formula que permite calcular la desviación
típica de exceso
24
 ´(E ) 
n
Donde n es el número de observaciones o ensayos.
Si el numero de observaciones no es muy grande (20<n<50), el exceso puede
considerarse de poca importancia a condición de que
E  3 ´(E )

Aquí E es el valor absoluto del exceso;


 ´(E ) , la desviación típica (empírica) del exceso.

2. asimetría

En la práctica se dan casos en los que la curva empírica de distribución


aparece como sesgada. Como característica numérica en este si se aplica el
llamado índice de asimetría
 ´3
Sk 
( ´)3

Donde Sk es el índice de asimetría (S y k son la primeras letras de la palabra


inglesa skewness, que quiere decir oblicuidad );
´3 es el momento central de tercer grado,
( ´)3 es el cubo de la desviación típica (es evidente que  3   23 / 2
para valores teóricos).

Para distribuciones simétricas como es el caso de la normal, es obvio que el


valor teórico Sk=0, ya que las sumas de los cubos positivos y negativos de las
desviaciones, al calcular 3 por medio de la formula (I.141), se compensan
mutuamente. Cuando Sk resulte mayor que cero, la curva estará sesgada a la
izquierda, y cuando Sk resulte menor que cero, a la derecha (veáse la fig. 8).
Para una distribución normal con un número n grande de ensayos


una fórmula más exacta es su fundamento se da en el libro: V. Bolshakov <<Teoría de
errores de observación>>.
La desviación típica del índice de asimetría puede calcularse por la siguiente
formula empírica
6
 ´(Sk ) 
n
Si se cumple la condición
Sk  3 ´(Sk )
La distribución empírica puede considerarse prácticamente simétrica.
A veces, en lugar del índice de asimetría Sk se utiliza la constante 1 de
Pearson, llamada medida de oblicuidad, la cual es igual a
( ´3 ) 2
 1  ( Sk ) 
2

( ´ 2 ) 3
Es fácil establecer que
24
 ´  1  2  4( Sk ) 2  ´(Sk ) ;  ´  1 
2
1
n
A la condición (II.7), es análoga la condición
 1  3 ´( 1)
Las desviaciones inadmisibles de Sk respecto a cero, en la mayoría de los
casos, revelan la presencia en los resultadas de las mediciones de errores que
actúan unilateralmente es asequible sin aclaraciones adicionales. A ella
volveremos más adelante.

Ejemplo. Durante las pruebas realizadas con un geodímetro, una misma línea
ha sido medida 16 veces. Haciendo uso de los datos dados en la tabla 4,

Resultados Si  Si  S med (mm) Si 2 Si 3 Calculo


de las
mediciones
Si
(m)

 0.2
´1   0.0
6994.911 17.8 316.84 5639.8 16
1186
´2   74.2
890 -3.2 10.24 -32.8 16
653
´3   40.8
879 -14.2 201.64 -2863.3 16
199313
895 1.8 3.24 5.8 ´ 4   12457
16
1186
882 -11.2 125.44 -1404.9 D´  79.0
15
 ´ D´  8.9mm
898 4.8 23.04 11.6 ´ 4
E  3
885 -8.2 67.24 -551.4 ( ´2 ) 2


una fórmula más precisa para el cálculo de se da en el libro V. Bloshakov <<Teoría de errores
de observación >>
883 -10.2 104.04 -1061.2 12457
E  3
5506
902 8.8 77.44 681.5 E  0.74
24
901 7.8 60.84 474.6  ´(E )   1.22
16

E   ´(E )
895 1.8 3.24 5.8  ´3
Sk 
( ´)3
894 0.8 0.64 0.5 40.8
Sk 
703
6
 ´(Sk )   0.61
896 2.8 7.84 22.0 n
883 -10.2 104.04 -1061.2
Sk   ´(Sk )
895 1.8 3.24 5.8

902 8.8 77.44 681.5

Smed= =-0.2 =1186.4 =653.1 Si 4  199313


6994.8932

Calcúlense los momentos centrales 1´ ,  2´ , 3´ ,  4´ , la varianza D´(X), la


desviación típica ´, el exceso E, la desviación típica del exceso ´(E), la
asimetría Sk y la desviación típica de la asimetría ´(Sk). En la columna
<<calculo>> de la tabla 4 se expone el cálculo de las características numéricas.

Los resultados de los cálculos testimonian que el exceso y la asimetría pueden


aquí considerarse insignificantes, y la distribución empírica, prácticamente
normal.

20. Estimación del valor aproximado de la esperanza matemática

Veamos los procedimientos para estimar de manera probabilística un valor


aproximado de la esperanza matemática, obtenido como la media aritmética,
es decir un valor x . como base de la solución de la tarea planteada utilicemos
el método de intervalos de confianza o limites de confianza. La esencia de este
método consiste en lo siguiente.
Imponiéndose una probabilidad fiducial , se determinan los intervalos de
confianza que se marcan a ambos lados de x (esto es, ya se a del lado de la
disminución como del aumento) , dentro de los cuales se encuentra el valor X
con una probabilidad .
Analicemos dos casos:
1. caso. El valor exacto de la desviación típica  es conocido. Ya que se sabe el
valor exacto de , se obtiene el valor exacto de la varianza de la media
D( x)
D( x) 
n

Y el estándar de la media
 (X )
 ( x)  D( x) 
n

Luego razonemos de la siguiente manera. La variable aleatoria X tiene los


 (X )
parámetros de distribución M ( x)  X y  ( x)  . La probabilidad de que
n
un valor concreto de la variable aleatoria resulte comprendido dentro del
intervalo ( X  i ) y ( X  i ) , como es sabido, es igual a

ti i
P ti
 (
 ( x)
)   (t i )

donde

i  xi  X

nos hemos impuesto el valor y además conocemos . usando las


tablas de (ti) (apéndice 2), a partir del valor dado  hallamos

xi  X
ti 
 ( x)
y, finalmente,

xi  X  t i  ( x )

la probabilidad de confianza que conviene imponer depende en cada caso


concreto de unas u otras consideraciones, además la apreciación subjetiva
resulta inevitable. En la mayoría de los casos, nos impondremos los valores  =
0.99 y  = 0.68.
hablando con rigor , el valor exacto de la desviación típica en la elaboración de
los resultados es una abstracción. No obstante, se ha establecido por
experiencia que el valor de la desviación típica puede considerarse
prácticamente exacto, si este ha sido obtenido por la fórmula

 ( xi  x) 2

 ´( X )  i 1

n 1

Donde n  20
La expresión (II.10) se deduce de la formula (II.2). por eso, en la subsiguiente
exposición vamos a considerar que la desviación típica es prácticamente
exacta si su valor se ha obtenido a partir de 20 observaciones o más.
Pasemos ahora a la deducción de la formula (II.2)
Como es sabido, D( X )   2 Veamos si es posible calcular un valor aproximado
de la varianza por medio de la formula
D´( X )  ´2

Para obtener el valor aproximado de un parámetro resulta natural imponer la


condición de que su esperanza matemática tenga un valor exacto. Por eso
calculemos M ( ´2 )
A base de (I.144, e), escribamos
´2  v´2 (v´1 ) 2
De donde
M ( ´2 )  M (v´2 )  M (v´1 ) 2  
Pero
n

 xi 2

1 n
 (v´2 )  M ( i 1
)   M ( xi 2 )  M ( x 2 )  v 2
n n i 1
Obtendremos

 n  
2

  xi  
      1 M ( 
n
 (v´2 ) 2  M  i 1    xi ) 2  
 n  n 2
 i 1 
  
  
 
1 n 2
 n n 


n 2
M 

 xi   ( xi  xj )  

1 i 1 j 1 

n
1
2 1
n
2
  1

 2 n( X )  n(n  1)( X ) 2  ( X )  n( X ) 2  ( X ) 2  (v 2  v12  nv12 )
n

Basándonos en (I.144, e), podemos escribir


 (v´1 ) 2   (  2  nv12 )   D( X )  nv12  
1 1 D( X )
 v12
n n n
Es decir
D( X )
 (v´1 ) 
2
 v12
n
Teniendo en cuenta (II.11), (II.12) y (II.13), obtenemos
D( X ) D( X )
M ( ´2 )  v 2  v12   2 
n n
O bien,
D( X ) n  1
M ( ´2 )  D ( X )   D( X )
n n
La igualdad (II.14) muestra que calculando las varianzas aproximadas por la
formula
D´( X )  ´2

Permitimos una disminución sistemática de los valores D´(X).


De (II:14) se deduce
n 2 n 2

n 1 n 1
 ( xi  x) M  ( xi  x )
D( X )  M ( ´2 )  M( 1
) 1

n n n n 1

Por eso el valor aproximado de la varianza se calcula por la fórmula (II.2)

n 2

 ( xi  x)
D´( X )  1

n 1
Ejemplo 1. ) la variable aleatoria X ha sido observada 20 veces. Los resultados
de las observaciones se exponen en la tabla 5.
Requiérese encontrar un intervalo de confianza para la esperanza matemática
que

i xi i xi i xi i xi
1 10.5 6 10.6 11 10.6 16 10.9
2 10.8 7 10.9 12 11.3 17 10.8
3 10.9 8 11.0 13 10.5 18 10.7
4 11.2 9 10.3 14 10.7 19 10.9
5 10.4 10 10.8 15 10.8 20 11.0

corresponda a la probabilidad de confianza = 0.99.


20 20

 xi  ( xi  10.78) 2

x 1
 10.78; D´( X )  1
 0.064;  ´( X )  0.253
20 19
0.064
 ´(x)   0.056
20

En el apéndice 2 hallamos , para    (t  )  0.99 el valor t   2.57


de donde
 ´(x )t   0.056 * 2.57  0.14
los limites de confianza serán: 10.64=10.78-0.14 y 10.92=10.78+0.14, o sea,
con una probabilidad de p = 0.99, puede afirmarse que la esperanza
matemática de la variable aleatoria observada se halla comprendida entre los
límites de 10.64 y 10.92

2. caso: se tienen menos de 20 resultados de observaciones y la desviación


típica se desconoce.
Si se sabe que la variable aleatoria a observar está sujeta a ley normal de
distribución, entonces en el caso considerado se aplica la llamada ley de
distribución de student para una variable aleatoria adimensional.


el ejemplo ha sido tomado del libro E, Wentzel <<Probability theory>> moscow, mir Publishers, 1982.
(E. Wentzel << Teoría de probabilidades >>.)
x X
t 
 ´(x )

Donde

n 2

D´( X )
 ( xi  x)
 ´(x )   1

n n( n  1)

Evidentemente la variable aleatoria t es función de tres variables aleatorias:


. la ley de student se deriva de la ley normal. La densidad de la probabilidad en
la ley de distribución de student se expresa por la formula que nosotros
consignamos sin demostración,
n
( ) n
2 t 2 2
S n 1 (t )  (1  )
n 1 n 1
(n  1) ( )
2

Donde

La tabla de valores de

 t


 u e du ´(t )  2 S n 1 (t )dt  
x 1  u
( x ) 
0 0

Se ofrece en el apéndice 5
Presentemos ejemplos de la aplicación de la ley de distribución de student.

Ejemplo 2. Utilizando los datos del ejemplo 1, obténgase los limites de


confianza valiéndose de la ley de student.
Solución. Para = 0.99 y r= n-1= 19, en la tabal de ´(t)
(apéndice 5) hallamos , de donde

Los límites de confianza son 10.62 y 10.94. Al aplicar la ley normal, los limites
de confianza resultaron ser iguales a 10.64 y 10.92, es decir, ambas
distribuciones para un número n = 20 divergen poco.

Ejemplo 3. Sean , n=7 la probabilidad de confianza = 0.99.


Solución. Por la tabla del apéndice 5 obtendremos

Los limites de confianza son 23.30 y 23.98.


Según la ley normal , o sea el intervalo de confianza resulta
considerablemente menor.
De este modo nos hemos convencido de que cuando n<20, conviene aplicar la
distribución de student. Para n>20, puede aplicarse la ley normal de
distribución.
No obstante, debe tenerse en cuentea que cuando n<10, la ley de student
tampoco ofrece una estimación confiable de la media aritmética.

Determinación de los límites de confianza cuando la probabilidad del suceso se


desconoce y se sabe la frecuencia relativa de este

Consideremos el siguiente problema. La probabilidad de cierto suceso aleatorio


se ha determinado estadísticamente, para lo cual se hubieron de de realizar
mas de 20 observaciones. En tal caso p´=Q, donde Q es la frecuencia relativa
p´(1  p )
del suceso;  ( p´)  de acuerdo con (I.174).
n
Los límites de confianza serán

Q  t   ( p´)
y
Q  t   ( p´)

Ejemplo. Se han efectuado cien ensayos, y el suceso a probar ha ocurrido 42


veces. Entonces

42
p´ q   0.42
100
0.42 * 0.58 0.244
 ( p´)    0.049
100 100

Imponiéndose una probabilidad de confianza =0.9, a lo que corresponde


, obtenemos los imites de confianza: 0.42-1.64*0.049=0.42-0.08=0.34 y
0.42+0.08=0.50, o sea una probabilidad de 0.9, el valor exacto de la
probabilidad de aparición del suceso a probar se halla entre los limites de 0.34
y 0.50. puede, entonces, escribirse p0.4.

21. Estimación del valor empírico de la varianza.


Aquí, al igual que en el titulo 20, se supone que la variable aleatoria observada
se distribuye según la ley normal.
Demos sin deducción la formula de la desviación típica de la varianza empírica
2
 ( D´)  D´
n 1

Cuando n  20 , para resolver el problema resulta suficiente la formula (II.18).


cuando n<20, para determinar el intervalo de confianza de la varianza, se
utiliza la variable aleatoria

( n  1) D´
V 
D
Que posee la llamada distribución X2 , cuya densidad se expresa
por la formula
n 3 v
1
k n 1 (v )  n 1
v 2
e 2

n 1
2 2
( )
2

De (II.19) se deduce

D
D´ V
N 1

Dado que la curva ,según (II.20), es asimétrica respecto al


vértice(veáse la figura 9), entonces se hace necesario convenir de qué manera
habrán de disponerse los límites de confianza a ambos lados respecto al valor
empírico de D´ (X). El limite de confianza suele trazarse de modo que las
probabilidades de que el valor de la varianza exacta se halle fuera de los limites
de confianza, tanto en mas como en menos, resulten iguales entre si. Para
establecer los límites de confianza correspondientes, en el apéndice 6 se da
una tabla para los valores de cuyas probabilidades satisfacen la condición
(II.22)

P(V  X i2 )  pi

Donde pi es cierta probabilidad de la que se hablara mas adelante.


El orden de la operaciones es el siguiente.
Se calcula el valor =1-, donde  es la probabilidad de confianza impuesta

Continuación, del apéndice 6 se obtiene X 12 y X 22 que corresponde a las


 
probabilidades p1  y p 2  1  y al numero de grados de libertad r=n-1,
2 2
donde n es el numero de observaciones. Los límites de confianza serán

D´(n 1) D´(n 1)


2
_ y_ 2
X1 X 2
Ejemplo. A partir de los datos del ejemplo 1 del titulo 20, hallar los limites de
confianza para D´(X)=0.064 , aplicando: a) la ley normal; b)la
distribución . sea la probabilidad de confianza =0.8.
Solución. a) según la ley normal, t=1.28,

2 2
 ( D´)  D´  0.064  0.021
n 1 19
De acuerdo con (II.18) . Los limites de confianza
para D´(X) 0.037 y 0.91;
para ´(X) 0.19 y 0.30;
b) por la ley de distribución :
=1-= 0.2

p1   0.1
2
p 2  1  0.1  0.9

Luego, en el apéndice 6 hallamos X 12  27.2 y X 22  11 .65 (por los


argumentos r=n-1=19, p1=0.1 y p2=0.9) y calculamos

D´(n  1) 0.064 * 19 D´(n  1)


2
  0.045 y  0.104
X1 27.2 X 22

Los límites de confianza serán:


Para la varianza 0.045 y 0.104
Para la desviación típica 0.21 y 0.32

Recordemos que los limites de confianza para (X), según la ley normal, son
iguales a 0.19 y 0.30.

Como hemos visto cuando n=20, los limites de confianza para (X), obtenidos
por la ley normal de distribución y por la distribución , no se
diferencian prácticamente. Resumiendo lo dicho en los títulos 20 y 21, pueden
formularse las siguientes reglas.
Cuando n>20, para la estimación de los parámetros empíricos fundamentales
de la distribución normal de una variable aleatoria, pueden utilizarse las tablas
de integrales de probabilidades (t) del apéndice 2, sin tener que recurrir a las
distribuciones de Student y las cuales sin embargo, se emplean
preferentemente cuando n<20. pero, para los casos cuando n<10, obtener
estimaciones confiables de los parámetros empíricos resulta imposible.

22. Comparación de la distribución empírica con la teórica

Antes que nada notemos que, si se comprueba la distribución normal, en la


mayoría de los casos resulta suficiente calcular el exceso (II.3) y la asimetría
(II.6) y estimarlos por formulas (II.4) y (II.5) así como también por (II.7) y (II.8).
en el caso general, para comparar la distribución empírica con la teórica puede
emplearse la tabla de del apéndice 6. el estudio de una serie
estadística comienza por el trazado grafico de la curva empírica de distribución
(veáse el titulo 18). Del trazado de la curva obtenida se promueve una hipótesis
sobre la posible distribución teórica. Después a intervalos iguales de la
variación de la variable aleatoria se cuenta el número de valores observado ki y
el número de valores que corresponden a la distribución teórica, esto es, npi,
donde n es el número total de observaciones, pi, la probabilidad de que la
variable aleatoria se halle comprendido en el intervalo dado.
Para la obtención de la probabilidades pi es necesario calcula previamente
e imponer la condición de que  pi  1 , o sea, de que los intervalos extremos
abarquen todos los valores restantes. Luego se calcula

(ki  npi ) 2
X 2  i 1
n

npi

Y el número de grados de libertad


r=m-3
donde m es el numero de intervalos (subordenes); 3, el numero de condiciones
m
impuestas(coincidencia de x y X ,  ´(X ) y  (x) y que  p  1 y )
i 1
el grado de concordancia de la distribución empírica con la teórica (criterio de
aceptación) se estimar por una probabilidad p, obtenida del apéndice 6 según
el argumento r y la magnitud a tabulada de (el valor de p es una
de las entradas a la tabla). Si p<0.1 la concordancia se considera
insatisfactoria. En este caso se promueve otra hipótesis o bien se revisa la
corrección del experimento
Ejemplo se han efectuado 500 mediciones del error lateral en el tiro realizado
desde un avión a un blanco en tierra. Los resultados de las mediciones 8en
milésimas de (radian) se han dispuesto en la serie estadística mostrada en el
primero y segundo renglones de la tabla 6.

Los valores de xi se reparten en subordenes Ii de modo que en cualquier


suborden se hallen comprendidos no menos de 5 valores observados y de que
el número de subórdenes sea no menor de 8.


tomado del libro de E. Wentzel <<probability theory >>, Moscow, Mir publishers, 1982.
El valor de en el ejemplo ha sido calculado por la formula
aproximada

8
1 
  2 ( x  xi ) k i 
i 1
  84  0.168
x 1

500 500

El valor de ´(X) se ha calculado por la formula  ´( X )  D´( X )


Donde

2
1
8

  ( xi  xi 1 )  ki
2
D´( X )  v´2 (v1´)2  1    ( x) 2  2.126  0.028  2.098
500

La simplificación consiste en que en cada suborden se considera que todos los


1
valores son los mismos e iguales a ( xi  xi 1 )
2

Luego se obtiene
8
(ki  npi) 2
X2   3.75
1 npi
Y un número de grados de libertad
r=8-3=5
en la tabla (apéndice 6) hallamos en el renglón r=5 para
el valor p=0.70 y para p=0.50. interpolando obtenemos para
el valor p=0.59
por cuanto p>0.5 la concordancia de la distribución empírica respecto a la
normal debe considerarse excelente. Cuando , la concordancia se
considera buena, y cuando , satisfactoria. Recordemos que en caso de
p<0.1 la concordancia se considera insatisfactoria.

23. Concepto de enlace estadístico.


En la elaboración matemática de los resultados de observaciones efectuadas al
probar nuevos instrumentos y métodos de trabajo, así como también en la
solución de una serie de otras tareas científico técnicas hay que establecer la
dependencia de los resultados obtenidos respecto a una fuente (factor)
principal o de una causa principal de errores. Si la dependencia entre los
resultados de las observaciones ha sido establecida y expresada por una
formula, puede entonces usarse para el computo precio de la estimación de la
precisión esperada del aparto a probar o para una adecuada organización de
las observaciones y la elaboración de sus resultados. En este caso, pueden
presentarse dos formas de enlace entre los índices cuantitativos y cualitativos:
la funcional y la estadística. Limitémonos solamente al estudio de los enlaces
entre dos magnitudes variables x e y aquel, en virtud del cual a cada valor de x
le corresponde un valor definido de y. Así, por ejemplo, entre el volumen de un
globo y su radio R existe el siguiente enlace funcional

4
V  R 3
3

Llamase enlace estadístico entre dos variables x e y aquel enlace cuando a


cada valor de x le corresponde una distribución de valores de y que varia en
función de la variación de x.
Ejemplo. Al probar un geodímetro CBB-1 (SVV-1) en 1953 fueron obtenidos los
resultados que se dan en la tabla 7.
Si en lugar de presentar la tabla 7 se dieran los valores de los errores de cada
observación, el enlace entre D y  ni siquiera se contemplaría. A partir de los
datos de la tabla 7, en la cual se han presentado los valores medios de los
errores, puede verse que al aumentar D de 0.4 a 2.7, el error  aumenta y solo
de pasar D de 2.7 a 4.5, disminuye. Por lo tanto, a pesar de la existente
desviación respecto a la regularidad revelada, puede afirmarse que, al ampliar
la distancia media, el valor absoluto del error medio tiende a aumentar.
Hemos visto anteriormente un ejemplo en el que entre los valores medios de
dos magnitudes variables existe un enlace estadístico de correlación. La misión
de investigador se reduce a establecer la estreches del enlace, es decir, a
estimar el grado de proximidad entre los enlaces funcional y de correlación, y
establecer la forma de dicho enlace por medio de una formula que permita
calcular previamente los valores medios de una variable a partir de los valores
dados de la otra. Los enlaces de correlación se dividen en lineales y no
lineales. Estudiemos por ahora solo los enlaces lineales; acerca de los no
lineales se hablara al final de la segunda parte del curso.

24. Coeficiente de correlación.


El coeficiente de correlación representa la medida de estreches de un enlace
de correlación lineal, y se calcula por la formula

n *

 ( xi  x )( y i  y )
r i 1

( n  1) ´( X ) ´(Y )

Donde

xi x1x1x3...xn
yi y1 y 2 y 3... yn
Son diversos los valores de xi e yi obtenido de las observaciones


La magnitud se llama momento de correlación.
n

 xi es la media aritmética de la variable X;


x i 1

n
n

 yi es la media aritmética de la variable Y;


y i 1

n
n, el numero de observaciones (de los valores de xi, yi); ´(X), la desviación
típica de X (estándar de X); ´(Y), la desviación típica de Y (estándar de Y)
las magnitudes ´(X) y ´(Y) se calculan por las formulas (II.2)

n n

 ( xi  x) 2 y  ( yi  y) 2

 ´( X )  i 1
 ´(Y )  i 1

n 1 n 1

Así, pues, si las figuras graficas preliminares muestran que el enlace entre X e
Y se aproxima al enlace lineal (los puntos en la grafica en tal caso, se disponen
cerca de la línea recta), entonces se calculan las medias aritméticas
las desviaciones y por ellas, aplicando la formula (II.2) se
calculan las desviaciones típicas ´(X) y ´(Y) y, finalmente, por la formula
(II.24), el coeficiente de correlación.

25. Propiedades de coeficiente de correlación. Ecuación de regresión


veamos las propiedades básicas del coeficiente de correlación.
1. el coeficiente de correlación varía entre los límites –1 y +1, es decir,


de (II.24) es fácil obtener la formula

2
 n 
  ii 
r2   i 1 
n 2 n 2

( i )(i )
i 1 i 1

donde

i  xi  x y i  yi  y
pero en álgebra se demuestra la desigualdad

2 2 2
 n  n n
 i i   (  i )(  i )
 i 1  i 1 i 1
de donde resultan las desigualdades

 1  r  1
 1  r  1

2. cuando el coeficiente de correlación es igual a +1 o –1 entre x e y existen


enlaces rectilíneos exactos, es decir,
Y=aX+c,
X=bY+d
Cuando r igual a +1, al aumentar o disminuir X, aumenta o disminuye Y, en el
caso en el que r igual a –1, al agrandar X diminuye Y, y al disminuir X aumenta
Y.
3. si r=0 entonces entre X e Y no existe enlace rectilíneo de correlación (puede
existir enlace no lineal)
cuanto mas se aproxime el coeficiente de correlación r a +1 o a –1 tanto mas
cercano será el enlace de correlación entre las variables X e Y al enlace
funcional; mientras mas se aproxime a 0 el coeficiente de correlación las
variables X e Y resultaran cada vez menos enlazadas.
Naturalmente surge la pregunta ¿con que grado de fiabilidad se calcula el valor
del coeficiente de correlación y con que valor mínimo absoluto de este puede
aun considerarse existente el enlace?
Para un numero de observaciones n>50 V. Romanovski (47, pagina 184)
recomienda para evaluar la desviación típica de coeficiente de correlación
aplicar la formula
1 r2
 (r ) 
n

El enlace se considera establecido si se cumple la siguiente condición

r  3 () r

Ejemplo. Supongamos que, como resultado de ciertos cálculos se halla


obtenido un coeficiente de correlación r=+0.26; n=394.
Estimemos la precisión del coeficiente de correlación
1  (0.26) 2
 (r )   0.047
394

Ya que , (0.26>0.14), puede entonces considerarse establecido un


enlace lineal de correlación.
Para la estimación de la fiabilidad del coeficiente de correlación cuando n<50,
se utiliza una función especial llamada criterio de Fisher (23, pagina 242)

1
z ln(1  r )  ln(1  r 
2

La cual se supedita a la ley normal de distribución. La desviación típica de la


magnitud z se calcula por la formula
1
 (z) 
n3
Los valores de las magnitudes de z obtenidos a partir de los valores empíricos
del coeficiente de correlación r pueden ser calculados directamente por la
formula o por medio de las tablas que se dan en el apéndice 7. Mostremos en
un ejemplo la aplicación del criterio de Fisher.

Ejemplo. En la tabla 8 se asumen los resultados de las pruebas de un


geodímetro SVV-1 en 1955. determínese el coeficiente de correlación que
caracteriza la estrechez del enlace entre longitudes medidas D de las líneas y
sus errores y estímese la precisión del coeficiente de correlación
empleando el criterio de Fisher. Basándonos en los datos de la tabla 8,
obtenemos
´(D)=2.25; ´(m)=1.85; r=0.60; z=0.69 hallado por las tablas del apéndice 7 y

1
 ( z)   0.41
93

Con una probabilidad igual a 0.68 (t=1), la magnitud z puede tomar los valores

0.28  z  1.10

En la misma tabla (apéndice 7 ) usando el valor de los extremos de z en (II.29)


hallamos sus correspondientes valores del coeficiente de correlación

0.27  r  0.80

Puesto que el intervalo de confianza que es igual a 0.80-0.27=0.53, es menor


que el valor absoluto del coeficiente de correlación (0.60) entonces puede
considerarse establecida la correlación lineal. Esta claro que, siendo n=9, la
cuestión no puede considerarse resuelta con suficiente fiabilidad. En general,
cuando n<20 resulta difícil hablar del establecimiento fiable de enlaces de
correlación.
Para deducir una formula empírica que refleje un enlace rectilíneo de
correlación entre las variables X e Y se utiliza la ecuación

yi  y   y / x ( xi  x)

Donde es el coeficiente de regresión de Y sobre X, que se calcula


por la formula

 ´(Y )
y/x  r
 ´( X )

En el caso de un enlace rectilíneo de correlación entre las variables existe una


ecuación de regresión que posee la siguiente forma
xi  x   y / x ( yi  y )

Donde es el coeficiente de regresión de X sobre Y, igual a

 ´( X )
x/ y  r
 ´(Y )

Sin embargo, en muchos casos la ecuación de la forma (II.32) carece de


sentido si se estudia la dependencia de Y de X; así en el ejemplo anterior,
nadie va a determinar a partir de los errores de las mediciones la distancia
D.
La desviación típica de los coeficientes de regresión en un numero n grande se
calcula por las formulas

 ´(Y ) 1  r 2
 ( y / x ) 
 ´( X ) n  3
 ´( X ) 1  r 2
 ( x / y ) 
 ´(Y ) n  3

Para su empleo practico la ecuación (II.31) conviene reducirla a la formula


siguiente

yi   y / x xi  ( y   y / x x)

De la formula (II.34) es fácil ver que el coeficiente de regresión de la tangente


del ángulo de inclinación de la recta, y el sumando constante es el
segmento que corte dicha recta sobre el eje de coordenadas.
Ejemplo. En la tabla 9 se asumen las distancias de D medidas con un
geodímetro SVV-1 y los errores  de estas líneas.
Con los datos de la tabla 9, calcúlense los coeficientes de correlación, el
coeficiente de regresión; estímese la precisión de estos con una probabilidad
=0.68 y compóngase la ecuación de regresión.
A partir de los datos obtenidos de los calculados efectuados en la tabla 9,
obtenemos

61.47
 ´(D )   1.80
19
39.20
 ´( )   1.42
19

El coeficiente de correlación según (II.30) será igual a

38.54
r  0.79
19 * 1.80 *1.42
Estimemos la fidelidad del coeficiente de correlación. Dado que el numero n de
observaciones es comparativamente pequeño para la estimación aplicaremos
el criterio z de Fisher.
En la tabla del apéndice 7 valiéndonos del coeficiente de correlación r=+0.79
como argumento, hallamos

Estimemos la fiabilidad de z por la formula (II.28)

1
 ( z)   0.243
20  3

Con una probabilidad de 0.68 (t=1), la magnitud z puede tomar los valores
1.071   ´(z )  z  1.071   ´(z )

Por la tabla del apéndice 7 hallamos los valores del coeficiente de correlación
que corresponden a los valores extremos de z (0.83 y 1.31)
0.828  z  1.314

En consecuencia con una probabilidad de =0.68 el verdadero coeficiente de


correlación puede ser comprendido entre +0.68 y +0.86. Puesto que el intervalo
de confianza para r es menor que el valor absoluto de r (0.86-0.68<0.79),
entonces puede considerarse establecido un enlace rectilíneo de correlación.
Compongamos la ecuación de regresión de  sobre D

Sustituyendo en (II.36) los valores numéricos de , obtenemos

1.42 1.42
 i  0.79 Di  (3.8  0.79 4.9)
1.80 1.80
 i  (0.62 Di  0.76)cm

(Di son las distancias en kilómetros)


estimemos aproximadamente la fiabilidad del coeficiente de regresión

por lo tanto

  / D   (   / D )  0.62  0.12
con una probabilidad =0.68

También podría gustarte