Está en la página 1de 24

EL PROBABLE ERROR DE UN MEDIO

Por ESTUDIANTE

Introducción
UN Se puede considerar que cualquier experimento forma un individuo de una "población" de
experimentos que podría realizarse en las mismas condiciones. Una serie de experimentos es una muestra
extraída de esta población.
Ahora bien, cualquier serie de experimentos sólo tiene valor en la medida en que nos permite formarnos un
juicio sobre las constantes estadísticas de la población a la que pertenecen los experimentos. En un mayor
número de casos, la pregunta finalmente gira en torno al valor de una media, ya sea directamente o como la
diferencia de medias entre las dos cantidades.

Si el número de experimentos es muy grande, podemos tener información precisa sobre el valor de la
media, pero si nuestra muestra es pequeña, tenemos dos fuentes de incertidumbre: (1) debido al "error de
muestreo aleatorio" la media de nuestra serie de experimentos se desvía más o menos ampliamente de la
media de la población, y (2) la muestra no es lo suficientemente grande para determinar cuál es la ley de
distribución de los individuos. Sin embargo, es habitual asumir una distribución normal, porque, en un gran
número de casos, esto da una aproximación tan cercana que una muestra pequeña no dará información
real sobre la manera en que la población se desvía de la normalidad: ya que Debe asumirse alguna ley de
distribución que es mejor trabajar con una curva cuyo área y ordenadas estén en una tabla y cuyas
propiedades sean bien conocidas. En consecuencia, esta suposición se hace en el presente documento,
por lo que sus conclusiones no son estrictamente aplicables a poblaciones que se sabe que no están
distribuidas normalmente; sin embargo, parece probable que la desviación de la normalidad deba ser muy
extrema para cargar con un error grave. Aquí nos ocupamos únicamente de la primera de estas dos fuentes
de incertidumbre.

El método habitual para determinar la probabilidad de que la media de la población se encuentre


dentro de una distancia dada de la media de la muestra es asumir una
dist normal √ Retribución sobre la media de la muestra con una desviación estándar.
igual a s / n, dónde s es la desviación estándar de la muestra, y para usar las tablas de la integral de
probabilidad.
Pero, a medida que disminuimos el número de experimentos, el valor de la desviación estándar hallada en
la muestra de experimentos se vuelve en sí mismo sujeto a un error creciente, hasta que los juicios alcanzados
de esta manera pueden resultar completamente engañosos.

En el trabajo de rutina hay dos formas de abordar esta dificultad: (1) un experimento puede repetirse
muchas veces, hasta que se obtenga una serie tan larga que la desviación estándar se determine de una
vez por todas con suficiente precisión. Este valor se puede utilizar para posteriores series más cortas de
experimentos similares. (2) Cuando los experimentos se realicen por duplicado en el curso natural del
trabajo,
el cuadrado medio de la diferencia entre correspondencias √ ding pares es igual a la desviación estándar de
la población multiplicada por 2. Llamamos así combinar

1
juntas varias series de experimentos con el fin de determinar la desviación estándar. Sin embargo, debido
al cambio secular, el valor obtenido es casi siempre demasiado bajo, y los experimentos sucesivos están
correlacionados positivamente.
Sin embargo, hay otros experimentos que no se pueden repetir fácilmente con mucha frecuencia; en tales
casos, a veces es necesario juzgar la certeza de los resultados de una muestra muy pequeña, que en sí misma
constituye la única indicación de la variabilidad. Algunos experimentos químicos, muchos biológicos y la mayoría
de los experimentos agrícolas ya gran escala pertenecen a esta clase, que hasta ahora ha estado casi fuera del
alcance de la investigación estadística.

Nuevamente, aunque es bien sabido que el método de usar la curva normal solo es confiable cuando
la muestra es "grande", nadie nos ha dicho todavía con mucha claridad dónde se debe trazar el límite entre
muestras "grandes" y "pequeñas". .
El objetivo del presente artículo es determinar el punto en el que podemos usar las tablas de la integral
de probabilidad para juzgar la significancia de la media de una serie de experimentos, y proporcionar tablas
alternativas para usar cuando el número de experimentos es demasiado pocos.

El documento se divide en las siguientes nueve secciones:

I. La ecuación se determina a partir de la curva que representa la distribución de frecuencia de las


desviaciones estándar de muestras extraídas de una población normal.

II. Se demuestra que no existe ningún tipo de correlación entre la media y la desviación estándar de dicha
muestra.

III. La ecuación se determina a partir de la curva que representa la distribución de frecuencia de una
cantidad. z, que se obtiene dividiendo la distancia entre la media de una muestra y la media de la población
por la desviación estándar de la muestra.

IV. Se discute la curva que se encuentra en I.

V. Se discute la curva que se encuentra en III.

VI. Las dos curvas se comparan con algunas distribuciones reales.

VII. Las tablas de las curvas encontradas en III se dan para muestras de diferente tamaño. VIII y IX. Se

explican las tablas y se dan algunos ejemplos de su uso.

X. Conclusiones.

Sección 1
Muestras de norte los individuos se extraen de una población distribuida normalmente, para encontrar una
ecuación que represente la frecuencia de las desviaciones estándar de estas muestras.

Si s ser la desviación estándar encontrada en una muestra X 1 X 2. . . X n ( todos estos


se mide a partir de la media de) la población), entonces
( 2
S (x 21) - S (x 1) S (x 21) - S (x 2 1) - 2 S (x 1 X 2)
s2= = .
norte norte norte norte 2 norte 2

2
Sumando todas las muestras y dividiendo por el número de muestras obtenemos el valor de gemido de s 2,
que escribiremos s̄ 2:

2
nµ 2 - nµ 2 = 2 µ (n - 1)
s̄ = ,
norte norte 2 norte

dónde µ 2 es el segundo coeficiente de momento en la distribución normal original de


X: ya que X 1, X 2, etc. no están correlacionados y la distribución es normal, los productos
involucrando poderes extraños de X 1 desaparecen al sumar, de modo que 2 S (x 1 X 2) es igual a 0.
norte 2

Si METROR′ representar
el R Coeficiente de momento de la distribución de s 2 acerca de
el final del rango donde s 2 = 0,


( norte - 1)
METRO 1 = µ 2 .
norte

Otra vez {

( )} 2
4
S (x 21)) 1)
s= - S (x
norte norte
( ( ) 2 ( ) 4
S (x 2)1 2 - 2 S (x 2 1)
S (x 1) S (x) 1
= +
norte norte norte norte

S (x 4)1 + 2 S (x 21 X
2
2) - 2 S (X 4
1) - 4 S (x 2 1 X 2)
2
S (x 41)
= +
norte 2 norte 2 norte 3 norte 3 norte 4

6 S (x 21 X 2)
2 + otros términos que involucran poderes extraños de X 1, etc. que
+
norte 4

desaparecerá con la suma.

Ahora S (x 4 1) tiene norte términos, pero S (x 2 1 X 2)


2 tiene 1 2 n (n - 1), por lo tanto, sumando todos
muestras y dividiendo por el número de muestras, obtenemos

µ4+µ 2( norte - 1) - 2 µ4- 2 µ 2( norte - 1) µ4+3 µ 2( norte - 1)


METRO
2
′=
2 2
+ 2
norte norte norte 2 norte 2 norte 3 norte 3

3 {2 - 2n+1 µ 22 ( norte - 1) { norte 2 - 2 n + 3}.


= µ 4 nn } +
norte 3

Ahora, desde la distribución de X es normal, µ 4 = 3 µ 2 2, por lo tanto

( norte - 1) {3 norte - 3 + norte 2 - 2 n + 3} = µ 2 ( norte - 1) ( n + 1)


METRO
2=µ2

2 2
.
norte 3 norte 2

De una manera tediosa similar, encuentro

( norte - 1) ( n + 1) ( n + 3)
METRO
3=µ3

2
norte 3

y
′ 4( norte - 1) ( n + 1) ( n + 3) ( n + 5)
METRO 4 = µ 2 .
norte 4

3
La ley de formación de estos coeficientes de momento parece ser simple, pero no he visto el camino
hacia una prueba general.
Si ahora METRO R ser el R coeficiente de momento de s 2 sobre su media, tenemos

2 ({ norte - 1) {( n + 1) ( norte - 1)
METRO 2 = µ 2 - ( norte - 1)} = 2 µ 2 2
.
norte 3 norte 2
}
3
( norte - 1) ( n + 1) ( n + 3) - 3 ( norte - 1) (2 ( norte - 1) - ( norte - 1) 3
METRO 3 = µ 2 .
norte 3 norte norte 2 norte 3

3( norte - 1)
= µ2 { 2n + 4 n + 3 - 6 n + 6 - norte 2 + 2 norte - 1} = 8 µ 3 ( norte - 1) 2
,
norte 3

µ4 { norte 3 }
METRO 4 = 2 ( norte - 1) ( n + 1) ( n + 3) ( n + 5) - 32 ( norte - 1) 2 - 12 ( norte - 1) 3 - ( norte - 1) 4
norte 4

µ 4 ( -)
= 2 norte 1 { norte 3 + 9 norte 2 + 23 n + 15 - 32 n + 32
norte 4

- 12 norte 2 + 24 norte - 12 - norte 3 + 3 norte 2 - 3 n + 1}

12 µ 42( norte - 1) ( n + 3)
= .
norte 4

Por lo tanto

METRO
3
2 8 METRO 4 = 3 ( n + 3)
β1= 3 = -, β 2norte
=
,
METRO 2 1 METRO
2
2 norte - 1)

dieciséis( n + 3) - 24 - 6 ( norte - 1)} = 0.


∴ 2 β2- 3 β1 -6=
norte - 1

En consecuencia, se puede esperar que una curva de tipo III del profesor Pearson se ajuste a la distribución de s 2.

La ecuación referida a un origen en el extremo cero de la curva será

y = Cx pags mi - γx,

dónde
METRO 2 = 4 µ 22( norte - 1) norte 3 norte
γ=2 =
METRO 3 8 norte 2 µ 2
2 ( norte - 1)
2 µ2

y
4-1= norte - 1 - 1 = norte - 3
p= .
β1 2 2

En consecuencia, la ecuación se convierte en

y = Cx norte 3 mi2 - nx 2 µ 2,

que dará la distribución ∫ de s 2.



dx = I ( decir). El primer momento
-

El área de esta curva es C 0


X norte23 mi - nx 2µ2

coe ffi

x=∞
∫ ciente

sobre el final [del rango t]
- 2por
µ 2 lo tanto
- 1 - nx
mi
seránorte
∫∞ - 3 - nx

X norte21 mi - nx 2 µ 2 dx
- 2µ2 norte
C norte X norte - 1
C
2
C
0 x=0+ 0 norte µ 2 X 2 mi 2 µ 2 dx
= .
yo yo yo

4
La primera parte desaparece en cada límite y la segunda es igual a

norte - 1
norte - 1
norte µ 2 yo
= µ.2
yo norte

y vemos que los coeficientes de momento más altos se formarán multiplicando sucesivamente por n + 1

norte µ 2, n + 3 norte µ 2 etc., tal como le pareció la ley de formación


de METRO ′
2, METRO 4, ′ etc.
3, METRO

Por tanto, es probable que la curva encontrada represente la distribución teórica


bution de s 2; de modo que, aunque no tengamos pruebas reales, asumiremos que lo hace en lo que sigue.

La distribución de s que pueda encontrar a partir de esto, ya que la frecuencia de s es igual a la de s 2 y todo lo
que debemos hacer es comprimir adecuadamente la línea base.
Ahora si y 1 = φ (s 2) ser la curva de frecuencia de s 2
y y 2 = ψ (s) ser la curva de frecuencia de s,
luego

y 1 d (s 2) = y 2 ds,

y 2 ds = 2 y 1 sds,

∴ y 2 = 2 sy 1.

Por lo tanto

y 2 = 2 Cs (s 2) norte - 3 2 mi - ns 2 2 µ 2.

es la distribución de s.
Esto se reduce a
y 2 = 2 Cs norte - 2 mi - ns 2 2 σ 2.

Por lo tanto y = Ax norte - 2 mi - s 2 2µ2 dará la distribución de frecuencia de estándar

desviaciones de muestras de norte, extraído de una población distribuida normalmente con


desviación estándar ∫ ∞ción σ 2. El constante UN que pueda encontrar equiparando el área de
la curva de la siguiente manera:

( ∫∞ )
2 2
-

Área = UN X norte - 2 mi 2- σnx2 dx. Dejar yo pags representar X pags mi - nx2 σ 2 dx.
0 0

Luego

)
σ2∫ ∞
yo p = X pags - 1 d ( 2σ2 dx
norte 0 dx
] - mi - nx 2 ∫∞
σ2[ σ 2 ( pags - 1) 2

= - X pags - 1 mi - 2nxσ 22 x = ∞ + X pags - 2 mi - 2X σ 2 dx


norte x=0 norte 0

σ2
= ( pags - 1) yopags
-, 2
norte

ya que la primera parte se desvanece en ambos límites.

5
Continuando con este proceso ( ess w) e encontrar

norte - 2

σ2 2

yo norte - 2 = ( norte - 3) ( norte - 5). . . 3.1 Yo n 0

o
() norte - 2
σ2 2

yo norte - 2 = ( norte - 3) ( norte - 5). . . 4.2 yo 1


norte

conforme norte es par o impar ∫ .


Pero yo 0 es
√(π
∞ )
mi - nx2 σ2 2 dx = σ,
0 2 n] x = ∞

y yo 1 es
∫∞ [
-
nx 2 σ 2 - nx 2 σ2
xe 2 sigma 2 dx = - mi 2 σ 2 = .
0 norte norte
x=0

Por tanto, si norte se justo,

Zona √ () () norte - 1,
A=
π σ2 2
( norte - 3) ( norte - 5). . . 3.1
2 norte

mientras es norte ser raro


Zona
A=
() norte - 1.
2
( norte - 3) ( norte - 5). . . 4.2 σ 2
norte

Por tanto, la ecuación puede ser wr √ diez)


eso(

norte 2 ( n) norte - 1 2 X norte - 2 mi - nx 2


y= 2σ2( norte incluso)
( norte - 3) ( norte - 5). . . 3.1 π σ2

o
( n) norte - 1
norte 2 X norte - 2 mi - nx 2
y= 2σ2( norte impar)
( norte - 3) ( norte - 5). . . 4.2 σ 2

dónde norte como de costumbre representa la frecuencia total.

Sección II
Para demostrar que no existe correlación entre ( un) la distancia entre la media de una muestra y la
media de la población y ( segundo) la desviación estándar de una muestra con distribución normal.

(1) Las posiciones claramente positivas y negativas de la media de la muestra son igualmente
probables y, por lo tanto, no puede haber correlación entre el valor absoluto de la distancia de la media a la
media de la población y el estándar.

6
desviación, pero (2) puede haber correlación entre el cuadrado de la distancia
y el cuadrado del (e stand) ard desviación. Dejar

( ) 2
2
S (x) 12 S (x) 1 - S (x) 1
tu 2 = y s2= .
norte norte norte

Entonces sí metro1,′ METRO


1 ser
′ los valores medios de tu 2 y s z, tenemos por la parte anterior

( norte - 1) µ
METRO
1
′=µ2 y metro ′ = 2.1
norte norte

Ahora

( ) ( )
22
S (x 2) S (x) 2 - S (x
1 1) 4
nosotros =
norte norte norte
(1 )
S (x 2)1 2 S (xx)1 2.S (x 2) 1-
S (x 4)1 - 6 S (x 21 X
2
2)
= +2
norte norte 3 norte 4 norte 4

- otros términos de orden impar que desaparecerán al sumarlos.

Sumando todos los valores y dividiendo por el número de casos obtenemos

µ 2( norte - 1) - µ 4 - 3 µ 2 ( norte - 1)
R tu 2 s 2 tuσ σ2 +
s m2 M = 4 + µ
1 1 2 2
,
norte
2 norte 2 norte 3 norte 3

dónde R tu 2 s 2 es la correlación entre tu 2 y s 2.

2( norte - 1) 2( norte - 1) 2( norte - 1)


R tu 2 s σ2 tu 2 σ s 2 + µ 2 = µ2 { 3 + norte - 3} = µ 2
.
norte 2 norte 3 norte 2

Por lo tanto R tu22 s σ tu 2 σ s 2 = 0, o no hay correlación entre tu 2 y s 2.

Sección III
Para encontrar la ecuación que representa la distribución de frecuencia de las medias de muestras de norte
extraído de una población normal, la media se expresa en términos de la desviación estándar de la
muestra.
2

Tenemos y = C
norte - 2 - nx
mi 2σ2 como la ecuación que representa la distribución
σ norte - 1 s
de s, la desviación estándar de una muestra de norte, cuando las muestras se extraen de una población normal
con desviación estándar s.
Ahora los medios de estas muestras √ s de norte se distribuyen según la ecuación
ción 1

y = √ ( n) N mi - nx2 σ2 2,
(2 π) σ

y hemos demostrado que no existe correlación entre X, la distancia de la media de la muestra, y s, la


desviación estándar de la muestra.

1 Aireado, Teoría de los errores de las observaciones, Parte II, § 6.

7
Ahora supongamos X medido en términos de s, es decir, encontremos la distribución
de z = x / s.
Si tenemos y 1 = φ (x) y y 2 = ψ (z) como las ecuaciones que representan la frecuencia de X y de z respectivamente,
entonces

dx
y 1 dx = y 2 dz = y 3 s ,

∴ √y 2 = sy 1.

Por lo tanto
norte
y= √ ( n) s mi - ns 22 zσ 22
(2 π) σ

es la ecuación que representa la distribución de z para muestras de norte con desviación estándar s.

Ahora la posibilidad de que s li ∫ es entre s y s + ds es

s + ds C s norte - 2 mi 2 2- ds
ns 2
σ
s ∫∞ σ norte - 1

C s norte - 2 mi - ns 22 σ 2 ds
-1
0 σ norte

que representa el norte en la ecuación anterior.


De ahí el d √ () atribución de z debido a valores de s que se encuentran entre s y s + ds
es

∫ s + ds ∫ C 2
√ ( n) ∫ s + 2 (1+ z 2)
norte norte - 1 - ns 2 (1+ z)
s σ norte 2πs
mi 2σ2 ds s mi 2 2σ ds
s σ norte
y= = ∫ ds∞ C n - 1 - ns
∞ C s norte - 2 mi - ns 22 σ 2 ds 2π C s norte - 2 mi - ns 2
2 σ 2 ds
- -
0 σ norte 1 0 σ norte 2

y sumando todo el valor √ es (de) s ∫ tenemos como ecuación que da la distribución


de z
ns 2 (1+ z 2)
norte s+

s σ norte s
2 2σ ds
y= ∫ ds∞ C n - 1 mi - 2
.
σ C
2σ2 ds
0 σ norte - 2 s norte - 2 mi - ns

Por lo que ya hemos probado, esto se reduce a

1 norte - 2 norte - 4 53 2
y= . .... ( 1 + z) - 1 2 norte, Si norte ser raro
2 norte - 3 norte - 5 42

y para
1 norte - 2 norte - 4 42 2
y= . .... ( 1 + z) - 1 2 norte, Si norte se justo
2 norte - 3 norte - 5 3 21

Dado que esta ecuación es independiente de σ dará la distribución de la distancia entre la media de
una muestra y la media de la población expresada en términos de la desviación estándar de la muestra
para cualquier población normal.

8
Sección IV. Algunas propiedades del estándar
Curva de frecuencia de desviación

Por un método similar al adoptado para encontrar la constante podemos encontrar


la media y los momentos: así, la media está en yo norte - 1 / yo norte - 2,
que es igual a
√ ()
norte - 2 norte - 4 2 2 √, Si σ
norte se justo,
.
norte -.3 norte -.5. 1√ π norte

o
norte - 2 norte - 4 3 ( π)
.. √σ , Si norte sea extraño.
norte -.3 norte -. 5 2 2 norte

El segundo momento sobre el final del rango es

yo n = ( norte - 1) σ 2
.
yo norte - 2 norte

El tercer momento sobre el final del rango es igual a

yo n + 1 = yo n + 1 En - 1
.
yo norte - 2 yo norte - 1 yo norte - 2

= σ 2 × el significado.

El cuarto momento sobre el final del rango es igual a

yo n + 2 = ( norte - 1) ( n + 1)
σ 4.
yo norte - 2 norte 2


Si escribimos la distancia de la media desde el final del rango Dσ / n y
los momentos sobre el final del rango ν 1, ν 2, etc.,
luego
re norte - 1 Dσ 3 norte 2 - 1
ν1= √σ ,ν= 2 σ 2, ν 3 = √, ν 4 = σ 4.
norte norte norte norte

De esto obtenemos los momentos sobre la media:

σ2
µ2= ( norte - 1 - re 2),
norte

σ3 σ 3 D { 2 re 2 - 2 n + 3},
µ 3 = √ { Dakota del Norte - 3 ( norte - 1) D + 2 re 2} = √
nn nn

σ 2 { norte 2 - 1 - 4 re 2 n + 6 ( norte - 1) re 2 - 3 re 4}
µ4=
norte 2

σ 4 { norte 2 - 1 - re 2 ( 3 re 2 - 2 n + 6)}.
=
norte 2

Es interesante averiguar en qué se convierten cuando norte es largo.

9
Para hacer esto debemos averiguar cuál es el valor de RE.
Ahora la expresión de Wallis para π derivado del valor del producto infinito de pecado X
es
2
π 2 .4 2. 6 2. . . ( 2 norte) 2
(2 n + 1) = .
2 1 2 3 2 5 2. . . () 2 norte - 1) 2
(
Si asumimos una cantidad θ = a 0 + un 1 n + etc.que podemos agregar a los 2 n + 1
para hacer th aproximarse más rápidamente a la verdad, es fácil
1 (+ 1
para mostrar que θ = - e expreso D tenemos 2
2 dieciséis norte - etc., una)

π 1 1 2 2. 4 2. 6 2. . . ( 2 norte) 2
2n++ = .
2 2 dieciséis norte 1 2 3 2 5 2. . . ( 2 norte - 1) 2

De esto encontramos que si norte ser par o impar re 2 se aproxima a norte -


3+1
2 8 norte cuando norte es largo.
Subst ( ituting th) es el valor de √ RE( obtenemos

)
3 1 ( )
σ2 1
σ 1-3 2 n + dieciséis norte 2 3 σ41 + 1- 1
µ2= 1 - , µ2= , µ4= .
2 norte 4 norte 4 norte 2 4 norte 2 2 norte dieciséis norte 2

En consecuencia, el ( valor del estándar) rd desviación de una desviación estándar

que hemos encontrado √ √σ se convierte en el mismo que se encontró para


(2 n) { 1 - ( 1/4 norte) }

la curva normal del Prof. Pearson { σ / ( 2 norte)} cuando norte es lo suficientemente grande como para descuidar el 1/4 norte en

comparación con 1.

Descuidar términos de orden inferior a 1 ( /norte, nosotrosDakota


fi) del Norte(

)
-3
2 norte 1 1
β1= , β) = 3 21 - 1+ .
norte( 4 norte - 3) 2 norte 2 norte

En consecuencia, como norte aumenta, β 2 muy pronto se acerca al valor 3 del


curva normal, pero β 1 desaparece más lentamente, de modo que la curva permanece ligeramente sesgada.

El diagrama I muestra la distribución teórica de las desviaciones estándar encontradas en muestras de


10.

Sección V.Algunas características de la curva


4. 2
norte - 2 norte - 4
3 π Si norte se justo
y = -. -. . . (1 + z 2) - 1 2 norte
531
norte 3 norte 5
4. 2. 2 Si norte ser raro

norte
Escritura z = broncearse θ la ecuación se convierte en y = norte -
- 2.3 norte
norte norte --5.4 . . etc. × porque θ, cual
a ff orde una manera fácil de dibujar la curva. también dz = dθ / porque 2 θ.

2 Se encontrará que esta expresión da una aproximación mucho más cercana a π que el de Wallis

10
Por lo tanto, para encontrar el área de la curva entre cualquier límite, debemos encontrar


norte - 2 norte -4
.. etc. × ∫ porque norte - 2 θdθ [
-. 3-.norte
norte {- 5
]}
- 2 norte 4 -
norte porque norte - 3 θ pecado θ
= -. -. . . etc. porque norte - 4 θdθ +
norte 3 norte 5 - 2
norte norte - 2
∫ norte 3
norte - 2 norte - 4 1 norte - 4
= -. -. . . etc. porque norte - 4 θdθ + - ... etc. [porque norte - 3 θ pecado θ],
norte 3 norte 5 norte 3 norte - 5

y continuando el procesar la integral puede ser evaluado.


Por ejemplo, si quisiéramos ∫ h para encontrar el área entre 0 y θ para n = 8 tenemos

θ
6421
Área =. . . porque 6 θdθ
53∫1π0
θ
42 142
=. porque 4 θdθ +. . porque 5 θ pecado θ
3π 0 53π
θ 1 12 142
= + porque θ pecado θ +. porque 3 θ pecado θ +. . porque 5 θ pecado θ
π π 3π 53π

y se notará que por n = 10 simplemente tendremos que agregar a este mismo


7
expresión el término 1 7. 6 5. 2 π porque θ pecado θ.
4 3.

11
Las mesas al final
( del papel dan el área b) entre −∞ y z
π
o θ = - y θ = broncearse - 1 z.
2

Esto es lo mismo que 0.5 + el área entre θ = 0, y θ = broncearse - 1 z, y como el área total de la curva es
igual a 1, las tablas dan la probabilidad de que la media de la muestra no difiera en más de z multiplicado
por la desviación estándar de la muestra de la media de la población.

Toda el área de la curva es igual a ∫


1
+
norte - 2 norte - 4 2 π
.. . CE
t ×. porque norte - 2 θdθ
norte -.3 norte - 5 -1 2 π

y dado que todas las partes entre los límites desaparecen en ambos límites, esto se reduce a
1.
Del mismo modo, la segunda mamá ∫ coeficiente ent es igual a

1
+
norte - 2 norte - 4 2 π
porque norte - 2 θ broncearse 2 θdθ
-. 3-.norte
norte . . etc.
5 × -1
2 π
∫ +1
- 2 norte - 4
norte 2 π
= (porque norte - 4 θ - porque norte - 2 θ) dθ
norte -.3 -. 5.
norte . etc. × -1 2 π

norte - 2 1
= .
norte 3
--1= norte - 3

Por tanto, la desviación estándar de la curva es 1 / ( norte - 3). El cuarto mes
coeficiente de ment es igual ∫ a
1
+
- 2 norte 4 -
norte 2 π
× porque norte - 2 θ broncearse 4 θdθ
norte 3-.norte
-. . .5etc. -1
2 π
∫ +1
norte - 2 norte - 4 2 π
= (porque norte - 6 θ - 2 cos norte - 4 θ + porque norte - 2 θ) dθ
norte -.3 5 . . etc. ×
norte -. -1
2 π

norte - 2 norte - 4 2 ( norte - 2) 3


= -. - - +1= .
norte 3 norte 5 - 3
norte - 3) ( norte - 5)
( norte

Los momentos impares son, por supuesto, cero, y la curva es simétrica, por lo que

3 ( norte - 3) 6
β 1 = 0, β 2 = =3+ .
- 5
norte norte - 5

De ahí que √ incre as la curva se acerca a la curva normal cuyo estándar


la desviación es 1 / ( norte - 3).
β 2, sin embargo, siempre es mayor que 3, lo que indica que las grandes desviaciones son simplemente comunes
que en la curva normal.

He presentado el área de la curva normal con una desviación estándar de 1/7 para compararla con mi
curva de n = 10 3. Se verá que las probabilidades puestas
3 Ver pág. 29

12
de acuerdo con cualquiera de las tablas no diferiría seriamente hasta que alcancemos z = 0.8, donde las probabilidades son
aproximadamente de 50 a 1 de que la media está dentro de ese límite: más allá de eso, la curva normal da una falsa
sensación de seguridad, por ejemplo, de acuerdo con la curva normal es de 99,986 a 14 (digamos 7000 a 1) que la media
de la población se encuentra entre −∞ y +1,3 s, mientras que las probabilidades reales son solo de 99,819 a 181
(aproximadamente 550 a 1).

Ahora, 50 a 1 corresponde a tres veces el error probable en la curva normal y para la mayoría de los
propósitos se consideraría significativo; por esta razón solo he presentado mis curvas para valores de norte no
mayor de 10, pero han dado el n = 9 y n = 10 tablas a un lugar más de decimales. Se pueden utilizar como
base para encontrar valores para muestras más grandes. 4

La mesa para n = 2 se pueden construir fácilmente mirando θ = broncearse - 1 z


en las mesas de Chambers y luego 0.5 + θ / π da el valor correspondiente.
similar 1 2 pecado θ + 0.5 da los valores cuando n = 3.
Hay dos puntos de interés en el n = 2 curva. aquí s es igual a la mitad
la distancia entre las dos observaciones, tan - 1 s s=π 4, para que entre + s
y - z mentiras 2 × π
4× 1 πo la mitad de la probabilidad, es decir, si se han realizado dos observaciones
hecho y no tenemos otra información, es incluso una posibilidad de que la media de la población (normal)
se encuentre entre ellos. Por otro lado el segundo

4 Por ejemplo, si n = 11, al valor correspondiente para n = 9, agregamos 7 × 5 × 3 × 1 × 1 porque 8 θ pecado θ:


8 6 4 2 2

Si n = 13 también agregamos 9 × 7 × 5 × 3 × 1 × 1 porque 10 θ pecado θ, y así.


10 8 6 4 2 2

13
coeficiente de momento ∫ es

1
+
1 2 π 1 1

broncearse 2 θdθ = [ broncearse θ - θ] + 2 π = ∞ = ∞,


= -1
π = -1 π 2 π
2 π

o la desviación estándar es infinita mientras que el error probable es finito.

Sección VI. Prueba práctica de lo anterior


Ecuaciones
Antes de tener éxito en la solución analítica de mi problema, me había esforzado por hacerlo
empíricamente. El material utilizado fue una tabla de correlación que contenía la altura y las medidas del dedo
medio izquierdo de 3000 delincuentes, de un documento de
WR Macdonnell ( Biometrika, yo, pags. 219). Las medidas se escribieron en 3000 piezas de cartón, que
luego se barajaron minuciosamente y se dibujaron al azar. A medida que se extraía cada tarjeta, se
escribían sus números en un libro, que por lo tanto contenía las medidas de 3000 criminales en un orden
aleatorio. Finalmente, cada conjunto consecutivo de 4 se tomó como muestra (750 en total) y la media, la
desviación estándar y la correlación 5 de cada muestra determinada. La diferencia entre la media de cada
muestra y la media de la población se dividió luego por la desviación estándar de la muestra, lo que nos da
la z de la sección

III.
Esto nos proporciona dos conjuntos de 750 desviaciones estándar y dos conjuntos de 750
z es sobre el que probar los resultados teóricos a los que se llegó. Se eligió la tabla de correlación de la altura y
el dedo medio izquierdo porque la distribución de ambos era aproximadamente normal y la correlación era
bastante alta. Ambas curvas de frecuencia, cómo
siempre, se desvían ligeramente de la normalidad, siendo las constantes para la altura β 1 = 0,0026,
β 2 = 3.176, y para longitudes del dedo medio izquierdo β 1 = 0,0030, β 2 = 3.140, y en consecuencia hay una
tendencia a un cierto número de desviaciones estándar mayores
que ocurrirían que si las distribuciones fueran normales. Esto, sin embargo, parece hacer muy poca
diferencia en la distribución de z.
Otra cosa que interfiere con la comparación son los grupos comparativamente grandes en los que ocurren
las observaciones. Las alturas están organizadas en grupos de 1 pulgada, la desviación estándar es de solo
2,54 pulgadas. mientras que, las longitudes de los dedos estaban originalmente agrupadas en milímetros, pero
desafortunadamente en ese momento no vi la importancia de tener una unidad más pequeña y las condensé en
grupos de 2 milímetros, en términos de los cuales la desviación estándar es 2.74.

Se siguen varios resultados curiosos de tomar muestras de 4 de material dispuesto en grupos tan
amplios. Se pueden notar los siguientes puntos:
(1) Las medias solo ocurren como múltiplos de 0,25. (2) Las desviaciones estándar se producen como las
raíces cuadradas de los siguientes tipos de números: n, n + 0,10, n + 0,25,
n + 0,50, n + 0,69, 2 n + 0,75.
(3) Una desviación estándar perteneciente a uno de estos grupos solo puede √ estar asociado con un
medio de un tipo particular; por tanto, una desviación estándar de 2 puede

5 Espero publicar los resultados del trabajo de correlación en breve.

14
solo ocurre si √ la media difiere en un número entero del grupo que tomamos como
origen, mientras que 1,69 sólo ocurrirá cuando la media esté en norte ± 0,25.
(4) Los cuatro individuos de la muestra ocasionalmente vendrán del mismo grupo, dando un valor cero para
la desviación estándar. Ahora bien, esto conduce a un valor infinito de z y se debe claramente a una agrupación
demasiado amplia, porque aunque dos hombres pueden tener la misma altura cuando se miden en pulgadas, sin
embargo, cuanto más finas sean las medidas, más raras veces serán idénticas, hasta que finalmente haya la
posibilidad de que cuatro hombres tengan exactamente la misma altura es infinitamente pequeña. Si tuviéramos
una agrupación más pequeña, se podría esperar que los valores cero de la desviación estándar aumenten, y una
consideración similar mostrará que los valores más pequeños de la desviación estándar también podrían
aumentar, como 0.436, cuando 3 caen en un grupo y 1 en un grupo adyacente, o 0.50 cuando 2 caen en dos
grupos adyacentes. Por otro lado, cuando los individuos de la muestra se encuentran muy separados, se aplicará
el argumento de la corrección de Sheppard, siendo más probable que el valor real de la desviación estándar sea
menor que el encontrado debido a que la frecuencia en cualquier grupo es mayor en la escala. lado más cercano
al modo.

Estos dos efectos de agrupamiento tenderán a neutralizar el efecto sobre el valor medio de la
desviación estándar, pero ambos aumentarán la variabilidad.
En consecuencia, encontramos que el valor medio de la desviación estándar está bastante cerca del
calculado, mientras que en cada caso la variabilidad es sensiblemente mayor. El ajuste de la curva no es
bueno, tanto por esta razón como porque la frecuencia no se distribuye uniformemente debido a los efectos
(2) y (3) de la agrupación. Por otro lado, el ajuste de la curva que da la frecuencia de z es muy bueno, y
como ése es el único punto práctico, la comparación puede considerarse satisfactoria.

Las siguientes son las cifras de altura:

Valor medio de las desviaciones estándar: Calculado 2.027 ± 0,02


Observado 2.026
Diferencia = - 0,001
Desviación estándar de desviaciones estándar: calculada 0.8558 ± 0,015
Observado 0.9066
Diferencia + 0.0510

dieciséis × 750 X2-2X2


Comparación de Fit. Ecuación teórica: y = √ mi σ 2
(2 π) σ 2

Escala en términos de desviaciones estándar de la población Frecuencia


calculada
1 1210 1 27 245 1 64 1 2 2
78 12 87 88 81 1 71 58 2 45 33 23 15 9 1 5 1 7 2 2

Frecuencia observada
1
3 14 1 24 21 37 1 107
2 2
67 73 77 77 1 64 2 2
49 1235 28 12 1 2
9 11 1 7 2

Diferencia
+ 1 1 2+ 4 - 2 1 - 8 +422 1 - 11 1 - 14 - 112 - 4 - 7 - 25 1 + 4 1 + 2 +5 - 2 1 - 1 + 6 0 2 2 2 2

De dónde χ 2 = 48,06, P = 0,00006 (aproximadamente).

Al presentar la frecuencia observada, los valores entre 0.0125 y 0.0875 se incluyeron en un grupo,
mientras que entre 0.0875 y 0.012.5 se dividieron entre los dos grupos. Como ejemplo de la irregularidad
debida a la agrupación puedo mencionar

15
que había 31 casos de desviaciones estándar 1,30 (en términos de agrupamiento) que es 0,5117 en
términos de la desviación estándar de la población, por lo que se dividieron entre los grupos de 0,4 a 0,5 y
0,5 a 0,6. ¿Se habían contado todos en grupos de 0,5 a 0,6? χ 2 habría caído a 20,85 y PAGS habría subido
a 0,03. los χ 2 La prueba presupone un muestreo aleatorio de una frecuencia que sigue la ley dada, pero esto
no lo obtuvimos debido a la interferencia de la agrupación.

Sin embargo, cuando probamos el z Cuando la agrupación no ha tenido tanto efecto, encontramos una
estrecha correspondencia entre la teoría y el resultado real.
Hubo tres casos de valores infinitos de z que, por las razones dadas anteriormente, recibieron los
siguientes valores más grandes que ocurrieron, a saber +6 o - 6. El resto se dividió en grupos de 0,1; 0.04,
0.05 y 0.06, dividiéndose entre
los dos grupos a cada lado.
El valor calculado para la desviación estándar de la curva de frecuencia fue 1 ( ± 0.0171), mientras que
el observado fue 1.030. El valor de la desviación estándar
es realmente infinito, como el cuarto coeficiente de momento es infinito, pero como √ han limitado arbitrariamente
los casos infinitos que podemos tomar como una aproximación 1/1500
del cual se obtiene el valor del error probable dado arriba. El ajuste de la curva es el siguiente:

Comparación de Fit. Ecuación teórica: y = 2 norte porque 4 θ, z = broncearse


π
θ
Escala de z

Frecuencia calculada
5 9 1 1321 34 1 44
2
1 78 1
2 2 2
119 141 78 12 44 1234 1 1321 13 1 2 2
9 12 5
Frecuencia observada
9 14 1 112 1 33 43
2
1 70 1
2 2
119 1 2 151 1 2 122 67 1 49 26 1 dieciséis
2 2
10 6
Diferencia
1
+ 4 +4 - 2 - 2 - 1 1 - 1 2
-8 + 2
+ 10 1 2 + 3 - 11 +4 1 - 8 2
+ 2 1 2+1 2

Cuando ce χ 2 = 12,44, PAGS = 0,56.

Esto es muy satisfactorio, especialmente cuando consideramos que, por regla general, las observaciones
se prueban con curvas ajustadas a partir de la media y uno o más momentos de las observaciones, de modo
que sólo se espera una correspondencia considerable con]) c; mientras que esta curva está expuesta a los
errores completos del muestreo aleatorio, sus constantes se han calculado aparte de las observaciones.

Las muestras del dedo medio izquierdo muestran casi las mismas características que las de la altura, pero
como el agrupamiento no es tan grande en comparación con la variabilidad, las curvas se ajustan más a las
observaciones. Diagramas III 6 y IV dan las desviaciones estándar de la z es para el conjunto de muestras. Los
resultados son los siguientes:

6 Hay tres pequeños errores al graficar los valores observados en el Diagrama III, que hacen que el ajuste parezca peor de lo que

realmente es.

dieciséis
Valor medio de las desviaciones estándar: Calculado 2.186 ± 0.023
Observado 2.179
Diferencia = - 0,007
Desviación estándar de desviaciones estándar: calculada 0.9224 ± 0,016
Observado 0.9802
Diferencia = +0.0578

2X2
dieciséis × 750 X 2 -
Comparación de Fit. Ecuación teórica: y = √ mi σ2
(2 π) σ 2

Escala en términos de desviaciones estándar de población


1 1210 1 2
27 45 1 2 64 1 2
78 1 2 87 88 81 1 2 71
58 45 33 23 15 9 12 5 12 7
Frecuencia calculada
2 14 27 1 51 64 1 91 94 1 68 1 sesenta y cinco 1 12 571
2 2 2 2 2 73 48 1 2 40 1 2 42 1 2 20 22 1 2 2
Frecuencia observada
1
+ - + 12 1
2+ 31 2 +1 2+ 51 2 2+ 71 2- 19 1 2- 16 +2 - 9 1 2- 41 2+ 91 2- 3 +7 1 2+ 21 2-1 2 +1 2

De dónde χ 2 = 21,80, P = 0,19.

Valor de Desviación Estándar: Calculado 1 ( ± 0,017)


Observado
Diferencia = - 0,982
0,018

Comparación de Fit. Ecuación teórica: y = 2 norte porque 4 θ, z = broncearse θ π

Escala de z
Frecuencia calculada
591 78 1 5
2 13 1 2 34 1 2 44 1 2 78 1 2 119 141 119 2 44 1 2 34 1 2 13 1 29 1 2
Frecuencia observada
4 15 1 2
18 33 1 2 44
75 122 138 120 1 2
71 46 1 2 36 11 9 6
re
- i ff1 erence
+6 +4 1
2- 1 -1 2- 31 2+ 3 - 3 +1 1 2- 71 2+ 2 +1 1 2- 21 2-1 2+ 1
De dónde χ 2 = 7,39, P = 0,92.

Un ajuste muy ajustado.

Vemos entonces que si la distribución es aproximadamente normal, nuestra teoría nos da una medida
satisfactoria de la certeza que se puede derivar de una pequeña muestra en los dos casos que hemos
probado; pero tenemos una indicación de que una buena agrupación es ventajosa. Si la distribución no es
normal, la media y la desviación estándar de una muestra estarán correlacionadas positivamente, por lo
que aunque ambas tendrán mayor variabilidad, tenderán a contrarrestarse entre sí, una media que se
deriva en gran parte de la media general que tiende a dividirse. por una desviación estándar mayor. En
consecuencia, creo que la tabla que figura en la Sección VII a continuación puede usarse para estimar el
grado de certeza al que se llega por medio de algunos experimentos,

17
18
S Sección
( VII. T) ables de

31 ∫ broncearse - 1 z
norte - 2. norte
2 impar norte - 2 θdθ
21 porque
- 2 3.
norte norte - 4- 5. . .
norte -1 2 π
1. π norte incluso

para valores de norte de 4 a 10 inclusive


∫ X mi - 7 X 2
7
Juntos con √ √ 2 dx para comparar cuando n = 10
(2 π) −∞

( )
z=X n = 4 n = 5 n = 6 n = 7 n = 8 n = 9 n = 10 ( Para comparacion )
s
∫ X
√√ 7 mi - 7 X 22 dx
(2 π) −∞

0,1 0,5633 0,5745 0,5841 0,5928 0,6006 0,60787 0,61462 0,60411


0,2 0,6241 0,6458 0,6634 0,6798 0,6936 0,70705 0,71846 0,70159
0,3 0,6804 0,7096 0,7340 0,7549 0,7733 0,78961 0,80423 0,78641
0.4 0,7309 0,7657 0,7939 0,8175 0,8376 0,85465 0,86970 0.85520
0,5 0,7749 0,8131 0,8428 0,8667 0,8863 0,90251 0,91609 0.90691
0,6 0,8125 0,8518 0,8813 0,9040 0,9218 0,93600 0,94732 0.94375
0,7 0,8440 0,8830 0,9109 0,9314 0,9468 0,95851 0,96747 0,96799
0,8 0,8701 0,9076 0,9332 0,9512 0,9640 0,97328 0,98007 0.98253
0,9 0,8915 0,9269 0,9498 0,9652 0,9756 0,98279 0,98780 0,99137
1.0 0,9092 0,9419 0,9622 0,9751 0,9834 0,98890 0,99252 0,99820
1.1 0.9236 0.9537 0.9714 0.9821 0.9887 0.99280 0.99539 0,99926
1.2 0,9354 0,9628 0,9782 0,9870 0,9922 0,99528 0,99713 0.99971
1.3 0,9451 0,9700 0,9832 0,9905 0,9946 0,99688 0,99819 0,99986
1.4 0,9451 0,9756 0,9870 0,9930 0,9962 0,99791 0,99885 0,99989
1,5 0,9598 0,9800 0,9899 0,9948 0,9973 0,99859 0,99926 0,99999
1,6 0.9653 0.9836 0.9920 0.9961 0.9981 0.99903 0.99951
1,7 0,9699 0,9864 0,9937 0,9970 0,9986 0,99933 0,99968
1.8 0,9737 0,9886 0,9950 0,9977 0,9990 0,99953 0,99978
1,9 0,9970 0,9904 0,9959 0,9983 0,9992 0,99967 0,99985
2.0 0.9797 0.9919 0.9967 0.9986 0.9994 0.99976 0.99990
2.1 0.9821 0.9931 0.9973 0.9989 0.9996 0.99983 0.99993
2.2 0,9841 0,9941 0,9978 0,9992 0,9997 0,99987 0,99995
2.3 0,9858 0,9950 0,9982 0,9993 0,9998 0,99991 0,99996
2.4 0,9873 0,9957 0,9985 0,9995 0,9998 0,99993 0,99997
2.5 0,9886 0,9963 0,9987 0,9996 0,9998 0,99995 0,99998
2.6 0.9898 0.9967 0.9989 0.9996 0.9999 0.99996 0.99999
2,7 0.9908 0.9972 0.9989 0.9997 0.9999 0.99997 0.99999
2.8 0,9916 0,9975 0,9989 0,9998 0,9999 0,99998 0,99999
2.9 0,9924 0,9978 0,9989 0,9998 0,9999 0,99998 0,99999
3,0 0,9931 0,9981 0,9989 0,9998 - 0,99999 -

Explicación de tablas
Las tablas dan la probabilidad de que el valor de la media, medida a partir de la media de la población, en
términos de la desviación estándar de la muestra, se encuentre entre −∞ y z. Por tanto, para tomar la tabla
para muestras de 6, la probabilidad de que la media de la población se encuentre entre −∞ y una vez que la
desviación estándar de la muestra es 0,9622, las probabilidades son de aproximadamente 24 a 1 de que la
media de la población se encuentre entre estos límites.

19
Por lo tanto, la probabilidad es 0.0378 de que sea mayor que una vez la desviación estándar y 0.07511
de que esté fuera ± 1.0 veces la desviación estándar.

Ilustración del método


Ilustración I. Como ejemplo del tipo de uso que se puede hacer de las tablas, tomo las siguientes cifras de
una tabla de AR Cushny y AR Peebles en el Revista de fisiología para 1904, mostrando los diferentes
efectos de los isómeros ópticos del bromhidrato de hiosciamina en la producción de sueño. La cantidad
promedio de horas de sueño obtenidas por el uso del medicamento se tabula a continuación.

La conclusión a la que se llegó fue que, en las dosis habituales, 2 era, pero 1 no, valioso como
somnífero.

Horas adicionales de sueño obtenidas con el uso de hidrobromuro de hiosciamina


Paciente 1 (Dextro-) 2 (Laevo-) Diferencia (2 - 1)
1 + 0,7 + 1,9 + 1,2
2 - 1,6 + 0,8 + 2,4
3 - 0,2 + 1,1 + 1.3
4 - 1.2 + 0,1 + 1.3
5 - 0,1 - 0,1 0
6 + 3.4 + 4,4 + 1.0
7 + 3,7 + 5,5 + 1.8
8 + 0,8 + 1,6 + 0,8
9 0 + 4,6 + 4,6
10 + 2.0 + 3.4 + 1.4
Media + 0,75 Media + 2,33 Media + 1,58
Dakota del Sur 1,70 Dakota del Sur 1,90 Dakota del Sur 1,17

Primero veamos cuál es la probabilidad de que, en promedio, aumente el sueño; es decir, cuál es la
probabilidad de que la media de la población de la que estos experimentos son una muestra sea positiva. +
0,75 / 1,70 = 0,44, y mirando hacia afuera z =
0.44 en la tabla para diez experimentos que encontramos al interpolar entre 0.8697 y 0.9161 que 0.44
corresponde a 0.8873, o las probabilidades son 0.887 a 0.113 de que la media sea positiva.

Eso es aproximadamente 8 a 1, y correspondería a la curva normal a aproximadamente


1.8 veces el error probable. Entonces es muy probable que 1 proporcione un aumento del sueño, pero no sería
sorprendente que los resultados fueran revertidos por experimentos adicionales.

Si ahora consideramos la posibilidad de que 2 sea en realidad un sueño, tenemos la media del aumento
del sueño = 2,33 / 1,90 o 1,23 veces la Dakota del Sur Según la tabla, la probabilidad correspondiente a esto es
0,9974, es decir, las probabilidades son casi 400 a 1 de que tal sea el caso. Esto corresponde a
aproximadamente 4,15 veces el error probable en la curva normal. Pero supongo que el punto real de los
autores era que 2 es mejor que 1. Debemos probar esto haciendo una nueva serie, restando 1 de 2. Los
valores medios de esta serie es +1,38, mientras que Dakota del Sur es 1,17, siendo el valor medio +1,35 veces
el Dakota del Sur De la tabla, la probabilidad es 0,9985, o las probabilidades son aproximadamente 666 a 1 de
que 2 es el mejor sopori fi co. El bajo valor de

20
la Dakota del Sur probablemente se deba a que los diferentes fármacos reaccionan de manera similar en el mismo paciente, por lo

que existe una correlación entre los resultados.

Por supuesto, las probabilidades de este tipo hacen que sea casi seguro que 2 es el mejor soporífero y, en la vida
práctica, una probabilidad tan alta se considera en la mayoría de los asuntos como una certeza.

Ilustración II. Los casos en los que las tablas serán útiles no son infrecuentes en el trabajo agrícola, y
serían más numerosos si se tuvieran en cuenta las ventajas de poder aplicar el razonamiento estadístico a
la hora de planificar los experimentos. Tomo los siguientes ejemplos de los relatos de los experimentos
agrícolas de Woburn publicados anualmente por el Dr. Voelcker en el Diario de la

Sociedad Agrícola.
Se llevó a cabo una breve serie de experimentos de cultivo en macetas para determinar los casos que
conducen a la producción de trigo duro (glutinoso) o trigo blando (almidonado). En tres años sucesivos se
recogió a mano la mayor parte de la semilla de maíz de una variedad y se seleccionaron dos muestras, una
compuesta por granos “duros” ávidos y la otra por granos “blandos”. Algunos de cada uno de ellos se plantaron
tanto en suelo pesado como ligero y los cultivos resultantes se pesaron y examinaron en busca de maíz duro y
blando.

La conclusión extraída fue que el efecto de seleccionar la semilla fue insignificante comparado con la
influencia del suelo.
Esta conclusión estaba completamente justificada, el alma pesada producía en cada caso casi el 100%
de maíz duro, pero aún así, el efecto de seleccionar la semilla podía rastrearse cada año.

Pero un punto curioso, sobre el que el Dr. Voelcker llama la atención en el informe del segundo año, es
que las semillas blandas produjeron el mayor rendimiento tanto de maíz como de paja. En vista del hecho
bien conocido de que la variedades que tienen un alto rendimiento tienden a producir maíz blando, es
interesante ver cuánta evidencia a ff ord los experimentos en cuanto a la correlación entre suavidad y
fertilidad en el
mismo variedad.

Además, señor Hooker 7 ha demostrado que el rendimiento de trigo en un año está determinado en gran
medida por el clima durante el año anterior. Los resultados del Dr. Voelcker pueden dar una pista sobre la forma
en que afectó la identificación de la semilla, y casi justificarían la selección de suelos particulares para el cultivo de
trigo. 8

Las cifras son las siguientes, expresándose los rendimientos en gramos por maceta:

Año 1899 1900 1901 Estándar


Suelo Ligero Pesado Ligero Pesado Ligero Pesado Desviación media z
Rendimiento de maíz de semilla blanda 7.55 8.89 14.81 13.55 7.49 15.39 11.328
Rendimiento de maíz de semilla dura Diferencia 7.27 8,32 13,81 13,36 7,97 13,13 10,643
+ 0.58 +0.57 +1.00 +0.19 - 0,49 +2,26 +0,685 0,778 0,88
Rendimiento de paja a partir de semillas blandas 12,81 12,87 22,22 20,21 13,97 22,57 17,442
Rendimiento de paja a partir de semillas duras Diferencia 10,71 12,48 21,64 20,26 11,71 18,96 15,927
+ 2.10 +0.39 +0.78 - 0.05 +2.66 +3.61 +1.515 1.261 1,20

Si deseamos establecer las probabilidades de que la semilla blanda dé un mejor rendimiento de maíz en
promedio, dividimos, la diferencia promedio por la desviación estándar,
7 Revista de la Royal Statistical Society, 1897
8 Y quizás algunos experimentos para ver si existe una correlación entre el rendimiento y la "dulzura" en la cebada.

21
dándonos
z = 0,88.

Buscando esto en la mesa para n = 6 encontramos p = 0.9465 o las probabilidades son 0.9465 a 0.0535 aproximadamente 18 a
1.
Lo mismo ocurre con la paja z = 1,20, p = 0.9782, y las probabilidades son de 45 a 1.
Para ver si tales probabilidades son suficientes para que un hombre práctico saque una conclusión
definitiva, tomo otro acto de experimentos en el que el Dr. Voelcker compara los efectos de diferentes
abonos artificiales usados con patatas a gran escala.

Las cifras representan la diferencia de apuesta • cuando los cultivos crecen con el aumento
de sulfato de potasa y kailit respectivamente en 1904 y 1905:

cwt. qr. lb. ton cwt. qr. lb. •


1904 + 10 3 20: + 1 10 1 26 • ( dos experimentos en cada año) 1905 + 6 0 3: +
13 2 8

La ganancia media por el uso de sulfato de potasa fue de 15,25 quilates. y el


Dakota del Sur 9 cwt., De donde, si queremos las probabilidades de que la conclusión dada a continuación sea correcta, z
= 1.7, correspondiente, cuando n = 4, a p = 0,9698 o probabilidades de 32 a 1; esto está a mitad de camino entre las
probabilidades del ejemplo anterior. El Dr. Voelcker dice: “Ahora se puede concluir con justicia que para el cultivo de papa
en tierras livianas 1 quilates. por acre de sulfato de potasa es un mejor aderezo que el kailit ".

Soy un ejemplo de cómo la mesa debe usarse con precaución, tomo los siguientes experimentos de
cultivo en macetas para probar si hizo alguna diferencia si se sembraron semillas grandes o pequeñas.

Ilustración III. En 1899 y en 1903 se tomaron “maíz espino” y “maíz cola” de los mismos bultos de cebada y
se sembraron en macetas. Los rendimientos en gramos fueron los siguientes:

1899 1903
Semilla grande. . . 13,9 7.3
Semilla pequeña. . . 14,4 1.4
+ 0,5 + 1.4

Por tanto, la ganancia media es 0,95 y la Dakota del Sur 0.45, dando z = 2.1. Ahora el
mesa para n = 2 no está dado, pero si buscamos el ángulo cuya tangente es 2.1 en las tablas de Chambers,

broncearse - 1 2.1 64 ◦ 39 ′
p= + 0.5 = = 0,859,
180 ◦ 180 ◦

de modo que las probabilidades son aproximadamente de 6 a 1 de que el maíz pequeño rinda mejor que el grande.
Estas probabilidades 9 son los que serían establecidos y rígidos por un hombre cuyo único conocimiento del asunto
estaba contenido en los dos experimentos. Cualquiera que esté familiarizado con el cultivo de marihuana sabrá, sin
embargo, que la diferencia entre

9[ Mediante un desliz numérico, ahora corregido, Student había dado las probabilidades de 33 a 1 y es a esta cifra a la que se refieren

los comentarios de este párrafo.

22
dos resultados serían generalmente mayores y, en consecuencia, moderarían la certeza de su conclusión.
De hecho, un experimento a gran escala con fi rmó este resultado, el maíz pequeño que rinde grita un 15%
más que el grande.
Concluiré con un ejemplo que va más allá del rango de las tablas, habiendo once experimentos.

Para probar si es ventajoso secar al horno la semilla de cebada antes de la siembra, se sembraron siete
variedades de cebada (ambas secadas al horno y no secadas al horno en 1899 y cuatro en 1900; los resultados
se dan en la tabla.

Lb. cabeza de maíz por acre Precio de la cabeza de maíz en Cwt. paja por acre Valor de cultivo por acre
chelines por trimestre en chelines
NKD DAKOTA DEL NORTE Dif. NKDND Dif. NKDND Dif. NKD DAKOTA DEL NORTE Dif.
1
1903 2009 + 106 26 1 0 19 1 25 +51 140 1 152 + 11 1
2 2 2 2 2 2
1935 1915 - 20 28 26 1 -11 22 1 24 +11 152 1 145 -71
2 2 2 2 2 2
1910 2011 + 101 29 1 28 1 -1 23 24 +1 158 1 161 +21
2 2 2 2
1899 2496 2463 - 33 30 29 -1 23 28 +5 204 1 199 1 -5
2 2
2108 2180 + 72 27 1 27 -1 22 1 22 1 0 162 142 +2
2 2 2 2
1961 1925 - 36 26 26 0 19 1 419 1 -1 142 139 1 -21
2 2 2 2 2
2060 2122 + 62 29 26 -3 24 1 22 1 -21 168 155 - 13
2 2 2
1444 1482 + 38 29 1 28 1 -1 15 1 dieciséis +1 118 «117 1 -1
2 2 2 2 2 2
1900 1612 1542 - 70 28 1 28 -1 18 17 1 -1 128 1 121 -71
2 2 2 2 2 2
1316 1443 + 127 30 29 -1 14 1 15 1 +11 109 1 116 1 +7
2 2 2 2 2
1511 1535 + 24 28 1 28 -1 17 17 1 +1 120 120 1 +1
2 2 2 2 2
Promedio 1841,5 1875,2 + 33,7 28,45 27,55 - 2 0,91 19,95 21,05 + 1,10 145,82 144,68 + 1,14
Estándar ... ... 63,1 ... ... 0,79 ... ... 2,25 ... ... 6,67
desviación
Estándar
devi √ ación ... ... 63,1 ... ... 0,79 ... ... 2,25 ... ... 6,67

÷8

Se dará cuenta de que la semilla secada al horno dio en promedio el mayor rendimiento. de maíz y
paja, pero que la calidad era casi siempre inferior. A primera vista, podría suponerse que esto se debe a un
poder germinativo superior en la semilla secada al horno, pero mis amigos agricultores me dicen que el
efecto de esto sería que la semilla secada al horno produciría cebada de mejor calidad. El Dr. Voelcker llega
a la conclusión: "En temporadas como 1899 y 1900, no existe una ventaja particular en el secado en horno
antes de cortar el césped". Nuestro examen lo justifica completamente y agrega "y la calidad de la cebada
resultante es inferior, aunque el rendimiento puede ser mayor".

En este caso propongo t √ o utilizar la aproximación dada por la curva normal


con desviación estándar s / n -
√ 3 y, por lo tanto, use las tablas de Sheppard, buscando
arriba la diferencia dividida por S / 8. La probabilidad en el caso del rendimiento del maíz.
por acre se obtiene al buscar 33,7 / 22,3 = 1,51 en las tablas de Sheppard. Esto da
p = 0,934, o las probabilidades son de 14 a 1 de que el maíz secado al horno dé el mayor rendimiento.

De manera similar, 0.91 / 0.28 = 3.25, correspondiente a p = 0,9994, 2 de modo que es muy probable que la
semilla secada al horno dé cebada de peor calidad que la semilla que no se haya secado al horno.

De manera similar, es aproximadamente 11 a 1 que la semilla secada al horno da más paja y aproximadamente 2 a 1 que el

valor total de la cosecha es menor con la semilla secada al horno.

2 Como se señaló en la Sección V, la curva normal da un valor demasiado grande para pags cuando la probabilidad es grande.
Encuentro que el verdadero valor en este caso es p = 0,9976. Sin embargo, poco importa para una conclusión de este tipo si las
probabilidades a su favor son 1660 a 1 o simplemente 416 a 1.

23
Sección X. Conclusiones
1. Se ha encontrado una curva que representa la distribución de frecuencia de
desviaciones de las muestras extraídas de una población normal.
2. Se ha encontrado una curva que representa la distribución de frecuencia de la
media de dichas muestras, cuando estos valores se miden a partir de la media de la población en términos
de la desviación estándar de la muestra.
3. Se ha demostrado que la curva representa los hechos bastante bien incluso
cuando la distribución de la población no es estrictamente normal.
4. Se proporcionan tablas mediante las cuales se puede juzgar si una serie de experimentos,
por breves que sean, han dado un resultado que se ajusta a cualquier estándar de precisión requerido o si
es necesario continuar la investigación.
Por último, quisiera expresar mi agradecimiento al profesor Karl Pearson, sin cuyos constantes
consejos y críticas no se podría haber escrito este artículo.

[ Biometrika, 6 ( 1908), págs. 1-25, reimpreso en las págs. Documentos recopilados del "estudiante", Editado
por ES Pearson y John Wishart con un prólogo de Launce McMullen, Cambridge University Press para
Biometrika Trustees, 1942.]

24

También podría gustarte