Está en la página 1de 3

17 ecuaciones en Ciencia de Datos

Colegio de Matemáticas Bourbaki


Julio 2020

1 Introducción
Uno de los libros más bonitos de divulgación matemática es el escrito por el profesor Ian Stewart
llamado "17 Equations That Changed The World". Hemos decidido honrar aquella elección de la
manera más modesta posible con nuestra recopilación de algunas ecuaciones que aunque podrían no
haber cambiado la Ciencia de Datos, sí son fundamentales para su detallado entendimiento.

2 17 ecuaciones
1. (Fórmula de Bayes, 1763) Supongamos que (Ω, P) una ley de probabilidad y A, B ⊆ Ω son tales
que P (B) , P (A) > 0, entonces P (B|A) = P(A|B)·P(B)
P(A) .

2. (Ecuaciones de Bellman, 1953) En un Proceso de Decisión de Markov con horizonte infinito, si π


es una política entonces para todo estado s ∈ S, los valores Vπ (s) satisfacen la siguiente ecuación:

Vπ (s) = E [r (s, π (s))] + γ · Σ0 (P (s0 |s, π (s)) Vπ (s0 ))


s

3. (Ley fuerte de los grandes números, 1539) Sean (Ω, F, P) un espacio de probabilidad y Xn :
Ω → R una familia de variables aleatorias independientes e identicamente distribuidas tales que
E [|Xi |) < ∞ entonces existe un subconjunto N ∈ F tal que PX (N ) = 0 y además:
 
X1 (m) + . . . + Xn (m)
lim = E [X1 ] , ∀m ∈
/N
n→∞ n

4. (Fórmula de la entropía, 1948) Sea (Ω, P) un espacio de probabilidad finito, digamos Ω =


{ω1 , ω2 , . . . , ωn }, denotaremos pi = P (ωi ). Definimos la entropía del espacio de probabilidad
de la siguiente forma:

E (Ω, P) = −p1 log2 (p1 ) − . . . − pn log2 (pn )

5. (Estimador de mínimos cuadrados, 1805) Sea S = {(xi , yi )}i≤N con xi ∈ Rd , yi ∈ R tales que
xi = (v1 , . . . , vd−1 , 1), definimos el error de un vector β ∈ Rd en S como

1 2
errS (β) = · Σ (hxi , βi − yi )
N i≤N
El estimador de mínimos cuadrados se define de la siguiente manera:

βLSS = argmin (errS (β 0 ))


β 0 ∈Rd

1
6. (Regularización de Ridge, 1970) Supongamos una base de datos S como la anterior, definimos la
regularización de Ridge como el error empírico siguiente

1 
2

errRidge,S (β 0 ) = · Σ (hxi , β 0 i − yi ) + λhβ, βi
N i≤N

7. (Distribución de Gauss y Teorema Central de Lévy, 1920)



• Definimos la ley de probabilidad gaussiana o normal con parámetros µ, σ 2 como aquella
ley de probabilida que a cada intervalo (−∞, x] le asigna la siguiente cantidad:
!
2
1 (x − µ)
PGauss,µ,σ2 (−∞, x] = √ · exp −
σ· 2π 2 · σ2

• Sean Xn es una familia de variables aleatorias independientese identicamente distribuidas


√ 
tales que V ar (Xi ) = σ 2 para todo i. Definamos Mn = n (X1 +X2n+...Xn ) − E [Xi ] en-
tonces para todos a < b

lim PMn (a, b) = PGauss,0,σ2 (a, b)


n→∞
.

8. (Lema de Sauer-Shelah, 1972) Sea X un conjunto y F una familia de subconjuntos de X de


tamaño n, si ladimensión Vapnik-Chervonenkis de F satisface V C (F ) ≤ k entonces F contiene
a lo más O nk elementos.
9. (Desigualdad de Höeffding, 1963) Sean X1 , X2 , . . . variables aleatorias independientes que satis-
facen Xi ∈ [0, 1], entonces para todo t ≥ 0 y todo n ∈ N,
   
X1 + . . . + Xn x1 + . . . + Xn 2
P | −E | ≥ t ≤ e−2nt
n n

10. (Fórmula del gradiente, finales del siglo XVII) Sea f : Rd → R una función diferenciable,
definimos su gradiente en el punto p como el vector:
 
δf δf
∇fp = (p) , . . . , (p)
δx1 δxn

11. (Fórmula del Perceptrón, 1958) Sea S = {(xi , zi )}i≤N con xi ∈ Rd , zi ∈ {−1. + 1} tales que
xi = (v1 , . . . , vd−1 , 1), si i, j son tales que sign (hβi , xj i) zj definimos βi+1 := βi + zj xj .
12. (Fórmula de convolución, 1814) Sea F el operador de Fourier y f, g dos funciones en L1 entonces

F (f ? g) = F (f ) · F (g)

13. (Transformada de Fourier, 1822) Sea f ∈ L2 [R] entonces para todo x ∈ R:


Z ∞
1
f (x) = fˆ (n) exp (inx) dn
2π −∞

2
14. (Medida estacionaria para cadenas de Markov, 1954) Sea X = (Xt )t una cadena de markov
discreta (sobre Ω digamos), aperiódica e irreducible con matriz de trancisión M . Diremos que
una medida de probabilidad Pµ en el conjunto Ω es una medida estacionaria de X cuando satisfaga
la ecuación Chapman-Kolmogorov i.e. para cualquier ω ∈ Ω:

M Pµ := 0Σ Pµ (ω) M (ω, ω 0 ) = Pµ (ω)


ω ∈Ω

15. (Teorema de Von Neumann de minmax, 1928) Sea G = (X, Y, g1 , g2 ) un juego de estrategia de
suma cero, entonces x ∈ ∆ (X) , y ∈ ∆ (Y ) y un valor α ∈ R tales que:

max min (xG1 y) = min max (xG1 y)


x∈∆(X)y∈∆(Y ) y∈∆(Y )x∈∆(X)

16. (Ondícula de Daubechies, 1988) Sean β1 , β2 , β3 , β4 los números de las ondículas, la ondícula de
Daubechies de nivel 1 satisface la siguiente ecuación:

1 0 0 0 0
Wm = β1 V2m−1 + β2 V2m + β3 V2m+1 + β4 V2m+2
δL
17. (Resultado de Back-Propagation, 1970) Si L es la función de pérdida δ(ωi →ωj ) = δj zi

También podría gustarte