Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Introducción
Uno de los libros más bonitos de divulgación matemática es el escrito por el profesor Ian Stewart
llamado "17 Equations That Changed The World". Hemos decidido honrar aquella elección de la
manera más modesta posible con nuestra recopilación de algunas ecuaciones que aunque podrían no
haber cambiado la Ciencia de Datos, sí son fundamentales para su detallado entendimiento.
2 17 ecuaciones
1. (Fórmula de Bayes, 1763) Supongamos que (Ω, P) una ley de probabilidad y A, B ⊆ Ω son tales
que P (B) , P (A) > 0, entonces P (B|A) = P(A|B)·P(B)
P(A) .
3. (Ley fuerte de los grandes números, 1539) Sean (Ω, F, P) un espacio de probabilidad y Xn :
Ω → R una familia de variables aleatorias independientes e identicamente distribuidas tales que
E [|Xi |) < ∞ entonces existe un subconjunto N ∈ F tal que PX (N ) = 0 y además:
X1 (m) + . . . + Xn (m)
lim = E [X1 ] , ∀m ∈
/N
n→∞ n
5. (Estimador de mínimos cuadrados, 1805) Sea S = {(xi , yi )}i≤N con xi ∈ Rd , yi ∈ R tales que
xi = (v1 , . . . , vd−1 , 1), definimos el error de un vector β ∈ Rd en S como
1 2
errS (β) = · Σ (hxi , βi − yi )
N i≤N
El estimador de mínimos cuadrados se define de la siguiente manera:
1
6. (Regularización de Ridge, 1970) Supongamos una base de datos S como la anterior, definimos la
regularización de Ridge como el error empírico siguiente
1
2
errRidge,S (β 0 ) = · Σ (hxi , β 0 i − yi ) + λhβ, βi
N i≤N
10. (Fórmula del gradiente, finales del siglo XVII) Sea f : Rd → R una función diferenciable,
definimos su gradiente en el punto p como el vector:
δf δf
∇fp = (p) , . . . , (p)
δx1 δxn
11. (Fórmula del Perceptrón, 1958) Sea S = {(xi , zi )}i≤N con xi ∈ Rd , zi ∈ {−1. + 1} tales que
xi = (v1 , . . . , vd−1 , 1), si i, j son tales que sign (hβi , xj i) zj definimos βi+1 := βi + zj xj .
12. (Fórmula de convolución, 1814) Sea F el operador de Fourier y f, g dos funciones en L1 entonces
F (f ? g) = F (f ) · F (g)
2
14. (Medida estacionaria para cadenas de Markov, 1954) Sea X = (Xt )t una cadena de markov
discreta (sobre Ω digamos), aperiódica e irreducible con matriz de trancisión M . Diremos que
una medida de probabilidad Pµ en el conjunto Ω es una medida estacionaria de X cuando satisfaga
la ecuación Chapman-Kolmogorov i.e. para cualquier ω ∈ Ω:
15. (Teorema de Von Neumann de minmax, 1928) Sea G = (X, Y, g1 , g2 ) un juego de estrategia de
suma cero, entonces x ∈ ∆ (X) , y ∈ ∆ (Y ) y un valor α ∈ R tales que:
16. (Ondícula de Daubechies, 1988) Sean β1 , β2 , β3 , β4 los números de las ondículas, la ondícula de
Daubechies de nivel 1 satisface la siguiente ecuación:
1 0 0 0 0
Wm = β1 V2m−1 + β2 V2m + β3 V2m+1 + β4 V2m+2
δL
17. (Resultado de Back-Propagation, 1970) Si L es la función de pérdida δ(ωi →ωj ) = δj zi