Merge pull request #61 from cesmix-mit/kernels

joannajzou · web-flow · commit 77fdd82c0ae3 · 2024-03-27T17:48:11.000-04:00
Merge kernel functions into main
diff --git a/src/Kernels/distances.jl b/src/Kernels/distances.jl
@@ -50,6 +50,11 @@ function Euclidean(
     Euclidean(Cinv, Csqrt)
 end
 
+"""
+    compute_distance(A, B, d)
+
+Compute the distance between features A and B using distance metric d. 
+"""
 function compute_distance(B1::Vector{T}, B2::Vector{T}, e::Euclidean) where {T<:Real}
     (B1 - B2)' * e.Cinv * (B1 - B2)
 end
@@ -61,3 +66,45 @@ function compute_distance(
 ) where {T<:Real}
     tr(e.Csqrt * (C1 - C2)' * e.Cinv * (C1 - C2) * e.Csqrt)
 end
+
+"""
+    compute_gradx_distance(A, B, d)
+
+Compute gradient of the distance between features A and B using distance metric d, with respect to the first argument (A). 
+"""
+function compute_gradx_distance(
+    A::T,
+    B::T,
+    e::Euclidean
+    ) where {T<:Vector{<:Real}}
+
+    return 2 * e.Cinv * (A - B)
+end
+
+"""
+    compute_grady_distance(A, B, d)
+
+Compute gradient of the distance between features A and B using distance metric d, with respect to the second argument (B). 
+"""
+function compute_grady_distance(
+    A::T,
+    B::T,
+    e::Euclidean
+    ) where {T<:Vector{<:Real}}
+
+    return -2 * e.Cinv * (A - B)
+end
+
+"""
+    compute_gradxy_distance(A, B, d)
+
+Compute second-order cross derivative of the distance between features A and B using distance metric d. 
+"""
+function compute_gradxy_distance(
+    A::T,
+    B::T,
+    e::Euclidean
+    ) where {T<:Vector{<:Real}}
+
+    return -2 * e.Cinv
+end
diff --git a/src/Kernels/divergences.jl b/src/Kernels/divergences.jl
@@ -0,0 +1,49 @@
+## Discrepancies
+""" 
+    Divergence
+
+    A struct of abstract type Divergence produces a measure of discrepancy between two probability distributions. Discepancies may take as argument analytical distributions or sets of samples representing empirical distributions.
+"""
+abstract type Divergence end
+
+
+"""
+    KernelSteinDiscrepancy <: Divergence
+        score :: Function
+        knl :: Kernel
+
+    Computes the kernel Stein discrepancy between distributions p (from which samples are provided) and q (for which the score is provided) based on the RKHS defined by kernel k.
+"""
+struct KernelSteinDiscrepancy <: Divergence
+    score :: Function
+    kernel :: Kernel
+end
+
+function KernelSteinDiscrepancy(; score, kernel)
+    return KernelSteinDiscrepancy(score, kernel)
+end
+
+
+function compute_divergence(
+    x :: Vector{T},
+    div :: KernelSteinDiscrepancy,
+) where T <: Union{Real, Vector{<:Real}}
+
+    N = length(x)
+    sq = div.score.(x)
+    k = div.kernel
+
+    ksd = 0.0
+    for i = 1:N
+        for j = i:N
+            m = (i == j) ? 1 : 2
+            sks = sq[i]' * compute_kernel(x[i], x[j], k) * sq[j]
+            sk = sq[i]' * compute_grady_kernel(x[i], x[j], k)
+            ks = compute_gradx_kernel(x[i], x[j], k)' * sq[j]
+            trk = tr(compute_gradxy_kernel(x[i], x[j], k))
+
+            ksd += m * (sks + sk + ks + trk) / (N*(N-1.0))
+        end
+    end
+    return ksd
+end
diff --git a/src/Kernels/kernels.jl b/src/Kernels/kernels.jl
@@ -1,9 +1,6 @@
 include("features.jl")
 include("distances.jl")
 
-export Distance, Forstner, compute_distance, Euclidean
-export Feature, GlobalMean, CorrelationMatrix, compute_feature, compute_features
-export Kernel, DotProduct, get_parameters, RBF, compute_kernel, KernelMatrix
 ###############
 """
     Kernel
@@ -42,7 +39,7 @@ end
 """ 
     RBF <: Kernel 
         d :: Distance function 
-        α :: Reguarlization parameter 
+        α :: Regularization parameter 
         ℓ :: Length-scale parameter
         β :: Scale parameter
     
@@ -51,7 +48,7 @@ end
 
      k(A, B) = β \exp( -\frac{1}{2} d(A,B)/ℓ^2 ) + α δ(A, B) 
 """
-struct RBF <: Kernel
+mutable struct RBF <: Kernel
     d::Distance
     α::Real
     ℓ::Real
@@ -74,7 +71,136 @@ function compute_kernel(
     r::RBF,
 ) where {T<:Union{Vector{<:Real},Symmetric{<:Real,<:Matrix{<:Real}}}}
     d2 = compute_distance(A, B, r.d)
-    r.β * exp(-0.5 * d2 / r.ℓ)
+    r.β * exp(-0.5 * d2 / r.ℓ^2)
+end
+
+"""
+    compute_gradx_kernel(A, B, k)
+
+Compute gradient of the kernel between features A and B using kernel k, with respect to the first argument (A). 
+"""
+function compute_gradx_kernel(
+    A::T,
+    B::T,
+    r::RBF,
+    ) where {T<:Vector{<:Real}}
+
+    k = compute_kernel(A, B, r)
+    ∇d = compute_gradx_distance(A, B, r.d)
+    return -0.5 * k * ∇d / r.ℓ^2
+end
+
+"""
+    compute_grady_kernel(A, B, k)
+
+Compute gradient of the kernel between features A and B using kernel k, with respect to the second argument (B). 
+"""
+function compute_grady_kernel(
+    A::T,
+    B::T,
+    r::RBF,
+    ) where {T<:Vector{<:Real}}
+
+    k = compute_kernel(A, B, r)
+    ∇d = compute_grady_distance(A, B, r.d)
+    return -0.5 * k * ∇d / r.ℓ^2
+end
+
+"""
+    compute_gradxy_kernel(A, B, k)
+
+Compute the second-order cross derivative of the kernel between features A and B using kernel k. 
+"""
+function compute_gradxy_kernel(
+    A::T,
+    B::T,
+    r::RBF,
+    ) where {T<:Vector{<:Real}}
+
+    k = compute_kernel(A, B, r)
+    ∇xd = compute_gradx_distance(A, B, r.d)
+    ∇yd = compute_grady_distance(A, B, r.d)
+    ∇xyd = compute_gradxy_distance(A, B, r.d)
+
+    return k .* ( -0.5 * ∇xyd / r.ℓ^2 .+ 0.25 * ∇xd'*∇yd / r.ℓ^4 )
+    
+end
+
+""" 
+    InverseMultiquadric <: Kernel 
+        d :: Distance function 
+        c2 :: Squared constant parameter
+        ℓ :: Length-scale parameter
+    
+    Computes the inverse multiquadric (IMQ) kernel, i.e.,
+
+     k(A, B) = (c^2 + d(A,B)/β^2)^{-1/2}
+"""
+mutable struct InverseMultiquadric <: Kernel 
+    d::Distance
+    c2::Real  
+    ℓ::Real    
+
+    InverseMultiquadric(d, c2, ℓ) = (
+        @assert (0 < c2);
+        @assert (0 < ℓ);
+        new(d, c2, ℓ)
+    )
+end
+# default will be 1.0 for c^2
+InverseMultiquadric(d; c2=1.0, ℓ=1.0) = InverseMultiquadric(d, c2, ℓ)
+
+get_parameters(k::InverseMultiquadric) = (k.c2, k.ℓ)
+
+
+function compute_kernel(
+    A::T,
+    B::T,
+    r::InverseMultiquadric,
+) where {T<:Union{Vector{<:Real},Symmetric{<:Real,<:Matrix{<:Real}}}}
+
+    d2 = compute_distance(A, B, r.d)
+    (r.c2 + d2 / r.ℓ^2)^(-0.5)
+end
+
+function compute_gradx_kernel(
+    A::T,
+    B::T,
+    r::InverseMultiquadric,
+    ) where {T<:Vector{<:Real}}
+
+    d2 = compute_distance(A, B, r.d)
+    ∇d = compute_gradx_distance(A, B, r.d)
+
+    return -0.5 * ∇d / r.ℓ^2 * (r.c2 + d2 / r.ℓ^2)^(-1.5)
+end
+
+function compute_grady_kernel(
+    A::T,
+    B::T,
+    r::InverseMultiquadric,
+    ) where {T<:Vector{<:Real}}
+
+    d2 = compute_distance(A, B, r.d)
+    ∇d = compute_grady_distance(A, B, r.d)
+
+    return -0.5 * ∇d / r.ℓ^2 * (r.c2 + d2 / r.ℓ^2)^(-1.5)
+end
+
+
+function compute_gradxy_kernel(
+    A::T,
+    B::T,
+    r::InverseMultiquadric,
+    ) where {T<:Vector{<:Real}}
+
+    d2 = compute_distance(A, B, r.d)
+    ∇xd = compute_gradx_distance(A, B, r.d)
+    ∇yd = compute_grady_distance(A, B, r.d)
+    ∇xyd = compute_gradxy_distance(A, B, r.d)
+    q = r.c2 + d2 / r.ℓ^2
+
+    return 3*∇xd*∇yd / (4*r.ℓ^4) * q^(-2.5) - ∇xyd / (2*r.ℓ^2) * q^(-1.5)
 end
 
 """ 
@@ -141,3 +267,34 @@ function KernelMatrix(
     F2 = compute_feature.(ds2, (f,); dt = dt)
     KernelMatrix(F1, F2, k)
 end
+
+
+
+
+include("divergences.jl")
+export
+    Distance,
+    Forstner,
+    compute_distance,
+    compute_gradx_distance,
+    compute_grady_distance,
+    compute_gradxy_distance,
+    Euclidean,
+    Feature,
+    GlobalMean,
+    CorrelationMatrix,
+    compute_feature,
+    compute_features,
+    Kernel,
+    DotProduct,
+    RBF,
+    InverseMultiquadric,
+    get_parameters,
+    compute_kernel,
+    compute_gradx_kernel,
+    compute_grady_kernel,
+    compute_gradxy_kernel,
+    KernelMatrix,
+    Divergence,
+    KernelSteinDiscrepancy,
+    compute_divergence
diff --git a/test/kernels/kernel_tests.jl b/test/kernels/kernel_tests.jl
@@ -1,6 +1,8 @@
 using AtomsBase
 using Unitful, UnitfulAtomic
 using LinearAlgebra
+using Distributions
+
 # initialize some fake descriptors
 d = 8
 num_atoms = 20
@@ -30,6 +32,9 @@ f_cm = compute_feature.(ld, (cm,))
 @test compute_features(ds, gm) == f_gm
 @test compute_features(ds, cm) == f_cm
 
+mvn = MvNormal(zeros(d), I(d))
+f_mvn = [rand(mvn) for j = 1:100]
+
 ## distances 
 fo = Forstner(1e-16)
 e = Euclidean(d)
@@ -42,12 +47,18 @@ e = Euclidean(d)
 @test compute_distance(f_cm[1], f_cm[1], fo) < eps()
 @test compute_distance(f_cm[1], f_cm[2], fo) > 0.0
 
+@test abs(sum(compute_gradx_distance(f_gm[1], f_gm[1], e))) < eps()
+@test abs(sum(compute_gradx_distance(f_gm[1], f_gm[2], e))) > 0.0
+@test abs(sum(compute_grady_distance(f_gm[1], f_gm[1], e))) < eps()
+@test abs(sum(compute_grady_distance(f_gm[1], f_gm[2], e))) > 0.0
+@test compute_gradxy_distance(f_gm[1], f_gm[1], e) == -2.0*I(d)
+@test compute_gradxy_distance(f_gm[1], f_gm[2], e) == -2.0*I(d)
+
 ## kernels 
 dp = DotProduct()
 rbf_e = RBF(e)
 rbf_fo = RBF(fo)
 
-
 @test typeof(dp) <: Kernel
 @test typeof(rbf_e) <: Kernel
 @test typeof(rbf_fo) <: Kernel
@@ -64,8 +75,24 @@ rbf_fo = RBF(fo)
 @test compute_kernel(f_cm[1], f_cm[2], rbf_e) > 0
 @test compute_kernel(f_cm[1], f_cm[2], rbf_fo) > 0
 
+@test abs(sum(compute_gradx_kernel(f_gm[1], f_gm[1], rbf_e))) < eps()
+@test abs(sum(compute_gradx_kernel(f_gm[1], f_gm[2], rbf_e))) > 0
+@test abs(sum(compute_grady_kernel(f_gm[1], f_gm[1], rbf_e))) < eps()
+@test abs(sum(compute_grady_kernel(f_gm[1], f_gm[2], rbf_e))) > 0
+@test compute_gradxy_kernel(f_gm[1], f_gm[1], rbf_e) == I(8)
+@test abs(sum(compute_gradxy_kernel(f_gm[1], f_gm[2], rbf_e))) > 0
+
 @test typeof(KernelMatrix(f_gm, dp)) <: Symmetric{Float64,Matrix{Float64}}
 @test typeof(KernelMatrix(f_cm, dp)) <: Symmetric{Float64,Matrix{Float64}}
 @test typeof(KernelMatrix(f_gm, rbf_e)) <: Symmetric{Float64,Matrix{Float64}}
 @test typeof(KernelMatrix(f_cm, rbf_e)) <: Symmetric{Float64,Matrix{Float64}}
 @test typeof(KernelMatrix(f_cm, rbf_fo)) <: Symmetric{Float64,Matrix{Float64}}
+
+
+# divergences
+std_gauss_score(x) = -x
+ksd = KernelSteinDiscrepancy(score=std_gauss_score, kernel=rbf_e)
+
+@test typeof(ksd) <: Divergence
+@test compute_divergence(f_mvn, ksd) < compute_divergence(f_gm, ksd)
+