Minimization of energy#

References#

On this page we recall the approach and main formulas from [1] and [2]. The minimization of the magnetic ground state in Magnopy is an implementation of the method described in [2].

Minimization of the energy function (\(E^{(0)}\) or \(E^{(0)} + E^{corr}\)) can be formulated as a problem of minimizing that function over the \(M\) vectors of the spin directions \(\boldsymbol{z}_{\alpha}, \alpha = 1, ..., M\)

\[E = F(\boldsymbol{z}_{1}, ..., \boldsymbol{z}_{M})\]

Directional vectors are unitary vectors and vary on the sphere. This fact introduces complications in the minimization procedure as the optimization space is not a vector space and the typical (BFGS, for instance) algorithms for linear optimizations can not be applied directly. This problem is elegantly solved via parametrization of directional vectors with the exponents of skew-symmetric matrices [2]. Given an initial guess \(\boldsymbol{z}_{\alpha}^{(0)}\), any other set of directional vectors can be obtained by the following formulae:

\[ \boldsymbol{z}_{\alpha} = e^{\boldsymbol{A}_{\alpha}} \boldsymbol{z}_{\alpha}^{(0)} = \cos(\theta_{\alpha}) \,\boldsymbol{z}_{\alpha}^{(0)} + \sin(\theta_{\alpha}) \,(\boldsymbol{r}_{\alpha}\times\boldsymbol{z}_{\alpha}^{(0)}) + (1 - \cos(\theta_{\alpha})) (\boldsymbol{r}_{\alpha} \cdot \boldsymbol{z}_{\alpha}^{(0)})\, \boldsymbol{r}_{\alpha}\]

where \(\boldsymbol{A}_{\alpha}\) are skew-symmetric matrices parametrized by three real numbers as

\[\begin{split}\boldsymbol{A}_{\alpha} = \begin{pmatrix} 0 & -a_{\alpha}^z & a_{\alpha}^y \\ a_{\alpha}^z & 0 & -a_{\alpha}^x \\ -a_{\alpha}^y & a_{\alpha}^x & 0 \end{pmatrix}\end{split}\]

and

\[\theta_{\alpha} = \sqrt{\left(a_{\alpha}^x\right)^2 + \left(a_{\alpha}^y\right)^2 + \left(a_{\alpha}^z\right)^2}\]

\[\boldsymbol{r}_{\alpha} = \dfrac{(a_{\alpha}^x, a_{\alpha}^y, a_{\alpha}^z)}{\theta_{\alpha}}\]

Then energy function can be rewritten as

\[E = F( e^{\boldsymbol{A}_1} \boldsymbol{z}_{1}^{(0)}, ..., e^{\boldsymbol{A}_I} \boldsymbol{z}_{I}^{(0)} )\]

In other words, as a function of vector \(\boldsymbol{x}\) from the vector space \(\mathbb{R}^{3I}\):

\[E = F(\boldsymbol{x}) \qquad \boldsymbol{x} =( a_{1}^x, a_{1}^y, a_{1}^z, ..., a_{I}^x, a_{I}^y, a_{I}^z )\]

Then, energy of the system is minimized with the BFGS algorithm [1].

Broyden-Fletcher-Goldfarb-Shanno (BFGS) algorithm#

Formula for the inverse Hessian update:

\[H^{ij}_{k+1} = \sum_{u,v}(\delta_{i,u} - \rho_ks^i_ky^u_k) H^{uv}_k (\delta_{v,j} - \rho_ky^v_ks^j_k) + \rho_k s^i_ks^j_k, \qquad \rho_k = \dfrac{1}{\sum_i y^i_k s^i_k}\]

Given Initial guess \(\boldsymbol{x}_0\) and Initial approximation of the inverse hessian matrix \(\boldsymbol{H}_0\),

\(k \gets 0\)
While convergence is not achieved:
1. Compute the gradient of the function \(\boldsymbol{\nabla} F(\boldsymbol{x}_k)\);
2. Compute the search direction \(\boldsymbol{p}_k = -\boldsymbol{H}_k \boldsymbol{\nabla} F(\boldsymbol{x}_k)\);
3. Compute length of the step \(\alpha_k\) via Line search;
4. Set \(\boldsymbol{x}_{k+1} = \boldsymbol{x}_k + \alpha_k \boldsymbol{p}_k\) and compute gradient \(\boldsymbol{\nabla} F(\boldsymbol{x}_{k+1})\);
5. Set \(\boldsymbol{s}_k = \boldsymbol{x}_{k+1} - \boldsymbol{x}_k\) and \(\boldsymbol{y}_k = \boldsymbol{\nabla} F(\boldsymbol{x}_{k+1}) - \boldsymbol{\nabla} F(\boldsymbol{x}_k)\);
6. Update the hessian matrix \(\boldsymbol{H}_{k+1}\) by the BFGS formula;
7. \(k \gets k + 1\).

Note

In our implementation we update the direction vectors at the end of each iteration (i.e. at step 2.g). Therefore, the vector \(\boldsymbol{x}_k\) is always equal to \(( 0, 0, 0, 0, 0, 0, ..., 0, 0, 0)\).

Initial guess#

Initial guess is provided by the user or randomly generated. User provides three components of each directional vector \((z_{\alpha}^x, z_{\alpha}^y, z_{\alpha}^z)\).

Initial approximation of the inverse hessian matrix#

We take an identity matrix as an initial approximation of the hessian matrix and scale it as

\[\boldsymbol{H}_0 = \dfrac{\boldsymbol{y}^T_k\boldsymbol{s}_k}{\boldsymbol{y}^T_k\boldsymbol{y}_k}\boldsymbol{I}\]

before the first update [1].

Gradient of the function F(x)#

As we choose to update the direction vectors at each step of the BFGS algorithm, then the gradient with respect to these variables can be computed as [2]

\[\dfrac{\partial F}{\partial\boldsymbol{a}_{\alpha}} = \boldsymbol{t}_{\alpha} = \boldsymbol{z}_{\alpha} \times \dfrac{\partial E^{(0)}}{\partial\boldsymbol{z}_{\alpha}}\]

where \(\boldsymbol{t}_{\alpha}\) is a torque vector and \(\boldsymbol{a}_{\alpha} = (a_{\alpha}^x, a_{\alpha}^y, a_{\alpha}^z)\).

The gradient of the classical energy is computed analytically

\[ \dfrac{\partial E^{(0)}}{\partial z^i_{\alpha}} = S_{\alpha}\tilde{J}_{\alpha}^i\]

where \(\tilde{J}_{\alpha}^i\) is a single-spin renormalized parameter defined by equation S.68 of Supplementary material of paper about Magnopy.

The gradient of the correction energy \(E^{corr}\) is computed numerically by the two point formula.

Line search#

Line search algorithm defines an optimal step length (\(\alpha\)) for the search direction \(\boldsymbol{p}_k\). It is obtained by minimizing the function

\[f(\alpha) = F(\boldsymbol{x}_k + \alpha \boldsymbol{p}_k), \qquad \dfrac{d f(\alpha)}{d \alpha} = \boldsymbol{\nabla} F(\boldsymbol{x}_k + \alpha \boldsymbol{p}_k) \boldsymbol{p}_k\]

enough to satisfy strong Wolfe conditions:

\[\begin{split}F(\boldsymbol{x}_k + \alpha\boldsymbol{p}_k) &\le F(\boldsymbol{x}_k) + c_1 \alpha_k \boldsymbol{\nabla} F(\boldsymbol{x}_k) \boldsymbol{p}_k, \\ \vert\boldsymbol{\nabla} F(\boldsymbol{x}_k + \alpha\boldsymbol{p}_k)\boldsymbol{p}_k\vert &\le c_2\vert\boldsymbol{\nabla} F(\boldsymbol{x}_k)\boldsymbol{p}_k\vert\end{split}\]

Line search algorithm:

Given \(\boldsymbol{x}_k\) and \(\boldsymbol{p}_k\)

If \(\alpha = 1\) satisfies strong Wolfe condition, then return \(1\).
Set \(\alpha_0 = 0\), \(\alpha_{\text{max}} = 2\) and chose \(\alpha_1\) via Cubic interpolation;
\(i \gets 1\);
While maximum number of iterations is not achieved:
1. Compute \(f(\alpha_i) = F(\boldsymbol{x}_k + \alpha_i \boldsymbol{p}_k)\);
2. If \(f(\alpha_i) > f(0) + c_1 \alpha_i f^{\prime}(0)\) or \(f(\alpha_i) \ge f(\alpha_{i-1})\) and \(i > 1\), then return \(zoom(\alpha_{i-1}, \alpha_i)\);
3. Compute \(f^{\prime}(\alpha_i) = \boldsymbol{\nabla} F(\boldsymbol{x}_k + \alpha_i \boldsymbol{p}_k) \boldsymbol{p}_k\);
4. If \(\vert f^{\prime}(\alpha_i)\vert \le -c_2 f^{\prime}(0)\), then return \(\alpha_i\);
5. If \(f^{\prime}(\alpha_i) \ge 0\), then return \(zoom(\alpha_i, \alpha_{i-1})\);
6. Choose \(\alpha_{i+1}\) via Cubic interpolation;
7. \(i \gets i + 1\).

\(zoom\) algorithm:

Given \(\alpha_{lo}\), \(\alpha_{hi}\)

Repeat
1. Interpolate \(\alpha_j\) via Cubic interpolation;
2. Compute \(f(\alpha_j) = F(\boldsymbol{x}_k + \alpha_j \boldsymbol{p}_k)\);
3. Check that value of the function sufficiently decreases.
4. If \(f(\alpha_j) > f(0) + c_1 \alpha_j f^{\prime}(0)\) or \(f(\alpha_j) \ge f(\alpha_{lo})\), then \(\alpha_{hi} \gets \alpha_j\)
5. Else
  1. If \(\vert f^{\prime}(\alpha_j)\vert \le -c_2 f^{\prime}(0)\), then return \(\alpha_j\);
  2. If \(f^{\prime}(\alpha_j)(\alpha_{hi} - \alpha_{lo}) \ge 0\), then \(\alpha_{hi} \gets \alpha_{lo}\);
  3. \(\alpha_{lo} \gets \alpha_j\).

Cubic interpolation#

Given \(\alpha_l\), \(\alpha_h\) and \(f(\alpha_l)\), \(f(\alpha_h)\) and \(f^{\prime}(\alpha_l)\), \(f^{\prime}(\alpha_h)\) compute new \(\alpha_m\) as

\[\begin{split}\alpha_{min} &= \alpha_h - (\alpha_h - \alpha_l) \dfrac{f^{\prime}(\alpha_h) + d_2 - d_1}{f^{\prime}(\alpha_h) - f^{\prime}(\alpha_l) + 2d_2} \\ d_1 &= f^{\prime}(\alpha_l) + f^{\prime}(\alpha_h) - 3 \dfrac{f(\alpha_l) - f(\alpha_h)}{\alpha_l - \alpha_h} \\ d_2 &= \text{sign}(\alpha_h - \alpha_l) \sqrt{d_1^2 - f^{\prime}(\alpha_l)f^{\prime}(\alpha_h)}\end{split}\]

If \(d_1^2 - f^{\prime}(\alpha_l)f^{\prime}(\alpha_h) < 0\), then \(\alpha_{min} = \alpha_l\) if \(f(\alpha_l) \le f(\alpha_h)\), otherwise \(\alpha_{min} = \alpha_h\).