DFT(離散フーリエ変換)とNTT(数論変換:整数(剰余環)を用いたDFT)
先日ARC埋めの一環でATC001のC問題(高速フーリエ変換)を解いたのだけれど、こういう畳み込み問題はDFT(discrete Fourier transform;離散フーリエ変換)の代わりに NTT(number-theoretical transform;数論変換)という "整数(剰余環)を用いたDFT" でも解けるらしい。
そこで、math314氏の「 任意modでの畳み込み演算をO(n log(n))で - math314のブログ」の解説と実装例*1を追いながら自分で実装して試してみた。こないだcomplex<double>で自分で書いてみたやつ(→ATC001)とほぼ同じことをしているように見える。これは面白い。
(ここでは解説はしないので、詳しくはmath314氏の元記事を参照して頂ければと思います)
// 後述の2b.相当のコード
#include <bits/stdc++.h>
using namespace std;
typedef long long ll;
#define rep(var,n) for(int var=0;var<(n);++var)
#define rep1(var,n) for(int var=1;var<=(n);++var)
template<class T>
T extgcd(T a, T b, T& x, T& y) {
for (T u=y=1,v=x=0; a; ) {
T q = b / a;
swap(x -= q*u, u);
swap(y -= q*v, v);
swap(b -= q*a, a);
}
return b;
}
inline long long mod_pow(long long x, long long e, long long mod) {
long long v = 1LL;
for ( ; e; e>>=1) {
if (e & 1) v = (v * x) % mod;
x = (x * x) % mod;
}
return v;
}
inline long long mod_inv(long long a, long long mod) {
// return mod_pow(a, mod-2, mod); // slower
long long x, y;
extgcd(a, mod, x, y);
return (mod + x % mod) % mod;
}
long long _garner(vector<long long>& xs, vector<long long>& mods) {
int M = xs.size();
vector<long long> coeffs(M, 1), constants(M, 0);
for (int i=0; i<M-1; ++i) {
long long mod_i = mods[i];
// coffs[i] * v + constants[i] == mr[i].val (mod mr[i].first) を解く
long long v = (xs[i] - constants[i] + mod_i) % mod_i;
v = (v * mod_inv(coeffs[i], mod_i)) % mod_i;
for (int j=i+1; j<M; j++) {
long long mod_j = mods[j];
constants[j] = (constants[j] + coeffs[j] * v) % mod_j;
coeffs[j] = (coeffs[j] * mod_i) % mod_j;
}
}
return constants.back();
}
template<typename T>
inline void bit_reverse(vector<T>& a) {
int n = a.size();
int i = 0;
for (int j=1; j<n-1; ++j) {
for (int k = n >> 1; k >(i ^= k); k >>= 1);
if (j < i) swap(a[i], a[j]);
}
}
template<long long mod, long long primitive_root>
class NTT {
public:
long long get_mod() { return mod; }
void _ntt(vector<long long>& a, int sign) {
const int n = a.size();
assert((n ^ (n&-n)) == 0); //n = 2^k
const long long g = primitive_root; // g is primitive root of mod
long long tmp = (mod - 1) * mod_inv(n, mod) % mod; // -1/n
long long h = mod_pow(g, tmp, mod); // ^n√g
if (sign == -1) h = mod_inv(h, mod);
bit_reverse(a);
for (int m=1; m<n; m<<=1) {
const int m2 = 2 * m;
long long _base = mod_pow(h, n/m2, mod);
long long _w = 1;
for (int x=0; x<m; ++x) {
for (int s=x; s<n; s+=m2) {
long long u = a[s];
long long d = (a[s + m] * _w) % mod;
a[s] = (u+d) % mod;
a[s+m] = (u-d+mod) % mod;
}
_w = (_w * _base) % mod;
}
}
}
void ntt(vector<long long>& input) {
_ntt(input, 1);
}
void intt(vector<long long>& input) {
_ntt(input, -1);
const long long n_inv = mod_inv(input.size(), mod);
for (auto &x : input) x = (x * n_inv) % mod;
}
// 畳み込み演算を行う
vector<long long> convolution(const vector<long long>& a, const vector<long long>& b){
int result_size = a.size() + b.size() - 1;
int n = 1; while (n < result_size) n <<= 1;
vector<long long> _a = a, _b = b;
_a.resize(n, 0);
_b.resize(n, 0);
ntt(_a);
ntt(_b);
for (int i=0; i<n; ++i) _a[i] = (_a[i] * _b[i]) % mod;
intt(_a);
_a.resize(result_size);
return _a;
}
};
vector<long long> convolution_ntt(vector<long long>& a, vector<long long>& b, long long mod=1224736769LL) {
for (auto &x : a) x %= mod;
for (auto &x : b) x %= mod;
ll maxval = max(a.size(), b.size()) * *max_element(a.begin(), a.end()) * *max_element(b.begin(), b.end());
if (maxval < 1224736769) {
NTT<1224736769, 3> ntt3;
return ntt3.convolution(a, b);
}
NTT<167772161, 3> ntt1;
NTT<469762049, 3> ntt2;
NTT<1224736769, 3> ntt3;
vector<long long> x1 = ntt1.convolution(a, b);
vector<long long> x2 = ntt2.convolution(a, b);
vector<long long> x3 = ntt3.convolution(a, b);
vector<long long> ret(x1.size());
vector<long long> mods { 167772161, 469762049, 1224736769, mod };
for (int i=0; i<x1.size(); ++i) {
vector<long long> xs { x1[i], x2[i], x3[i], 0 };
ret[i] = _garner(xs, mods);
}
return ret;
}
int main() {
int N; cin >> N; // 1-100000
vector<ll> g(N+1), h(N+1);
g[0] = h[0] = 0;
rep(i,N){
int A,B; cin >> A >> B;
g[1+i] = A;
h[1+i] = B;
}
vector<ll> f = convolution_ntt(g, h, 1000000007LL);
rep1(k, N*2){
cout << f[k] << endl;
}
return 0;
}
1. math314氏の実装例を適宜修正したもの(3つのNTTの結果をGarner法でまとめる)。
NTTを3回、それぞれ別々の法 (167772161, 469762049, 1224736769) を用いて実行する。
この3つの素数のチョイスは ということらしい。(
としている。INT_MAXまでの非負整数であれば復元可能。ただし64bitを超えるのでlong longに収まりきれず中国剰余定理では無理で、代わりにGarner法が用いられる。)
◎math314氏のコードの修正点:
const int g = 3;はg = primitive_root;とするか gの代わりに primitive_root をそのまま使った方が良いかと。ここで用いられる3つの素数は全て原始根(primitive root)として3を持つので動作には支障ないのだけれど*2。- その次の行でhを求める際、
(mod - 1) / nの部分は(mod - 1) * mod_inv(n, mod) % modじゃないといけない気がする。
- 1a. 演算に剰余環演算クラスを使用
→AC (956ms) https://atc001.contest.atcoder.jp/submissions/2628347
- 1b. 剰余環演算クラスを使わずにlong long演算で
→AC (758ms) https://atc001.contest.atcoder.jp/submissions/2628636
2. この例題は各項が最大でも1e9までの値にしかならないのでNTT<1224736769,3>の1つだけ行う。
- 2a. 演算に剰余環演算クラスを使用。
→AC (454ms) https://atc001.contest.atcoder.jp/submissions/2628363
- 2b. 剰余環演算クラスを使わずにlong long演算で
→AC (427ms) https://atc001.contest.atcoder.jp/submissions/2628643
3 (参考). 先日のFFT
- 先日の実装
→AC (866ms) https://atc001.contest.atcoder.jp/submissions/2583908
- 再帰ではなくbit_reverseを使って書き直したもの
→AC (441ms) https://atc001.contest.atcoder.jp/submissions/2628595
その他
剰余環における逆元を求める mod_inv() の計算速度
普段はフェルマーの小定理を用いる方法((p-2)乗するやつ)を使っているコピペしているのだけれど、拡張ユークリッド互除法を用いた計算のほうが2倍ぐらい速い。
typedef long long ll;
ll mod_pow(ll x, ll e, ll p) {
// x^e mod pを求める
ll v = 1LL;
for ( ; e; e>>=1) {
if (e & 1) v = (v * x) % p;
x = (x * x) % p;
}
return v;
}
ll mod_inv_fermat(ll a, ll p) {
// フェルマーの小定理を用いた逆元計算
return mod_pow(a, p-2, p); // a^(p-2) mod p
}typedef long long ll;
ll extgcd(ll a, ll b, ll& x, ll& y) {
// 拡張ユークリッド互除法
// ax+by=gcd(a,b) を満たすx,yを1組求めたい時に
for (ll u=y=1,v=x=0; a; ) {
ll q = b / a;
swap(x -= q*u, u);
swap(y -= q*v, v);
swap(b -= q*a, a);
}
return b;
}
ll mod_inv_extgcd(ll a, ll mod) {
// 拡張ユークリッド互除法を用いた逆元計算
ll x, y;
extgcd(a, mod, x, y);
return (mod + x % mod) % mod;
}求めたい値は 1/a(あるいはこれにmodの整数倍を足したもの)なので、
\begin{align}
x &= \frac{1}{a} + kM \\
x - kM &= \frac{1}{a} \\
a(x - kM) &= 1 \\
ax + M(-ak) &= 1 \\
y=-akとおいて \\
ax + My &= 1 = gcd(a,M)
\end{align}
↑aとMは互いに素(Mは素数だしだし)なのでgcd(a,M)=1である。
ということで、を満たす
を1つ求める拡張ユークリッド互除法、すなわち
mod_inv_extgcd(a, M) を用いて x を求め(yはk部分だから捨てていい)、 の範囲になるように補正すれば良い。
参考資料
*1:動かすには何箇所か修正が必要