kmjp's blog

競技プログラミング参加記です

Codeforces #296 Div1 D. Fuzzy Search

高速フーリエ変換デビュー。
http://codeforces.com/contest/528/problem/D

問題

文字列S,Tがあり、許容誤差Kが与えられる。
TがS中の位置iに登場するとは、Tの各文字がS中で誤差K文字以内の範囲に存在することを意味する。
厳密に書くと、各文字T[j]がS[i+j-K]~S[i+j+K]以内に登場することを意味する。

S,Tが"ATGC"の4文字で構成されているとする。
S,T,Kが与えられたとき、S中Tが誤差Kで登場する位置の数を求めよ。

解法

高速フーリエ変換で求める。
'A','T','G','C'それぞれの文字について以下の処理を行う。

サンプルであるS="AGCAATTCAT", T="ACAT"で考える。
例えば'C'について考える。
Sの各文字が'C'であるかどうかで0/1に置換するとS="0010000100"である。
ここで誤差K=1を考慮し、「左右K文字内に'C'がある」と考えるとS="0111001110"となる。
Tの各文字が'C'であるかどうかで0/1に置換するとT="0100"である。

ここで、TがS中i文字目に登場するには、(T[0]*S[i+0] + T[1]*S[i+1] + T[2]*S[i+2] + T[3]*S[i+3]) = (T中のCの数)を満たせばよい。
Tを先に左右反転しておくと、(T[3]*S[i+0] + T[2]*S[i+1] + T[1]*S[i+2] + T[0]*S[i+3]) = (T中のCの数)を判定することになる。

ここで、Sから|S|次の多項式P(x)を生成することを考える。
S[i]の値はxのi次の項の係数と考えると、 P(x)=x+x^2+x^3+x^6+x^7+x^8である。
同様にTから|T|時の多項式Q(x)を生成すると Q(x)=xである。
 R(x)=P(x)*Q(x)とすると、先の(T[3]*S[i+0] + T[2]*S[i+1] + T[1]*S[i+2] + T[0]*S[i+3])の値は、結局R(x)の(i+3)次の項の係数と見なすことができる。

あとは、 R(x)=P(x)*Q(x)の各次の係数を高速フーリエ変換で求められると、(i+3)次の係数が(T中のCの数)なら、TはS中位置iに登場しうる。

ここまでの処理を'A''T''G''C''それぞれで行い、4つ全てで条件を満たす位置iがあれば、そこは(S中Tが誤差Kで登場する位置)となる。

int SL,TL,K;
string S,T;
int cnt[1<<19];
int dif[1<<19];

typedef complex<double> Comp;

vector<Comp> fft(vector<Comp> v, bool rev=false) {
	int n=v.size(),i,j,m;
	
	for(i=0,j=1;j<n-1;j++) {
		for(int k=n>>1;k>(i^=k);k>>=1);
		if(i>j) swap(v[i],v[j]);
	}
	for(int m=2; m<=n; m*=2) {
		double deg=(rev?-1:1) * 2*acos(-1)/m;
		Comp wr(cos(deg),sin(deg));
		for(i=0;i<n;i+=m) {
			Comp w(1,0);
			for(int j1=i,j2=i+m/2;j2<i+m;j1++,j2++) {
				Comp t1=v[j1],t2=w*v[j2];
				v[j1]=t1+t2, v[j2]=t1-t2;
				w*=wr;
			}
		}
	}
	if(rev) FOR(i,n) v[i]*=1.0/n;
	return v;
}

vector<Comp> MultPoly(vector<Comp> P,vector<Comp> Q) {
	P=fft(P), Q=fft(Q);
	for(int i=0;i<P.size();i++) P[i]*=Q[i];
	return fft(P,true);
}

void dodo(char c) {
	int i,num=0;
	ZERO(dif);
	vector<Comp> SC(1<<19,0),TC(1<<19,0);
	
	FOR(i,SL) if(S[i]==c) dif[max(0,i-K)]++, dif[min(SL,i+K+1)]--;
	FOR(i,SL) dif[i]+=i?dif[i-1]:0, SC[i]=dif[i]>0;
	FOR(i,TL) TC[i]=T[TL-1-i]==c, num+=T[i]==c;
	SC=MultPoly(SC,TC);
	
	FOR(i,SL-TL+1) cnt[i]+=(SC[i+TL-1].real()+1e-7>=num);
}

void solve() {
	int i,j,k,l,r,x,y; string s;
	
	cin>>SL>>TL>>K;
	cin>>S>>T;
	
	dodo('A');
	dodo('T');
	dodo('G');
	dodo('C');
	cout<<count(cnt,cnt+(SL-TL+1),4)<<endl;
	
}

まとめ

高速フーリエ変換を使ったことがなかったので、初めてつかえて良かった。
あと、この解法はFFTを理解していてもFFTに落とし込むのが難しそうだと思った。
今後こういうビットマスクの掛け合わせを行う問題が出たら、FFTを検討することにしよう。