kmjp's blog

競技プログラミング参加記です

yukicoder : No.430 文字列検索

ライブラリの整備に向いた問題。
http://yukicoder.me/problems/no/430

問題

文字列Sと、いくつかの文字列C[i]が与えられる。
Sの部分文字列としてC[i]は合計何回登場するか求めよ。

解法

ローリングハッシュでもAho-Corasick法でも解ける。

ローリングハッシュの場合は、先にS中の1~10文字の部分文字列のハッシュ値を計算しておくとよい。
C[i]を受け取る度、S中の|C[i]|文字の部分文字列のハッシュ値を計算するとTLEする。

以下両方のコードを記載しておく。
(コメント内はAho-Corasick法のコード)

const int NUMC=26;
class Trie {
public:
	vector<vector<int> > V;
	int find(string s) {
		int cur=0;
		ITR(it,s) if((cur=V[cur][*it+1])==0) return -1;
		return cur;
	}
	void create(vector<string> S) { // 0 is for backtrack
		V.clear();
		V.push_back(vector<int>(NUMC+1));
		sort(S.begin(),S.end());
		ITR(it,S) {
			int cur=0;
			ITR(c,(*it)) {
				if(V[cur][*c+1]==0) V.push_back(vector<int>(NUMC+1)),V[cur][*c+1]=V.size()-1;
				cur=V[cur][*c+1];
			}
		}
	}
};


class ACmatch_num {
public:
	Trie t;
	vector<int> acc;
	int ma;
	void create(vector<string> S) {
		int i;
		ma=S.size();
		t.create(S);
		acc.clear();
		acc.resize(t.V.size());
		FOR(i,S.size()) acc[t.find(S[i])]++;
		queue<int> Q;
		FOR(i,NUMC) if(t.V[0][i+1]) t.V[t.V[0][i+1]][0]=0, Q.push(t.V[0][i+1]);
		
		while(!Q.empty()) {
			int k=Q.front(); Q.pop();
			FOR(i,NUMC) if(t.V[k][i+1]) {
				Q.push(t.V[k][i+1]);
				int pre=t.V[k][0];
				while(pre && t.V[pre][i+1]==0) pre=t.V[pre][0];
				t.V[t.V[k][i+1]][0]=t.V[pre][i+1];
				acc[t.V[k][i+1]] += acc[t.V[pre][i+1]];
			}
		}
	}
	int match(string S) {
		int R=0;
		int cur=0;
		ITR(it,S) {
			while(cur && t.V[cur][*it+1]==0) cur=t.V[cur][0];
			cur=t.V[cur][*it+1];
			R += acc[cur];
		}
		return R;
	}
};

struct RollingHash {
	static const ll mo0=1000000007,mo1=1000000009;
	static ll mul0,mul1;
	static const ll add0=1000010007, add1=1003333331;
	static vector<ll> pmo[2];
	string s; int l; vector<ll> hash_[2];
	void init(string s) {
		this->s=s; l=s.size(); int i,j;
		hash_[0]=hash_[1]=vector<ll>(1,0);
		if(!mul0) mul0=10009+(((ll)&mul0)>>5)%259,mul1=10007+(((ll)&mul1)>>5)%257;
		if(pmo[0].empty()) pmo[0].push_back(1),pmo[1].push_back(1);
		FOR(i,l) hash_[0].push_back((hash_[0].back()*mul0+add0+s[i])%mo0);
		FOR(i,l) hash_[1].push_back((hash_[1].back()*mul1+add1+s[i])%mo1);
	}
	pair<ll,ll> hash(int l,int r) { // s[l..r]
		if(l>r) return make_pair(0,0);
		while(pmo[0].size()<r+2)
			pmo[0].push_back(pmo[0].back()*mul0%mo0), pmo[1].push_back(pmo[1].back()*mul1%mo1);
		return make_pair((hash_[0][r+1]+(mo0-hash_[0][l]*pmo[0][r+1-l]%mo0))%mo0,
			             (hash_[1][r+1]+(mo1-hash_[1][l]*pmo[1][r+1-l]%mo1))%mo1);
	}
	pair<ll,ll> hash(string s) { init(s); return hash(0,s.size()-1); }
	static pair<ll,ll> concat(pair<ll,ll> L,pair<ll,ll> R,int RL) { // hash(L+R) RL=len-of-R
		while(pmo[0].size()<RL+2) pmo[0].push_back(pmo[0].back()*mul0%mo0), pmo[1].push_back(pmo[1].back()*mul1%mo1);
		return make_pair((R.first + L.first*pmo[0][RL])%mo0,(R.second + L.second*pmo[1][RL])%mo1);
	}
};
vector<ll> RollingHash::pmo[2]; ll RollingHash::mul0,RollingHash::mul1;

string S;
int M;
vector<string> C;

map<pair<ll,ll>,int> MM[11];

void solve() {
	int i,j,k,l,r,x,y; string s;
	
	cin>>S>>M;
	/*
	FORR(c,S) c-='A';
	FOR(i,M) {
		cin>>s;
		FORR(c,s) c-='A';
		C.push_back(s);
	}
	
	ACmatch_num ac;
	ac.create(C);
	cout << ac.match(S) <<endl;
	*/
	RollingHash rhs;
	rhs.init(S);
	for(x=1;x<=10;x++) {
		for(i=0;i+x<=S.size();i++) MM[x][rhs.hash(i,i+x-1)]++;
	}
	
	int ret=0;
	while(M--) {
		cin>>s;
		RollingHash rh;
		ret += MM[s.size()][rh.hash(s)];
	}
	cout<<ret<<endl;
	
	
}

まとめ

本番は「上記のとおり頭の悪いRH解でTLE」→「AC法ライブラリ持ってきたらちょっと前に手を入れた際バグを混入しており、必死に修正」ということで無駄に時間食った。
まぁライブラリのバグ修正できたし良しとするか…。