kmjp's blog

競技プログラミング参加記です

CROC 2016 Qualification: C. Hostname Aliases

あまり面白くない…?
http://codeforces.com/contest/644/problem/C

問題

ウェブサイトのアクセスログとして、URLのリストが与えられる。
各URLをホスト名部とその後のパス部に分解しよう。

ある2つ以上の複数ホストは、以下を満たす場合互いにエイリアスであると考えられる。

  • ログ中に登場する当該ホスト群の項目について、そこに含まれるパス部に対するログは、他のホストに対するログにおいても必ず1回以上登場する。

互いにエイリアスの関係にあるホスト群を求めよ。

解法

各ホストに対するログのホスト名を同じ基準で並べ替え、同一かどうか判定できるようにしよう。
自分はパス部を適当な文字で囲い、sort→unique→連結した。
あとはRollingHash等で連結後のパス部が同一になるホストの集合を求めるだけ。

int N;
map<string,vector<string>> M;
map<ll,vector<string>> M2;
struct RollingHash {
	static const ll mo0=1000000007,mo1=1000000009;
	static ll mul0,mul1;
	static const ll add0=1000010007, add1=1003333331;
	static vector<ll> pmo[2];
	string s; int l; vector<ll> hash_[2];
	void init(string s) {
		this->s=s; l=s.size(); int i,j;
		hash_[0]=hash_[1]=vector<ll>(1,0);
		if(!mul0) mul0=10009+(((ll)&mul0)>>5)%259,mul1=10007+(((ll)&mul1)>>5)%257;
		if(pmo[0].empty()) pmo[0].push_back(1),pmo[1].push_back(1);
		FOR(i,l) hash_[0].push_back((hash_[0].back()*mul0+add0+s[i])%mo0);
		FOR(i,l) hash_[1].push_back((hash_[1].back()*mul1+add1+s[i])%mo1);
	}
	pair<ll,ll> hash(int l,int r) { // s[l..r]
		if(l>r) return make_pair(0,0);
		while(pmo[0].size()<r+2)
			pmo[0].push_back(pmo[0].back()*mul0%mo0), pmo[1].push_back(pmo[1].back()*mul1%mo1);
		return make_pair((hash_[0][r+1]+(mo0-hash_[0][l]*pmo[0][r+1-l]%mo0))%mo0,
			             (hash_[1][r+1]+(mo1-hash_[1][l]*pmo[1][r+1-l]%mo1))%mo1);
	}
	pair<ll,ll> hash(string s) { init(s); return hash(0,s.size()-1); }
	static pair<ll,ll> concat(pair<ll,ll> L,pair<ll,ll> R,int RL) { // hash(L+R) RL=len-of-R
		while(pmo[0].size()<RL+2) pmo[0].push_back(pmo[0].back()*mul0%mo0), pmo[1].push_back(pmo[1].back()*mul1%mo1);
		return make_pair((R.first + L.first*pmo[0][RL])%mo0,(R.second + L.second*pmo[1][RL])%mo1);
	}
};
vector<ll> RollingHash::pmo[2]; ll RollingHash::mul0,RollingHash::mul1;


void solve() {
	int i,j,k,l,r,x,y; string s;
	
	cin>>N;
	while(N--) {
		cin>>s;
		string host,path;
		for(i=7;i<s.size();i++) {
			if(s[i]=='/') break;
		}
		if(i==s.size()) {
			host=s;
			path="$$";
		}
		else {
			host=s.substr(0,i);
			path="$"+s.substr(i)+"$";
		}
		M[host].push_back(path);
	}
	
	FORR(r,M) {
		vector<string> V=r.second;
		sort(ALL(V));
		V.erase(unique(ALL(V)),V.end());
		s="";
		FORR(r,V) s+=r;
		RollingHash rh;
		auto ha=rh.hash(s);
		M2[(ha.first<<31)+ha.second].push_back(r.first);
	}
	
	vector<ll> ret;
	FORR(r,M2) if(r.second.size()>1) ret.push_back(r.first);
	cout<<ret.size()<<endl;
	FORR(r,ret) {
		vector<string> V=M2[r];
		FORR(rr,V) cout<<rr<<" ";
		cout<<endl;
	}
}

まとめ

もうひとひねり欲しい。

広告を非表示にする