重複排除 技術解説(6)重複排除技術の今後の展望

引き続き、ASCII.technologies 2011年1月号に寄稿した「重複排除技術が革新するストレージの世界」の第3章、今後の展望です。この記事で、転載は最後になります。
なお、重複排除技術の今後の展望に関しては、近いうちに、より詳しい展望記事を某紙に寄稿予定です。公開が可能になりましたら、またブログで紹介できたらと思っています。


[第3章 序文]ここまで、重複排除のメリットと、その技術のポイントを解説してきた。最後の章となる本章では、重複排除技術の今後の展望について簡単にまとめる。
なお、今後の展望を語る上で重複排除と圧縮は切っても切れない関係にあるため、重複排除技術だけでなく圧縮技術も含めた容量最適化技術という観点から本章では考察していく。

プライマリストレージへの重複排除・圧縮の適用

現在、容量最適化技術の主な用途はバックアップであり、それ以外の用途への適用はかなり限定されたものだが、重複排除の利用実績が増えるにつれてこの状況が変わってくるのは間違いない。
最も興味深い適用先は、プライマリストレージだ。プライマリストレージにおける容量最適化の効果(比率)はバックアップに比べて随分と低いのだが、プライマリストレージにはそれを補ってあまりあるメリットがある。プライマリストレージはバックアップストレージの何倍もの値段がするので、少しの容量最適化でも大きなコスト削減につながるという点である。
現在でもいくつかのプライマリストレージは容量最適化機能を持っている。しかし、そのほとんどはファイル/固定長ブロック単位の重複排除か単なる圧縮で、そんなに高い容量削減効果が得られないせいか、浸透率は低い。もっと広く使われていく技術になるためには、もう少し工夫が必要だろう。
そのためには色々なアプローチが考えられるが、ここでは大きく発展しそうな領域を一つ紹介しよう。それは、より進んだ圧縮アルゴリズムの採用である。バックアップの容量最適化における主役は重複排除だったが、プライマリストレージにおいては、フルバックアップが毎週格納されるようなことは無いので、重複排除率はバックアップよりもずっと低くなる。その分、圧縮の重要性が増してくる。実際、プライマリストレージ向けに新しいやり方で圧縮を行うアプローチが出てきている。Dellに先日買収されたOcarina Networksの製品は、40以上の圧縮アルゴリズムを持ち、それらをコンテンツに応じて使い分ける。

データライフサイクル全体への重複排除・圧縮の適用

プライマリストレージなどバックアップ以外への容量最適化の適用が進むと、ストレージシステムにおけるその技術の位置づけが変わってくる。今まではバックアップという一部分だけに使われていた技術だったのが、プライマリ、バックアップ、そしてアーカイブなど、システムの複数レイヤに渡って使われるストレージの基盤技術になってくる。
ここで新たな課題が一つ出てくる。ストレージ装置やバックアップソフトウェアが採用している容量最適化技術には互換性が無いという点だ。互換性が無いため、異機種のストレージ装置間などでデータを移動する場合、重複排除や圧縮を全てやり直さなくてはならない。
具体的な例を示すと、バックアップストレージにデータを格納すると容量最適化が行われるが、そこからアーカイブストレージにデータを移すときにはデータを元の大きさに戻して最適化を再びやり直さなくてはならない。データはライフサイクルに応じて置き場所が変わることが多いが、その移動のたびに重複排除・圧縮をやり直すことになる。これは小さくないオーバヘッドだ。
この問題を解決する一つの方策は、データライフサイクル全体にわたって互換性のある容量最適化技術を採用し、重複排除・圧縮された状態でデータを送受信できるようにすることである。こうすれば、ライフサイクルに沿ってデータが移動される際に重複排除・圧縮をやり直さなくて済むのでCPUリソースの消費量が少なくなる。また、送付するデータのサイズも小さくなるのでネットワークリソースの消費量も減る。
この様に、ストレージシステム全体にわたって互換性を保ちつつ容量最適化を行うことで、ライフサイクルに応じたデータの移動が、より柔軟に、効率的にできるようになる。重複排除と圧縮から成る容量最適化技術は、ストレージの基盤技術としてストレージシステムのあり方を大きく変えることになるだろう。