重複排除 技術解説(3)重複の判定方法

引き続き、ASCII.technologies 2011年1月号に寄稿した「重複排除技術が革新するストレージの世界」の第二章の技術解説です。今回は「重複の判定方法」です。


[2.2節 重複の判定方法 序文]
今までの説明では重複排除の容量削減効果に主に焦点を合わせてきたが、重複排除技術をシステムに適用するにあたり、それと同じぐらい重要なポイントがある。それは、重複排除処理を加えることによるシステム性能への影響を軽微に抑えるということである。重複排除で容量を大きく削減できたとしても、システム性能が大きく落ちてしまうと使用用途がかなり限定されてしまう。たとえば、バックアップではバックアップウィンドウ以内にバックアップを終了させることは必須なので、性能要件が非常に重要だ。ある程度の性能が出せなければ採用に至らない。
ハードウェアを増強すれば性能低下は抑えられるので、それは重要な要件ではないと考える読者がいるかもしれない。しかし、その場合にはハードウェアコストの上昇という別の問題を抱え込む。将来は状況が変わるかもしれないが、現時点の重複排除製品ビジネスにおいては、高価なハードウェアを使わずに性能への影響を軽微に抑える―つまりは少ないハードウェアリソースで重複排除処理を効率的に行う―ことが、非常に重要な要件になっている。
そして、この要件を大きく左右するのが、本節で取り上げる重複の判定方法である。どのやり方を採用するかによって、ハードウェアリソースの消費量は大きく変化する。多くのディスクリソースを必要とする製品もあれば、CPU・メモリをメインに使うという製品もある。本節では、どのようなアプローチが市場に存在し、それらがハードウェアリソース消費量の観点でどのように異なるのか、そして、どういった設計思想からそのような設計になっているか、解説していく。

続きを読む

重複排除 技術解説(4)重複排除するタイミング − リアルタイムか後処理か

引き続き、ASCII.technologies 2011年1月号に寄稿した「重複排除技術が革新するストレージの世界」の第二章の技術解説です。今回は「重複の判定方法」です。


[2.3節 重複排除するタイミング − リアルタイムか後処理か 序文]
前節では重複判定の方式について説明した。本節では、その重複判定の処理をどのタイミングで行うかということについて、解説していこう。ここでは大きく二つの方式があり、一つはリアルタイムに行う方式で、もう一つは後処理として行う方式だ。
リアルタイムに行う方式は、インライン方式と呼ばれる。インライン方式では、データがディスクに書かれる前に重複判定が行われ、重複データはそのタイミングで削除される。つまり、重複データがディスクに書かれることはない。
後処理として行う方式は、ポストプロセス方式と呼ばれる。ポストプロセス方式では、重複であるかどうかの判定は後回しにしてとりあえずディスクにデータを全て書いてしまう。つまり、重複排除機能が無い場合と同様、全てのデータはディスクにまず書かれる。そして、後々、バックグラウンドタスクとして重複判定処理が走る。重複判定処理がまだ行われていないデータを読み出し、フィンガプリントを比較するなどして重複判定を行い、重複であればそのデータを削除し他の同一データへのリンク処理を行う。例えるなら、ポストプロセス方式ではバッファのようにディスクを使っていると言ってもよいかもしれない。
インライン方式とポストプロセス方式にはそれぞれメリット・デメリットがある。以下ではその違いを説明していこう。

続きを読む