RAID はデータ保護の基本だ。だが、RAID が生まれたのは SAN や NAS といったハードウェアアレイ 製品の時代だ。現在はクラウドやオブジェクトストレージなどの技術が優勢の時代であり、主な保護手 段は RAID ではなくイレージャーコーディングに移ってきた。
イレージャーコーディングでは、RAID に伴う再構築時間の短縮が見込まれる。では、イレージャー コーディングが RAID に取って代わる可能性はあるのだろうか。本稿ではイレージャーコーディングの 長所と短所を確認する。
RAID の概要
RAID は複数のドライブを仮想化し、1 つの論理ドライブを形成する。1 つ以上のドライブに障害が発生した場合は、そのドライブを交換してアレイを再構築することでデータを回復できる。これにより、 堅牢(けんろう)なデータ保護が比較的低コストで実現する。
だが、データ量の増加とクラウドやオブジェクトストレージなどの進化が従来の RAID 技術にプレッ シャーを与えている。
大きな RAID ボリュームの回復は時間がかかり過ぎ、実用的ではない可能性がある。業界の専門家に よると、8TB を超えるボリュームの再構築は受け入れられないほど遅くなるという。
従来の RAID バックアップでは、ハイパースケールやハイパーコンバージドの分散型ストレージを完
全には処理できない。分散ストレージを利用するのは、物理的に分かれた場所にある複数のアレイにま たがってデータを保持するクラウドプロバイダーなどのオブジェクトストレージサプライヤーだ。さら に RAID コントローラーが複雑さを増加させる。
イレージャーコーディング入門
巨大なデータセットやオブジェクトストレージ、ソフトウェア定義ストレージなどの応用事例での答 えとなるのがイレージャーコーディングだ。
イレージャーコーディングはパリティーに基づく。つまりデータをフラグメントに分割してエンコー ドする。そのため保存場所を問わない。この特徴はクラウドストレージに適している。使用するストレー ジ容量も RAID よりも少なく、ストレージシステムの 2 カ所以上に障害が生じてもデータを回復できる。
イレージャーコーディングは前方誤り訂正を使う。この技術は GSM などの無線伝送にも使われてい る。イレージャーコーディングは、MP3 ファイルや音楽 CD の作成に使われている非可逆圧縮形式であ るという見方もある。これは、データの一部を 16 個のパーツに分割した場合、10 個のパーツだけで元 のデータを復元できるというものだ。
これにより、イレージャーコーディングは RAID よりも経済的になる。Freeform Dynamics でアナリ ストを務めるブライアン・ベッツ氏の指摘によると、最もシンプルな形式のイレージャーコーディング は、各データに「ハーフコード」を使用するという。従って、ストレージの追加要件は 50%になる。
データの各部はどこにあっても構わないため、システムの堅牢性が大きく向上する可能性がある。イ レージャーコーディングによって保護されるストレージボリュームは、RAID によって保護されるスト レージボリュームよりもハードウェア障害のリスクが大幅に少なくなる。ストレージシステムのセットアップ方法によっては、復旧時間も短縮される。イレージャーコーディ ングを使うシステムは、実際には再構築の必要がない。データを再構築するのに十分な数のシンボルが あれば、障害が起きてもユーザーは気付かない可能性がある。新しいドライブへのパリティーの再構築 をバックグラウンドで行うことも可能だ。
クラウドだけのものか
これまで、イレージャーコーディングは主にオブジェクトストレージに関連付けられてきた。つまり クラウドに関連付けられてきた。ブロックストレージやファイルストレージにはあまり適していないと 見なされている。だが NAS サプライヤーがイレージャーコーディングを使うようになっている。NetApp は「StorageGRID」にイレージャーコーディングを採用している。それだけではない。「Apache Hadoop」 「VMware vSAN」「Nutanix AOS」にもイレージャーコーディングが用いられている。
一般に、イレージャーコーディングは一定レベルの遅延を許容するよう設計された分散システムや、 エンドユーザーによって遅延が重要ではない場合に機能する。Nutanix はバックアップ、アーカイブ、 WORM ワークロード、メールにはイレージャーコーディングを利用しても、書き込みが集中するアプリ ケーションには使わないことを推奨している。
だが、巨大なデータセットの保護は、イレージャーコーディングが唯一の実用的な選択肢になる可能性がある。
ESG でアナリストを務めるスコット・シンクレア氏は次のように話す。「オブジェクトストレージは 一般に大き過ぎて定期的に完全バックアップするのは不可能だ。一次コピーにより高いレベルの可用性 を確保する保護技術が必要だ」
「大容量ドライブを大規模に利用する場合、RAID では再構築に時間がかかり過ぎる。再構築中に別 の障害が発生するとデータにリスクが及ぶ恐れがある」
バックアップにはならないイレージャーコーディング
イレージャーコーディングにも欠点はある。最も大きな問題が処理のオーバーヘッドだ。イレージャーコーディングは CPU 処理が必要になる。 RAID はデータのコピーを別のドライブまたは RAID ストライプに格納するだけだ。CPU 負荷は遅延を 生み出す可能性がある。だが、欠点はそれだけではない。
シンクレア氏は次のように話す。「イレージャーコーディングはパリティーを計算するために、システ ムへの要求がより厳しくなる可能性がある」
「イレージャーコーディングは保護の 1 レベルにすぎず、バックアップの代わりにはならないことを 理解することも重要だ。HDD や SSD の障害に対する効率的な保護方法にすぎない」
イレージャーコーディングは、特にオンプレミスシステムでは従来のバックアップに代わるものでは ない。ベッツ氏は次のように語る。「イレージャーコーディングとバックアップは全く別物だ。バックアッ プは、独立した二次コピーを作成することを意味する。できれば『エアギャップ』を設けて格納するの が望ましい。プライマリーデータがイレージャーコーディングによって保護されているからといって、 不注意であっても悪意を持ってでも、破損や削除を防ぐことはできない」
ランサムウェアなどの脅威に対する保護としてバックアップが必要であることは変わらない。
イレージャーコーディングは、データレプリケーションに完全に取って代わるものでもない。クラウ ドサービスではなくオンプレミスのデータを保護するためにイレージャーコーディングを使っている企 業は、サイトの障害から回復する方法を検討することが不可欠だ。
完全なオフサイトレプリケーションを行っておけば、フェイルオーバーサイトから運用を再開できる。 だが、イレージャーコーディングではデータの完全なコピーは提供されない。シンクレア氏は、イレー ジャーコーディングを使っている場合でも、運用データ全ての二次コピーを用意しておくことを推奨する。オフサイトレプリケーションの代わりとしてイレージャーコーディングをセットアップすることは可 能だ。だが、それには慎重な計画が必要だ。 IT 部門の管理者は、データが格納されている場所を把握し、1 カ所が完全に機能しなくなる障害が起 きてもそれを補えるだけの保管場所を確保する必要がある。
デコーディング処理にはオーバーヘッドがあるため、こうした分散環境ではパフォーマンスに影響する可能性がある。 結果として、イレージャーコーディングがますます重要な役割を果たすように見える。だが、イレー ジャーコーディングはツールの一つにすぎない。