データレイクとデータウェアハウス|概要・それぞれの違い・活用例を解説!

データレイクとデータウェアハウス|概要・それぞれの違い・活用例を解説!

データを管理するためのツールとして、データレイクとデータウェアハウスの2種類が利用されます。どちらも同じようなものだと理解されていることがありますが、実際には目的の異なったツールです。そのため、それぞれの特徴と違いについて、正しく理解しておくことが求められます。

とはいえ、データレイクやデータウェアハウスについて、イメージしか持てていない人は多いでしょう。今回は、これらを導入してみたい人に向けて、基本的な知識から違い、利用のポイントについて解説します。

データレイクの概要は「情報の蓄積」

まず、データレイクとはどのようなツールであるのかを理解していきましょう。

データレイクとは

データレイクを簡単に説明すると、情報の蓄積を目的としたツールです。データの構造や内容、大半のことは問わず、様々なデータをそのまま「生データ」な状態で保存します。とにかくデータを蓄積するため「格納庫」と例えられることもあるぐらいです。

一般的に、データを格納する際は、何かしらのルールを決めておきます。例えば、特定の保存されたデータだけを格納するなどです。しかし、データレイクにはこのような制限がほとんどなく、どのようなデータでも集約していきます。

幅広い用途に適用可能

データレイクは連携されたデータが、そのままの状態で格納されています。そのため、そこから幅広い用途に適用できることが特徴です。

例えば、データレイクに格納されているデータを利用して、営業部門が売上状況を把握できます。また、同じデータを利用して、製造部門が製造計画を立てることもできるでしょう。加工されていない状態のデータであるため、使い方は未知数であるともいえます。

基本的に、データレイクへの格納は、用途を指定しないものです。これにより、大量のデータを効果的に利用できるようになります。

分析には時間がかかりやすい

コストをかけずにデータを格納できる反面で、分析にあたっては、時間がかかりやすい点がデメリットです。分析のたびに、データの形式などを確認して、それに沿った分析手法を用意しなければなりません。

一般的に、データ分析は準備に時間を要してしまいます。アルゴリズムを考えたりデータを整えたりする必要があり、検討だけでも手間がかかりやすいのです。ある程度の知識はあっても、時間を要することは避けられないでしょう。

全く同じ分析を繰り返すならば、負担は軽減できるかもしれません。ただ、そのような状況は限られているため、時間はかかりやすいものだと認識しておきましょう。

データウェアハウスの概要は「構造化されたデータの集合体」

続いて、データウェアハウスとはどのようなツールであるのかを理解していきましょう。

データウェアハウスとは

データウェアハウスとは、特定の用途を想定し、データを加工した状態で保存するツールです。事前にデータの用途を洗い出しておき、それに沿ってデータ収集を設計します。必要となるならば、様々なデータ加工を施さなければなりません。

例えば、データを分析するにあたって、ブランクを許容できないとします。このような場合、データウェアハウスで「データなし」などと加工してあげるのです。また、文字列を数字に変換するなど、型変換の作業を実施することもあります。

ただ、データの用途が決まっているため、それ以外の用途には使いづらくなってしまいます。もし、似たような用途にデータを流用したいと考えても、難しいことが多いでしょう。完全に用途を決めてから、データウェアハウスを実装しなければなりません。

スムーズにデータ活用しやすい

事前に用途を決めてデータを格納しているため、スムーズにデータ活用できます。本来は、データを加工するなどの処理が必要となる場合でも、事前に完了しているため、その必要はありません。データを取り出すだけで、前処理なく活用できます。

また、前処理などを必要としないことから、処理全体の高速化に繋げられます。一度に処理する内容が増えれば増えるほど、処理には時間を要してしまうため可能な限り少なくできることはメリットです。データウェアハウスへと格納する際に時間は要しますが、処理タイミングを分散することで効率化を図れます。

事前の設計が重要となる

データウェアハウスを活用するためには、事前に十分な設計を済ませることが重要です。データの形式などを固定して格納するため、これらが明確でなければ導入に失敗してしまいます。どのような用途でデータを活用したいかを整理して、それに沿った設計が求められるのです。

例えば、どのデータをどのデータソースから取得するか決めなければなりません。いくつものデータソースがあるならば、どこから取得するのが最適であるか検討する必要があるのです。また、コードで管理されているデータがあるならば、本来の値に差し替えるなどの作業も求められます。

一般的に、データウェアハウスの設計には、データ連携に関する高いスキルが必要です。どのデータがどこに格納されているかを把握し、複数の選択肢がある場合は、どれが最適であるか判断できなければなりません。

データレイクとデータウェアハウスの違い


概要である程度の違いを理解できたかもしれませんが、改めてどのような違いがあるか解説します。

データの用途

データレイクとデータウェアハウスでは、保存されたデータの用途が大きく異なります。データレイクは、幅広い用途に利用できますが、データウェアハウスは特定の用途だけです。非常に大きな違いであるため、最初に意識した方が良いでしょう。

用途に大きな違いがあるため、選択を誤るとデータ活用に失敗することは言うまでもありません。大規模なツールを導入しても、使いこなせないまま終わってしまいます。金銭的にも時間的にも、大きな損失を生み出しかねません。

なお、どちらも導入する場合でも、目的を持っておくことが重要です。「ひとまず導入しておき後から活用を考える」というケースが見受けられますが、特徴に違いがあるためこのような進め方はおすすめできません。

データ構造

事前にデータが加工されているか、つまり「データ構造」という観点で違いがあります。データレイクはデータ構造が自由である反面、管理されず、データウェアハウスでは制約されるものの管理が可能です。利用者からすると大きな違いにはなりませんが、ITシステムを運用する側からすると大きな違いになりかねません。

データ構造の違いは、以下で解説する通り、データレイクを選択するかデータウェアハウスを選択するかの大きなポイントとなります。また、データ構造の複雑さが、導入のハードルを大きく変化させることもあるでしょう。非常に重要なポイントであるため、まずは違いがある点を抑えなければなりません。

導入の難易度

データレイクとデータウェアハウスでは、導入の難易度が大きく違います。一般的に、データレイクは簡単に導入できますが、データウェアハウスはそうではありません。導入までの期間とコストに大きな違いがあります。

データレイクは、データを加工せずに管理するため、事前の設計作業は短時間で完了します。対して、データウェアハウスは加工しなければならないため、この設計にどうしても時間を要するのです。この段階で導入の難易度に違いがあります。

また、設計が複雑ということもあり、導入する際の設定作業にも大きな違いがあるのです。データウェアハウスは、細かな設定を繰り返し、かつ関連システム側の設定作業もあるため難易度が高まっています。

データストレージ

データを保存するためのストレージ容量に大きな違いがあります。一般的に、データレイクは大量のストレージが必要となり、データウェアハウスはそこまでの容量を必要としません。

ストレージ容量に違いが出るのは、加工済みのデータを保存しているかどうかに由来します。データレイクは生データを保存する仕組みであるため、際限なくストレージが消費されていくのです。それに対して、データウェアハウスは一部のデータだけを保存する仕組みであり、ストレージの消費量が抑えられます。

データレイクとデータウェアハウスの選び方


データレイクとデータウェアハウスの内容を理解しても、どちらが適切であるか判断に困るかもしれません。続いては、これらの選び方について解説します。

利用目的

最初に考えなければならないことは、データの利用目的です。繰り返し解説しているとおり、データレイクとデータウェアハウスは根本的に目的が違っています。選択を間違えると、ほぼ失敗してしまうため、丁寧に検討すべき部分です。

検討する際には、データを活用する先が明確であるかどうかを意識しましょう。例えば、定期的にデータを集めて経営資料を作成する業務があるならば、データを加工して格納するデータウェアハウスが適していると考えられます。逆に、このようなデータを活用する業務が存在しないならば、データレイクを選択すべきでしょう。

また、データを活用している場合でも、その頻度や規模を考慮しなければなりません。例えば、半年に1回、一部の部門だけがデータを活用するならば、データウェアハウスの意味が薄れてしまいます。実質的には、データレイクのような使い方になってしまうでしょう。

基本的に、データウェアハウスは、データの活用方法が明確でないと効果を発揮できません。現状の業務やこれからやりたいことを踏まえ、役立てられそうか最初に検討しましょう。

エンドユーザーのスキル

データレイクは自由にデータを保存できる反面、利用時にはある程度の加工が必要とされます。そのままの状態で利用できる可能性はありますが、加工が前提だといっても過言ではないでしょう。そのため、データレイクを利用するエンドユーザーには、データを加工して使いこなすスキルが求められます。

もし、エンドユーザーにこのようなスキルがないならば、データレイクを導入しても適切に運用できないでしょう。例えば、データレイクからデータを取り出し、自分でトリミングしたり集計したりできなければ、データレイクの意味合いは薄れてしまいます。

エンドユーザーのスキルに不安がある場合、事前にヒアリングしてデータウェアハウスを導入することがベターです。ただ、データウェアハウスの導入にはデータレイクよりもコストが発生するため、その点には注意が求められます。

データの構造

どのようなデータを格納する予定であるかは重要なポイントです。データレイクならば自由にデータを保存できますが、データウェアハウスは構造化されたものに限られます。もし、データの構造化が難しいならば、必然的にデータレイクを選択することになるでしょう。

ただ、このポイントについては、どちらが良いと一概には言い切れません。なぜなら、構造化されていないデータでも、データウェアハウスへ格納する際に構造化すれば差し支えないからです。各々のシステムが自由に保存しているデータでも、構造化して格納し直すことができます。

とはいえ、構造化されていないデータをデータウエハースに格納する作業は、変換処理などにまとまった時間を要するかもしれません。そのため、収集前のデータ構造は、ある程度意識して選択することがポイントです。

まとめ

データレイクとデータウェアハウスについて解説しました。同じものであると認識されることはありますが「用途に沿ってデータを格納しているか」という観点で大きく異なったものです。データレイクは「生データ」を保管しますが、データウェアハウスは「特定の用途専用に加工されたデータ」が格納されています。

目的が異なったツールであることから、導入するアプリケーションにも違いがあります。また、ストレージサイズなど、細かな部分にも違いがあるため、適切に理解して準備することが大切です。

SHAREこの記事をシェアする

admin