データスペースとは?概要と仕組みについて易しく解説!

2020年頃から注目を集めている技術に、データスペースと呼ばれるものがあります。日本では一部の企業でしか利用されておらず、詳しく理解できている人は少ないでしょう。ここで初めて耳にするキーワードかもしれません。
ただ、欧州委員会の動向を踏まえると、これからデータスペースは重要な技術になると予想されます。今回は、まだまだ日本では理解されていない技術である、データスペースの概要や仕組みについて易しく解説します。
データスペースの概要
データスペースといわれても、どのような技術であるか、イメージできない人は多いはずです。まずは、どのような技術であり、なぜ必要とされているかについて解説します。
データスペースとは
データスペースとは、複数の組織やシステムが独立性を保ちながら、安全かつ効率的にデータを共有するための技術です。従来のようにデータを1ヶ所に集約するのではなく、それぞれが「データ主権」を維持したままであることがポイントです。各組織やシステムがデータを保持しながら、相互にデータを参照しあえるような形式を目指します。
重要な考え方として「単なるデータ連携の仕組みではない」ということも抑えておきましょう。データスペースでは「信頼」「意味」「制御」などの観点があり、広く開かれていて、なおかつ持続可能なデータエコシステムを構築することが求められています。
データスペースが必要とされる背景
データスペースが求められる背景には、データの所有者が他者へデータを連携する際のリスクがあります。具体的には、従来のデータ提供では、保有しているデータをクラウドなどのストレージへ転送し、それを提供する必要がありました。しかし、クラウドなどのサービスではデータの管理権限などに制限が生じ、適切に扱えない状況が起きえるのです。これは、データを提供する際の大きな課題でもありました。
しかし、データスペースになると、それぞれが自らのデータを常に制御できるようになります。他者の管理下にデータが配置されないため、気密性の高いデータや個人情報なども扱いやすくなったのです。今までに発生していた制約を解消するために、データスペースが求められつつあります。
データスペースと従来のデータ統合との違い
データスペースと間違えられやすい概念に「データ統合」があります。データを共有するという意味合いでは似ている部分もありますが、これらの違いについても理解を深めましょう。
中央集権型と分散型
従来のデータ統合では、ETL(Extract, Transform, Load)やデータレイクといった手法を用いて、大量のデータを特定のプラットフォームへ集約していました。これを「中央集権型」と呼び、例えばAWSなどのクラウドサービスにデータを連携していたのです。この方法はデータを一元管理できるものの、場合によってはデータを制御できなくなるリスクを負っていました。
しかし、データスペースは、各々がデータを管理しながら、必要なときにだけデータを参照できる状態を構築できます。論理的にデータを連携する「分散型」と呼ばれる考え方です。中央集権型か分散型かは、データスペースとデータ統合の大きな違いといえます。
柔軟性や拡張性
データスペースは、従来のデータ統合よりも柔軟性や拡張性に優れていると考えられます。特に、新しいデータを取り込む際に、これらの違いは顕著です。
例えば、従来のデータ統合は、事前にデータの内容を設計しスキーマなどを定義しなければなりません。そのため、新しいデータを連携するとなると、設計からやり直す必要がありました。つまり、大きな工数が生じてしまう可能性が高いのです。
対して、データスペースは論理的にデータを連携するため、データ統合のようにスキーマなどを定義する必要はありません。アカウントの発行やアクセス権の設定などで柔軟に運用できます。
分野別に見るデータスペースの種類
データスペースは大きな考え方、技術であり、利用される環境によって求められるものは大きく異なります。すでに世界で利用されているデータスペースを踏まえて、どのようなものが存在するかその種類を紹介します。
Industrial(製造業)Data Space
製造業向けのデータスペースは、欧州データ戦略で定義された基本的な考え方です。製造業におけるサプライチェーン全体でのデータ共有を目的としています。これを実現できれば、サプライヤーやOEM、サービスプロバイダーが連携し、部品情報や生産実績、品質データなどを共有しやすくなるのです。
例えば、欧州では自動車業界の情報を共有するために「CATENA―X」と呼ばれる取り組みが進められています。また、オランダでは「SCSN」と呼ばれるサプライチェーン内のデータ連携を効率化するプロジェクトに力を入れている状況です。
国や地域によって、データスペースの構築度合いや理解は大きく異なります。ただ、製造業に関するものは、特に注目度が高いと考えて良いでしょう。
Green(環境)Data Space
環境に関するデータスペースも、欧州データ戦略が用意されているものです。脱酸素社会を実現するために、温室効果ガス排出量、エネルギー利用、廃棄物処理などに関するデータを関係機関や事業者間で共有することを目指します。
例えば、欧州では「Green Data Space」として、環境に関するデータを広く共有するための取り組みが進められています。また「GREAT」と呼ばれる、生物に関連するデータスペースも登場しました。
環境への意識は欧州で特に高いことから、データスペースの開発も欧州を中心に進んでいます。とはいえ、環境問題は地球全体で考えるべき課題であり、今後は世界的に普及していくでしょう。
Mobility(モビリティ)Data Space
モビリティといえば自動車のイメージが強いですが、自動車・公共交通・インフラ管理などのデータ連携を目指します。交通量や走行データ、インフラ情報などを連携するための基盤を目指すものです。これにより、自動運転を支援したり、交通の最適化を実現したりできるようになります。
例えば、欧州では「Mobility Data Space」「Bauhaus Mobility Lab」などのデータスペースが構築されています。これらを用いてより良い都市計画を立てたり、スマートシティ構想を実現したりするのです。
Health(医療・ヘルスケア)Data Space
医療やヘルスケアでは、病院、研究機関、保険会社などがデータを連携することを目指しています。患者の医療履歴、検査結果、治療情報などを安全に共有することで、医療の質向上や研究の促進を実現するのです。
まだまだ課題は多いですが、欧州では「EHDS(European Health Data Space)」というプロジェクトが推進されています。個人情報の管理など、データの活用に向けたルール作りの途中ですが、実際に活用する動きは見受けられます。
データスペースの仕組み・構成要素
データスペースは新しい技術であることから、その仕組みや構成要素は完全に確立されていません。今回は、現時点で利用されているデータスペースの仕組みについて紹介します。
メタデータの付与と管理
データスペースでは、データそのものだけでなく、それに付随する意味情報(メタデータ)が重要です。異なる組織や業界間で相互理解を促進するため、以下の仕組みが活用されます。
- RDF(Resource Description Framework):データの意味を三つ組(主語、述語、目的語)で表現する標準技術
- OWL(Web Ontology Language):ドメイン固有の語彙や概念の関係を定義するために使われる
- JSON-LD:JSON形式で意味的情報を付与できる記述法でWeb APIとの親和性が高い
これらを用いることで、人間もコンピュータも、大量のデータを素早く読み取れるようになるのです。
アクセス制御(セキュリティ)
データスペースでは、誰が・いつ・どの範囲で・どの目的に応じてデータを利用できるかという精密な制御が不可欠です。そのため、以下のようなセキュリティ関連の仕組みが使用されます。
- OAuth 2.0 / OpenID Connect(OIDC):分散環境におけるユーザー認証と認可の標準
- Attribute-Based Access Control(ABAC):属性ベースで柔軟にアクセス条件を定義
- データ利用契約言語(例:ODRL):データ使用のルールや制約を機械可読に表現
これらのセキュリティ技術を活用することによって、データの主権を維持しつつも、データを共有することが可能です。
データカタログ
データスペース内でどのようなデータが存在するのかを発見するための仕組みがデータカタログです。データの所有者は、保有するデータをカタログに登録し、他者が検索や参照できるようにします。例えば、以下のような仕組みで、データカタログを構築しなければなりません。
- DCAT(Data Catalog Vocabulary):オープンデータや政府系データで用いられる標準語彙
- メタデータ検索API:特定の条件でデータの存在を照会できる仕組み
データカタログを適切に設定できなければ、関係者はデータを見つけ出すことができません。これでは、データスペースを構築する意味が薄れてしまいます。データを検索し活用できる環境を整えることが非常に重要です。
コネクタやインタフェース
実際にデータをやり取りするためには、データスペース・コネクタと呼ばれる中継コンポーネントが必要です。これらは、アクセス制御・ロギング・通信暗号化などを実行しながら、安全な連携を支援します。いくつかの仕組みがあり、代表的なものを挙げると以下のとおりです。
- IDS Connector(IDSA仕様):信頼できる通信を保証するための標準コンポーネント
- REST API / GraphQL:データアクセスのインターフェースとして一般的に使用
- MQTT / Kafka:リアルタイムなデータストリーミングに対応するプロトコルや基盤
このようなコネクタを用いることで、データを物理的に移動せずに提供することが可能です。データを必要なときに必要な分だけ提供する「データ・オンデマンド型」モデルを実現できます。
なお、コネクタやインタフェースは、新たな規格や仕組みが研究されている状況です。現在は紹介したような仕組みが採用されていますが、今後は大きく変化するかもしれません。
ログ管理
データが分散している環境では、信頼性の確保が非常に重要です。誰が・どのように・いつデータを利用したかという記録を残さなければなりません。このような「ログ管理」を実施することで、不正アクセスの防止や契約違反の検出などができるようになります。ログ管理の仕組みは数多くあり、例えば以下のとおりです。
- ログ管理ツール(例:ELK Stack)
- ブロックチェーン技術:改ざん不可能なログの保持に活用される
データスペースの世界では「ログ自体が改ざんされる」ということを避けることが重要です。そのため、ログ管理ツールだけではなく、ブロックチェーンのように改ざんが非常に難しい技術が用いられることもあります。
まとめ
データスペースは欧州を中心に、世界的に注目されているデータ共有の技術です。今までは、データ統合やデータ連携が当たり前でしたが、これに代わるものとして注目されています。今後、データを適切に共有するために、日本でもデータスペースが導入されるかもしれません。
ただ、データスペースは発展途上であり、構築する技術や仕組みなども多岐にわたります。標準化され、これが世界に展開されるには、まだまだ時間を要するでしょう。