BigQueryへMySQLやPostgreSQLから直接ニアリアルタイムでレプリケーション可能に。「Datastream for BigQuery」登場

Google Cloudは、BigQueryに対してMySQLやPostgreSQL、Oracle Databaseからニアリアルタイムで直接データのレプリケーションを可能にする新サービス「Datastream for BigQuery」をプレビューリリースしました。

オンプレミスやクラウドで稼働するMySQLやPostgreSQL、Oracle DatabaseでのOLTPによるデータ操作が、ETLツールなどを挟むことなくほぼリアルタイムでBigQueryに反映されるため、プライマリとなるデータベースのOLTP処理に負荷をかけることなく並行してBigQueryによる大規模データの分析処理が容易になります。

Datastream for BigQueryは設定も容易で、データのレプリケートだけでなく、ソースとなるデータベースのスキーマ変更も自動的に反映されるとのことです。下記は「Introducing Datastream for BigQuery」からの引用です。

Just configure your source database, connection type, and destination in BigQuery and you’re all set. Datastream for BigQuery will backfill historical data and continuously replicate new changes as they happen. And as database schemas shift, Datastream seamlessly handles schema changes and automatically adds new tables and columns to BigQuery.

Datastream for BigQueryは、ソースデータベース、接続タイプ、接続先をBigQueryで設定するだけで、すぐに利用できます。Datastream for BigQueryは、過去のデータに遡ってデータを取得し、新しい変更が発生するとそれを継続的にレプリケートします。また、データベースのスキーマが変更されても、Datastreamはスキーマの変更をシームレスに処理し、新しいテーブルとカラムをBigQueryに自動的に追加します。

Google CloudはこのDatastream for BigQueryの登場に合わせて、大規模データのBigQueryへの移動を安価に行える、データボリュームに合わせた新しい価格体系も発表しています。

これまでBigQueryはその性能の高さが評価される一方で、既存のデータベースからのデータ移行については課題を抱えていました。Datastream for BigQueryはその改善を大きく進めるものとなりそうです。

コメントする