AWS の Amazon QuickSight を使ってみよう

「お前は将来どうなりたいんや！？」

自己分析を怠ってきたために、こんな問いかけをされると震え上がってしまうエンジニアの横田です。

読者の皆様は BI ツールをご利用でしょうか？

ご存知の方も多いかと思いますが、BI ツールとは、企業に大量に蓄積しているデータから必要な情報を集約・分析し、経営や業務に活用できるようにするツールのことです。AWS からは Amazon QuickSight が BI ツールとして提供されています。

以前、Amazon QuickSight の名前空間（Namespaces）についてブログ記事を執筆したのですが、そもそも Amazon QuickSight についてを弊社ブログで取り上げていないことに、今更ながら気がつきました。

本ブログでは Amazon QuickSight の始め方についてご紹介します。
それでは、レッツ分析！！

※ 本ブログ記事の内容は 2024/03/11 時点の情報です。

AWS の Amazon QuickSight とは？

前述しました通り、Amazon QuickSight は、AWS が提供するクラウドベースのビジネスインテリジェンス（BI）サービスです。

BI ツールでは、ビッグデータや各種データソースから洞察を抽出し、分析した結果を視覚的で簡易的な形式で表示することが可能となっています。

Amazon QuickSight は分析用データの提供に使用できるデータソースとして Amazon Athena や Amazon S3 、ファイルデータを直接インポートといった、様々なデータソースを利用できます。
（詳しくはユーザーガイド [＊1] をご確認ください）

本ブログ記事では、数あるデータソースの中から Amazon Athena をデータソースとして作成し、ダッシュボードの作成まで行いたいと思います。

本ブログの前提

本ブログでは Cost and Usage Report のデータを用いて、特定 AWS アカウント内の Amazon EC2 インスタンス ID 毎の月間稼働時間を取得できるようにダッシュボードを作成します。
月間稼働時間はダッシュボード利用者が年月の指定をできるように設定します。
Cost and Usage Report の説明については割愛いたします。
（詳しくはユーザーガイド [＊2] をご確認ください）
データソースとして利用する Amazon Athena は Cost and Usage Report を保存している Amazon S3 に対してテーブルを作成しています。
Amazon S3 のバケットは Amazon Athena のパーティション射影が利用できるよう、s3://hogehoge/fugafuga/year=yyyy/month=mm のようなツリーとなっています。
（例. s3://hogehoge/fugafuga/year=2024/month=03）

▼ テーブル作成サンプル SQL

CREATE EXTERNAL TABLE `demo_taf_quicksight`(
 `line_item_usage_account_id` string,
 `line_item_line_item_type` string,
 `line_item_product_code` string,
 `line_item_usage_type` string,
 `line_item_usage_amount` double,
 `line_item_resource_id` string,
 `product_instance_type` string)
PARTITIONED BY (
 `year` string,
 `month` string)
ROW FORMAT SERDE
 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
 '<s3://hogehoge/fugafuga>'
TBLPROPERTIES (
 'classification'='parquet',
 'compressionType'='none',
 'projection.enabled'='true',
 'projection.month.type'='injected',
 'projection.year.type'='injected',
)

Amazon QuickSight のアカウント作成やデータセット作成に必要な IAM 権限については割愛いたします。
（詳しくはユーザーガイド [＊3] をご確認ください）

AWS | Amazon QuickSight - アカウントの作成

まずはアカウントを作成します。

AWS マネジメントコンソールの検索ボックスに QuickSight と入力し、検索結果に表示される QuickSight をクリックします。

まだアカウントをお持ちでない場合はアカウントの作成が必要ですので、「 Sign up for QuickSight 」をクリックします。

本ブログではエンタープライズ版で進めますので、エンタープライズ版のラジオボタンを選択し「続行」をクリックします。

【ページ分割されたレポート】のアドオンを取得するか否かの選択画面が表示されます。
今回は不要なので「いいえ、今は結構です」をクリックします。

QuickSight アカウントの作成画面に遷移します。
まずはじめに QuickSight リージョンを選択します。

他の情報を入力したあとにリージョンを変更する場合、以下の画面キャプチャのようなポップアップが表示され、入力した情報がすべてリセットされますのでご注意ください。

今回は Amazon Athena をデータソースとしたいので、“Amazon Athena” と “Amazon S3” のチェックボックスにチェックを入れ、「完了」をクリックします。

サインアップができたら「Amazon QuickSight に移動する」をクリックしアカウントにサインインします。

サインインできました！

AWS | Amazon QuickSight - データセットの作成

画面左側のサイドバー中のデータセットをクリックし、「新しいデータセット」をクリックします。

新規データソースの候補が表示されます。めちゃめちゃありますね。。！
今回は Athena をデータソースとするので、候補中の Athena をクリックします。

データソースにしたい Athena のデータソース名を入力し、「データソースを作成」をクリックします。
データソース “AwsDataCatalog” のデータベース “demo_taf_quicksight” 、テーブル “demo_taf_quicksight” を対象にしたいので、データソース名は “AwsDataCatalog” を入力します。

テーブルの選択画面に移りますが、今回作成するダッシュボードはパラメータをユーザー側で指定できるように作成したいので、「カスタム SQL を使用」をクリックします。

select
  line_item_usage_account_id as account_id,
  line_item_resource_id as instance_id,
  product_instance_type as instance_type,
  ceiling(sum(line_item_usage_amount) * 4) / 4 as current_month_running_hrs -- 0.25単位になるよう切り上げ
from
  "AwsDataCatalog"."demo_taf_quicksight"."demo_taf_quicksight"
where 1=1
  and year = <<$year>>
  and month = <<$month>>
  and line_item_product_code = 'AmazonEC2'
  and regexp_like(line_item_usage_type, '.*BoxUsage.*')
  and line_item_resource_id != ''
  and line_item_line_item_type = 'Usage'
  and line_item_usage_account_id = 'xxxxxxxxxxxxx'
group by
  line_item_usage_account_id,
  line_item_resource_id,
  product_instance_type
order by
  instance_id

そのまま「クエリの確認」をクリックすると、“ SQL クエリの一部として、不明なパラメータが使用されています。” とエラー表示されてしまいました。。