ブログ

【初学者向け】AWS が提供する AI サービスを改めて見てみよう

 昨今、新聞やニュースを見るとほぼ毎日必ずといっていいほど「AI」という言葉が目に飛び込んで来ますね。それに伴って少しずつ私達の日常の中にその AI が浸透しつつある状況を迎えていることも確かです。私が実際にそれを実感したエピソードとして、先日ある企業に電話をかけた際に、相手側の対応者の声や話し方がどこかたどたどしく、多少機械のような話し方だったので違和感を感じていましたが、後から思い返すと「ひょっとしてあれは AI だったんだ」という経験をしました。また他にもとある企業の方とお知り合いになった際に、その方の所属部門が「AI 戦略部」と名刺に書かれており、専門的に部署まで用意して研究やなんらかの業務遂行されていることを知り、あちこちで既にその利用や検討が本格化しているんだなと実感することとなりました。

 そういった世間の状況の中で、これから生成 AI もしくは AI について理解を深めたい、もしくは今 AWS が取り扱っている AI サービスにはどのようなものがあるのか?などについて理解を深めたい、また例えば生成 AI において世の中では「Chat GTP」や「Gemini」などよく耳にするワードが思いついたりもしますが、AWS においても同等のサービスがあったりするのか、そしてその中身についてよく知りたい、はたまた別の用途でAIと銘打って展開しているサービスもそこそこの数があるようなので、一度そのあたりを整理してみたい、という方がいらっしゃるかもしれないと思い、そのような向けに情報を整理してお届けしてみたいと思います。

そもそも AI(人工知能)とは? 生成 AI とその他 AI の違いやその歴史について

 従来の AI は、主に既存のデータ(人間が与えた大量のデータ)から学習し、そのデータに基づいて分析、予測、分類などを行うことを得意としていました。例えば、画像認識 AI は、大量の画像データから学習することで、新しい画像に何が写っているかを識別することができます。しかし、新しい画像を生成することはできません。つまり、あらかじめ決められた行為に対して動作する、ということが主な役割でした。

 一方、生成 AI は、ディープランニング(深層学習)によって、学習したデータをもとに、全く新しいデータを作り出すことができます。 例えば、画像生成 AI は、学習した画像データをもとに、今までに存在しなかったような画像を生成することができます。このように、生成 AI は従来の AI とは異なり、創造性を持ち合わせた AI といえます。

 以上端的に整理したものの、やはり基礎のところをしっかり抑えておく必要があるため、その歴史なども辿ってみてはどうかと考えます。それについて総務省が発行する「情報通信白書」にわかりやすく整理されている情報がありますので、その一部を紹介してみます。

 AI(人工知能)の歴史は1950年代から始まり、何度かブームと冬の時代を繰り返してきた。探索・推論から始まった第1次 AI ブームは、音声認識等が組み込まれた第2次 AI ブームを経て、第3次 AI ブームとしてディープラーニング(深層学習)をはじめとした革新的な技術が登場し、社会で実用され得る AI が開発されて社会に浸透していった。2022年頃からの生成 AI の急速な普及により、現在は第4次 AI ブームに入ったとも言われている。

(下図参照)

引用元:情報通信白書

第1次 AI ブーム(1950年代後半~1960年代):推論・探索の時代

 1956年、J. McCarthy がダートマス会議で「人工知能(AI)」という概念を提唱し、推論と探索を中心に研究が活発化しました。推論は人間の思考過程を記号で表現し実行するもの、探索は目的達成のために手順や選択肢を調べ、最適な解決策を見つけ出すものです。しかし、当時のコンピュータ性能には限界があり、簡単なパズル程度の問題しか解決できなかったため、実用化には至らず、次第に冬の時代を迎えました。

第2次 AI ブーム(1980年代~1990年代):知識の時代

 1980年代にはコンピュータの性能が向上し、専門家の知識を模倣するエキスパートシステムが登場したことで、AI 研究が再び盛り上がりました。しかし、学習に必要なデータ量が膨大であり、処理能力が追いつかなかったため、複雑な問題には対応できませんでした。さらに、学習データを人間が手作業でコンピュータが理解できるように記述する必要があり、大きな負担となったため、AI 研究は再び冬の時代を迎えます。

第3次 AI ブーム(2000年代~):機械学習の時代

 2000年代に入ると、インターネットと家庭向けネットワークの普及により、研究に使用できるデータを大量に入手することができるようになりました。これに加え、コンピュータの演算処理能力も向上したことで、ビッグデータを活用した機械学習が急速に発展しました。特に、脳の仕組みを模倣するニューラルネットワークを応用したディープラーニング技術の進化により、画像認識や自然言語処理、ロボットの自律運転技術の最適化などへの活用が広がりました。

生成 AI の急速な進化と普及

 ディープラーニングの技術進歩により、テキストや画像、音声などを自律的に生成できる「生成 AI」が登場しました。2022年に OpenAI が発表した ChatGPT は、わずか5日間で100万ユーザーを獲得し、2か月後には1億人を突破するという驚異的なスピードで普及しました。現在では、多くの企業が生成 AI の開発に参入し、世界的な競争が激化しています。

 以上、これまでの AI の歴史や種別を大枠で捉えてみました。
それでは、次の章からは AWS の生成 AI に関するサービスについて見ていきましょう。

AWS が提供する生成 AI サービス

Amazon Q

Amazon Q Business

 Amazon Q Business は、生成AIを活用したアシスタントで、企業のシステム内のデータや情報に基づいて、質問への回答、要約の提供、コンテンツの生成、およびタスクの安全な実行を行うことができる、とされていますが、簡単に超要約しますと、例えば Chat GPT のようにチャット形式での質問に対する返答を行う動きをするサービスとなります。

具体的な機能として以下があげられます。

  • LLM(大規模言語モデル)を活用した自然言語による対話
  • RAG (Retrieval-Augmented Generation) による情報検索と回答作成
  • 様々なデータソースとの連携
  • セキュアな認証認可

Amazon Q Developer

 Amazon Q Developer は、生成AIを活用した会話型アシスタントであり、AWS アプリケーションの理解、構築、拡張、運用に役立つ、とされています。また統合開発環境(IDE)で使用すると、Amazon Q はソフトウェア開発支援にも役立つ性質を備えています。それは、コードに関するチャット、インラインコードの完了、新しいコードの生成、セキュリティ上の脆弱性のスキャン、言語の更新、デバッグ、最適化などのコードのアップグレードと改善を行うことができ、これまで人の手を介して実行していた作業などを代わりに実施してくれる力強い味方になりそうです。

上記2つのサービスの機能を比較してみます。

機能Amazon Q BusinessAmazon Q Developer
主な用途企業全体の生産性向上、業務効率化、意思決定支援開発者の生産性向上、ソフトウェア開発ライフサイクルの効率化
データソース開発者向けに特化し、コード生成やレビューなど、開発に役立つ機能が充実。AWS 環境との連携がスムーズコードリポジトリ、IDE、AWSドキュメント、開発者コミュニティなど
得意なタスク質問応答、情報検索、データ分析、レポート作成、コンテンツ生成、タスク自動化コード生成、補完、レビュー、デバッグ、リファクタリング、ドキュメント生成、AWS サービスに関する質問応答
強み組織全体の知識を活用し、業務プロセスを改善。幅広いデータソースに対応し、高度な自然言語処理能力で様々なタスクをこなせるコードに関する深い理解を持ち、開発者の作業を効率化。IDE 統合によりシームレスな開発体験を提供。AWS サービスに特化し、詳細な情報を提供
特徴企業向けに設計され、セキュリティやコンプライアンスにも配慮。大規模データに対応し、高度なカスタマイズが可能業務部門、経営層、IT 部門など、様々な立場の人が利用可能
その他業務部門、経営層、IT部門など、様々な立場の人が利用可能主に開発者が利用

また他にも Amazon Q は、 AWS が提供する他のサービス上での利用でその特徴を発揮します。例えば、統合ビジネスインテリジェンス(BI)サービスである Amazon Quick Sight での利用が可能となっており、Amazon Q in Quick Sight を利用すると、BIダッシュボードを構築したり、複雑な計算を簡単に作成できるようにする生成 BI アシスタントが使用でき、またビジネスユーザーは、複数のビジュアルを用いた Q&A 応答を得ることができたり、AI 主導型ダッシュボードのエグゼクティブサマリーを入手し、重要なインサイト、傾向、推進要因が強調された、詳細でカスタマイズ可能なデーターを作成できます。

Amazon Q in Amazon Connect ではコンタクトセンター支援を実現でき、Amazon Q in AWS Chatbot では外部チャットアプリとの連携を実現することができるなど、様々なサービスに役立てることができます。

Amazon Bedrock

 Amazon Bedrock ですが、単一の API を通じて A121 Labs、Anthropic、Cohere、Luma (近日リリース予定)、Meta、Mistral AI、poolside (近日リリース予定)、Stability AI、および Amazon などの大手 AI 企業からの高性能な基盤モデル (FM) の幅広い選択肢を提供するフルマネージドサービスであり、セキュリティ、プライバシー、責任ある AI を備えた生成AIアプリケーションを構築するために必要な幅広い機能を提供します。Amazon Bedrock を使用すると、ユースケースに最適な FM を簡単に試して評価したり、微調整や検索拡張生成 (RAG) などの手法を使用してデータに合わせてカスタマイズしたり、エンタープライズシステムとデータソースを使用してタスクを実行するエージェントを構築したりできます。Amazon Bedrock はサーバーレスであるため、インフラストラクチャを管理する必要がありません。また、使い慣れた AWS サービスを使用して、生成 AI 機能をアプリケーションに安全に統合してデプロイできます。

 特徴をひとことで言うと、生成AIを実行または管理するための基盤サービス(開発基盤)となり、多種多様な基盤モデルを使い分けることができる、非常に便利なツールであるということです。

以下に現在利用できる基盤モデルをご紹介します。

□ Amazon Tian

 Amazon が提供している汎用モデルで、大規模なデータセットで学習された大規模言語モデルです。これにより、テキスト生成、文章要約、質問応答など、様々な自然言語処理タスクにおいて高い性能を発揮することが期待されます。

□ A121 Labs/Jurassic

 Jurassic は A121 Lab 社が提供する大規模言語モデルで以下の特徴があります。

  • 多様な言語への対応: 英語だけでなく、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、オランダ語など、多くの言語に対応しています。
  • 大規模なパラメータ: 大規模なデータセットで学習しており、高い性能を発揮します。
  • 高い性能: テキスト生成、文章要約、質問応答など、様々なタスクで高い性能を発揮します。
  • カスタマイズ性: 特定のタスクやドメインに合わせて、モデルをカスタマイズできます。
  • 倫理的な配慮: 有害なコンテンツや偏見を生成しないように、倫理的な配慮がなされています。

□ Anthropic / Claude

 Anthropic 社が提供する Claude は、大規模言語モデルの中でも特に注目されている存在です。その特徴は以下のとおりです。

  • 安全性と倫理観: Anthropic 社は AI の安全性と倫理観を重視しており、Claude の開発においても、有害なコンテンツや偏見を生成しないように設計されています。
  • 大規模な学習データ: 大規模なデータセットで学習しており、高い性能を発揮します。
  • 多様なタスクに対応: テキスト生成、文章要約、質問応答など、様々な自然言語処理タスクに対応できます。
  • 高い性能: 大規模なデータセットで学習しているため、高い性能を発揮することが期待されます。
  • カスタマイズ可能: 特定のタスクやドメインに合わせて、モデルをカスタマイズできる可能性があります。

□ Cohere / Command, Embed

 Cohere 社が提供する「Command」と「Embed」は、どちらも大規模言語モデルを活用した自然言語処理 API ですが、それぞれ異なる機能と用途を持っています。

- Command (コマンド)

  • 機能:
    • テキスト生成: プロンプトに基づいたテキストを生成します。
    • 応答生成: 質問や指示に対して適切な応答を生成します。
    • テキスト変換: テキストのスタイルやフォーマットを変換します。
    • 翻訳: テキストを異なる言語に翻訳します。
  • 用途:
    • チャットボット: ユーザーとの対話を行うチャットボットの開発
    • コンテンツ作成: ブログ記事やメールなどのコンテンツ作成
    • 質問応答システム: 質問に対して回答するシステムの構築
    • テキスト要約: 長い文章を要約する
    • 翻訳システム: テキストを異なる言語に翻訳する
  • 特徴:
    • 直感的で使いやすい API
    • 多様なタスクに対応
    • 高い性能

- Embed (エンベッド)

  • 機能:
    • テキストのベクトル表現生成: テキストを意味空間上のベクトルとして表現します。
    • 意味的類似度計算: 2つのテキストの意味的な類似度を計算します。
  • 用途:
    • 検索エンジン: 検索クエリと文書の意味的な類似度に基づいて検索結果をランキングする
    • レコメンデーションシステム: ユーザーの興味関心に基づいておすすめの商品やコンテンツを推薦する
    • テキスト分類: テキストを事前に定義されたカテゴリに分類する
    • 異常検知: テキストデータの中から異常なパターンを検出する
  • 特徴:
    • テキストの意味を捉える
    • 様々な機械学習タスクに活用可能
    • 高い性能

□ Meta / Lama

 Meta 社が提供する Lama(ラマ)は、大規模言語モデル(LLM)であり、以下の様な特徴があります。

  • オープンソース: Llama は、研究目的であれば無償で利用できるオープンソースモデルです。
  • 多様なサイズ: 7B、13B、33B、65B など、様々なサイズのモデルが提供されており、用途に合わせて選択できます。
  • 高い性能: 大規模なデータセットで学習しており、高い性能を発揮します。
  • 多様なタスクに対応: テキスト生成、文章要約、質問応答など、様々な自然言語処理タスクに対応できます。
  • カスタマイズ可能: 特定のタスクやドメインに合わせて、モデルをカスタマイズできます。
  • 研究コミュニティへの貢献: オープンソースであるため、研究コミュニティに貢献し、活発な開発を促進します。

□ Mistral AI / Mistral

 Mistral AI が提供する Mistral は、大規模言語モデル(LLM)であり、以下の様な特徴があります。

  • 高い効率性: Mistral は、MoE(Mixture of Experts)アーキテクチャを採用しており、高い効率性を実現しています。これにより、少ない計算資源で高い性能を発揮できます。
  • 高い性能: 大規模なデータセットで学習しており、高い性能を発揮します。特に、推論能力やコーディング能力に優れていると評価されています。
  • 多様なサイズ: 7B、8x7B など、様々なサイズのモデルが提供されており、用途に合わせて選択できます。
  • オープンソース: 一部のモデルはオープンソースとして公開されており、研究コミュニティに貢献しています。
  • 多言語対応: 英語だけでなく、フランス語、ドイツ語、スペイン語、イタリア語など、多くの言語に対応しています。

□ Stability AI / Stable Diffusion

 Stable Diffusion は、Stability AI 社が開発した画像生成 AI モデルで、以下の様な特徴があります。

  • オープンソース: 誰でも無償で利用できるオープンソースモデルとして公開されています。
  • 高性能: 大規模なデータセットで学習しており、高品質な画像を生成できます。
  • 高速: 比較的少ない計算資源で高速に画像を生成できます。
  • 多様な表現: テキストによる指示(プロンプト)に基づいて、多様なスタイルの画像を生成できます。
  • カスタマイズ可能: モデルを fine-tuning することで、特定の用途に合わせた画像を生成できます。

□ Poolside / poolside Assistant

 昨年12月に米ラスベガスで開催された年次イベント「AWS re:Invent」の基調講演において、「Amazon Bedrock」から Poolside の AI コーディングツール「poolside Assistant」が利用可能になる計画が発表されました。

<主な特徴>

  • 大規模言語モデル(LLM)の活用: Poolside は、大規模言語モデルを活用して、ソフトウェア開発における様々なタスクを自動化・効率化することを目指しています。
  • ソフトウェア開発に特化: Poolside の LLM は、特にソフトウェア開発に特化しており、コード生成、テスト作成、ドキュメント作成など、ソフトウェア開発に必要なタスクをサポートします。
  • 大規模なデータセットでの学習: Poolside の LLM は、大規模なコードデータセットで学習されており、高度なコーディング能力や自然言語処理能力を備えています。
  • 開発者体験の向上: Poolside は、開発者体験の向上を重視しており、使いやすいインターフェースやツールを提供することを目指しています。
  • セキュリティとプライバシー: Poolside は、セキュリティとプライバシーを重視しており、安全な環境で LLM を利用できるような仕組みを提供しています。
  • 最新技術の活用: Poolside は、常に最新の AI 技術を研究開発しており、より高度なソリューションを提供することを目指しています。
  • 多様なサービス展開: Poolside は、LLM を活用した様々なサービスを展開しており、ソフトウェア開発の様々な側面をサポートしています。

<具体的なサービス例>

  • コード補完: 開発者がコードを書く際に、候補となるコードを AI が提示することで、コーディング作業を効率化します。
  • コード生成: 自然言語による指示に基づいて、AI が自動的にコードを生成します。
  • テスト作成: コードのテストケースを AI が自動的に作成します。
  • ドキュメント作成: コードのドキュメントを AI が自動的に作成します。
  • バグ検出: コード中のバグを AI が自動的に検出します。

Luma Labs / Luma AI

 Luma AI は、高品質な映像や 3D モデルを生成する AI サービスとして知られています。その主な特徴を以下に紹介します。

<主要機能>

  • Dream Machine: テキストプロンプトに基づいて高品質な動画を生成する機能です。
  • GENIE: テキストプロンプトや画像に基づいて 3D モデルを生成する機能です。
  • 3D Capture: 複数の画像から 3D モデルを生成する機能です。

<主な特徴>

  • 高品質な生成: Luma AI は、高度な AI 技術を使用しており、生成される映像や 3D モデルの品質が高い点が特徴です。
  • 使いやすさ: Luma AI は、直感的なインターフェースを備えており、誰でも簡単に利用できます。
  • 多様な活用シーン: Luma AI は、広告、マーケティング、ゲーム開発など、様々な分野で活用できます。
  • 無料プラン: Luma AI には無料プランがあり、誰でも気軽に試すことができます。

<その他>

  • Luma AI は、常に最新の AI 技術を研究開発しており、機能のアップデートが頻繁に行われています。
  • Luma AI は、コミュニティフォーラムやドキュメントを通じて、ユーザーサポートを提供しています。

 さてこのように、Amazon Bedrock には様々な基盤モデルが用意されており、その特徴が示す通り、それぞれが得意分野を持っています。利用者の用途に合わせて最適な基盤モデルを選べる点は、大きなメリットと言えるのではないかと思います。

更に、Amazon Bedrock は、既存の基盤モデルをカスタマイズできることもまた大きなメリットと言えるのではないでしょうか。

これ以外にも Amazon Bedrock には様々なサービスや機能が備わっているので、ご興味ある方は是非詳細を追いかけてみてください。

その他 AI 関連サービスについて

 AWS が提供する AI 関連サービスは多岐に渡り、目的に応じて様々なサービスが提供されています。以下に、主なサービスの一部をカテゴリ毎に整理してご紹介します。

機械学習ツール

Amazon SageMaker

 Amazon SageMaker は、機械学習モデルの構築、トレーニング、デプロイを支援する包括的なクラウドベースのプラットフォームです。類似の機能を提供する他社のサービスとしては、Google Cloud の Vertex AI や Microsoft Azure の Machine Learning などが挙げられます。

以下に、これらのサービスとの機能を比較しながら、Amazon SageMaker の特徴を説明します。

<主な特徴>

  • 広範な機能セット: モデル構築、データ処理、モデルトレーニング、ハイパーパラメータ調整、モデルデプロイ、モニタリングなど、機械学習ライフサイクル全体をカバーする機能を提供します。
  • 多様なインスタンスタイプ: CPU、GPU、FPGA など、様々なインスタンスタイプを選択可能で、機械学習のタスクに合わせて最適な環境を構築できます。
  • マネージドサービス: モデルトレーニングやデプロイに必要なインフラストラクチャの管理を Amazon が代行するため、ユーザーは機械学習のタスクに集中できます。
  • オープン性: TensorFlow、PyTorch、scikit-learn など、主要な機械学習フレームワークをサポートしており、柔軟な開発が可能です。
  • 統合性: AWS の他のサービス (S3、Glue、Lambda など) とシームレスに連携し、データ収集、前処理、モデルデプロイなどのワークフローを効率化できます。

<他社サービスとの比較>

機能Amazon SageMakerGoogle Vertex AIMicrosoft Azure Machine Learning
モデル構築AutoML、Canvas、StudioAutoML、WorkbenchAutoML、Designer
データ処理Data Wrangler、ProcessingDataflow、BigQueryData Prep、Azure Synapse Analytics
モデルトレーニングトレーニングジョブ、ハイパーパラメータ調整トレーニングジョブ、ハイパーパラメータ調整トレーニングジョブ、ハイパーパラメータ調整
モデルデプロイエンドポイント、バッチ変換エンドポイント、バッチ予測エンドポイント、バッチ推論
モニタリングModel MonitorModel MonitoringAzure Monitor
特徴広範な機能セット、多様なインスタンスタイプ、マネージドサービス、オープン性、統合性強力な AutoML 機能、Google Cloud のデータ分析基盤との連携Microsoft Azure の各種サービスとの統合、使いやすいインターフェース

Deep Learning on AWS AMI

 事前設定された環境でスケーラブルで安全な深層学習アプリケーションを迅速に構築できます。主な特徴は以下の通りです。

1. 深層学習フレームワークの事前構築済み

  • 主要な深層学習フレームワーク (TensorFlow, PyTorch, MXNetなど) が事前にインストールされているため、環境構築の手間を省き、すぐに開発を始めることができます。
  • 各フレームワークの最新バージョンが提供されており、常に最新の機能を利用できます。

2. 最適化された環境

  • NVIDIA CUDA ライバーや cuDNN ライブラリなど、GPU アクセラレーションに必要なソフトウェアが最適化された状態で提供されます。
  • 深層学習のパフォーマンスを最大限に引き出すための設定が施されています。

3. 柔軟なインスタンスタイプ

  • CPU インスタンスから GPU インスタンスまで、様々なインスタンスタイプが用意されており、ニーズに合わせて選択できます。
  • 大規模な学習ジョブには、複数の GPU を搭載した高性能インスタンスを使用できます。

4. クラウドの利点

  • AWS のクラウド環境を利用するため、必要な時に必要なだけのリソースを柔軟に利用できます。
  • 学習ジョブの実行中にインスタンスを停止したり、スケールアップ・スケールダウンしたりすることができます。

5. 使いやすさ

  • AMI は AWS Marketplace から簡単に起動でき、AWS コンソールや CLI を通じて管理できます。
  • 深層学習に必要なツールやライブラリが揃っており、すぐに開発を始められます。

6. 様々なユースケースに対応

  • 画像認識、自然言語処理、音声認識など、様々な深層学習のユースケースに対応できます。
  • 研究開発から本番環境まで、幅広い用途で利用できます。

7. コスト効率

  • 必要な時に必要なだけのリソースを利用できるため、コスト効率の高い深層学習環境を構築できます。
  • 時間単位での課金体系のため、無駄なコストを削減できます。

自然言語処理 (NLP)

Amazon Transcribe

 音声をテキストに変換するフルマネージド型の自動音声認識 (ASR) サービスです。高精度な文字起こしを簡単に行うことができ、様々な用途で活用できます。

<主要機能>

  • 高精度な文字起こし:
    • 最新のディープラーニング技術により、高品質な文字起こしを実現します。
    • ノイズが多い環境や、複数の人が話す音声でも、クリアな文字起こしが可能です。
  • リアルタイム文字起こし:
    • ストリーミング音声のリアルタイム文字起こしに対応しており、ライブイベントや会議の議事録作成などに活用できます。
  • バッチ文字起こし:
    • 録音済みの音声ファイルをまとめて文字起こしできます。
    • 長時間の音声ファイルも効率的に処理できます。
  • 話者分離:
    • 複数の話者がいる音声の場合、話者ごとに文字を分けることができます。
    • 発言者の特定や、会話の流れの把握に役立ちます。
  • 言語サポート:
    • 多くの言語に対応しており、グローバルビジネスにも活用できます。
    • 日本語にも対応しています。
  • カスタマイズ:
    • 特定の専門用語や業界用語を学習させ、文字起こしの精度を向上させることができます。
    • 発音揺れや言い間違いにも対応できます。
  • 多様な出力形式:
    • テキスト形式だけでなく、JSON 形式や VTT 形式など、様々な形式で出力できます。
    • 字幕作成や、他のシステムとの連携に便利です。
  • セキュリティ:
    • AWS の安全なインフラストラクチャ上で提供されており、セキュリティにも配慮しています。
    • データの暗号化やアクセス制御などの機能も利用できます。

<主な特徴>

  • 使いやすさ:
    • AWS コンソールから簡単に利用できます。
    • API も提供されており、プログラムから利用することも可能です。
  • スケーラビリティ:
    • 大量の音声ファイルを効率的に処理できます。
    • 必要に応じてリソースを拡張できます。
  • 費用対効果: 使用量に応じて料金が発生する従量課金制のため、コスト効率よく利用できます。

<活用事例>

  • 議事録作成: 会議やセミナーの音声を文字起こしし、議事録作成を効率化します。
  • コールセンター業務: 通話内容を文字起こしし、顧客対応の品質向上や分析に活用します。
  • 動画コンテンツ: 字幕作成や、コンテンツの検索性向上に役立ちます。
  • 音声分析: 音声をテキスト化することで、感情分析やキーワード抽出など、様々な分析に活用できます。

Amazon Polly

 テキストを自然な音声に変換するクラウドベースのサービスです。さまざまな言語に対応しており、高品質な音声合成技術を利用して、多様なニーズに応えることができるサービスです。

<主要機能>

  • テキスト読み上げ: テキストを自然な音声に変換します。
  • 多様な言語と音声: 多くの言語に対応しており、様々な性別や年齢層の音声を選択できます。
  • SSML対応: SSML (Speech Synthesis Markup Language) を使用して、音声のイントネーションや発音を細かく調整できます。
  • リアルタイムストリーミング: 音声をリアルタイムで生成し、ストリーミング配信できます。
  • 音声のカスタマイズ: 特定の単語やフレーズの発音をカスタマイズできます。
  • 多様な出力形式: MP3、PCM など、様々な形式で音声を出力できます。

<主な特徴>

  • 高品質な音声: 最新のディープラーニング技術により、自然で聞き取りやすい音声を実現しています。
  • 使いやすさ: AWS コンソールや API を通じて、簡単に利用できます。
  • スケーラビリティ: 大量のテキストを効率的に処理できます。
  • 柔軟性: 様々なアプリケーションやサービスに組み込むことができます。
  • 費用対効果: 使用量に応じた従量課金制で、コスト効率よく利用できます。

<活用事例>

  • 音声アシスタント: スマートスピーカーや音声検索などの音声インターフェースに利用できます。
  • 教育コンテンツ: eラーニング教材やオーディオブックの作成に役立ちます。
  • カスタマーサポート: IVR (自動音声応答) システムやチャットボットに組み込むことで、顧客対応を自動化できます。
  • コンテンツ作成: ブログ記事やニュース記事を音声化し、多様なコンテンツ配信を実現します。

 Amazon Polly は、テキストを音声に変換するだけでなく、音声合成技術を活用した様々なソリューションを提供します。

Amazon Lex

 自然言語のテキストや音声を理解し、人間のような会話を行うことができる AI サービスです。チャットボットや音声アシスタントを開発するために利用されています。

<主要機能>

  • 音声認識 (ASR): 音声をテキストに変換します。
  • 自然言語理解 (NLU): テキストの意味を理解し、意図を抽出します。
  • 会話管理: 会話の流れを管理し、適切な応答を生成します。
  • 多様な言語サポート: 多様な言語に対応しており、グローバルな展開が可能です。
  • プラットフォーム連携: 様々なプラットフォームやサービスと連携できます。
  • 分析機能: 会話ログや利用状況を分析し、改善に役立てることができます。

<主な特徴>

  • 使いやすさ: コーディング不要で、GUI ベースで簡単に会話フローを設計できます。
  • 柔軟性: 会話の流れや応答を自由にカスタマイズできます。
  • スケーラビリティ: 大規模なトラフィックにも対応できる高いスケーラビリティを持っています。
  • 高精度: 高度な自然言語処理技術により、高精度な会話認識を実現しています。
  • 多様な連携: AWS Lambda や Amazon Connect など、様々な AWS サービスと連携できます。

Amazon Lex は、以下のようなユースケースで活用できます。

  • カスタマーサポート: FAQ 応答や問い合わせ対応を自動化するチャットボットを構築できます。
  • 音声アシスタント: 音声による操作や情報提供を行うアシスタントを開発できます。
  • 社内業務効率化: 社内システムへのアクセスや情報検索を音声で行えるようにできます。

画像・動画分析

Amazon Rekognition

 画像や動画の分析を容易に行うことができる、AWS のクラウドベースのサービスです。機械学習の専門知識がなくても、高度な画像・動画分析機能をアプリケーションに組み込むことができます。

<主要機能>

  • 画像分析
    • 物体・シーン検出: 画像内に写っている物体や場所 (例: 車、建物、空) を認識し、ラベル付けします。
    • 顔検出・分析: 画像に写っている顔を検出し、年齢、性別、感情などの属性を分析します。
    • 有名人認識: 画像に写っている有名人 (政治家、スポーツ選手、俳優など) を認識します。
    • 不適切コンテンツ検出: 画像にわいせつな表現や暴力的な表現が含まれていないかを判定します。
    • テキスト検出 (OCR): 画像内の文字 (印刷文字、手書き文字) を認識し、テキストデータとして抽出します。
    • カスタムラベル: ユーザーが特定の物体やシーンを学習させ、独自のラベルを認識させることができます。
  • 動画分析
    • 物体・シーン検出: 動画内に写っている物体や場所を認識し、時間経過とともに追跡します。
    • 顔検出・分析: 動画に写っている顔を検出し、時間経過とともに追跡します。
    • 有名人認識: 動画に写っている有名人を認識し、時間経過とともに追跡します。
    • 不適切コンテンツ検出: 動画にわいせつな表現や暴力的な表現が含まれていないかを判定します。
    • テキスト検出 (OCR): 動画内の文字 (印刷文字、手書き文字) を認識し、時間経過とともに追跡します。

<主な特徴>

  • 使いやすさ: AWS コンソールやAPIを通じて、簡単に利用できます。
  • 高精度: 高度な機械学習モデルにより、高精度な分析結果を得られます。
  • スケーラビリティ: 大量の画像や動画を効率的に処理できます。
  • 柔軟性: 様々なアプリケーションやサービスに組み込むことができます。
  • 費用対効果: 使用量に応じた従量課金制で、コスト効率よく利用できます。

<活用事例>

  • 画像検索: 画像の内容に基づいて検索を可能にします。
  • コンテンツモデレーション: 不適切なコンテンツを自動的に検出します。
  • マーケティング分析: 顧客の属性や興味関心を分析します。
  • セキュリティ: 監視カメラの映像から異常を検知します。

 Amazon Rekognition は、画像や動画の分析を自動化し、様々な業務の効率化や新しい価値創造に貢献します。

AI に関する今後の動向について(まとめ)

 以上、 AWS が提供しているAIに関するサービスはまだ他にもたくさんありますが、個人的な視点からこれだけは抑えておいた方がいいのでは?と思える代表的なサービスをご紹介させていただきました。度々触れることになりますが、本当に AI の進化は日進月歩でそのスピードはとても早く、みなさんの中にもついていくのが大変、などと感じておられる方もいらっしゃるかもしれませんし、一方興味深くて楽しみながら研究や何らかの検討を進めている、などという方も多いかもしれません。

 私達も AWS サービスを提供する立場として、様々なサービスやその動向などについて理解を持っておく必要があることと、また他社が提供するサービス、機能なども含めて理解しておく必要があり、本当に日々追いかけるのが精一杯という印象を持ち続けています。そのような中、まずは AWS とそれを取り巻くベンダーやサービスを理解するという点におきまして、上述の内容が少しでもお役に立てれば光栄です。それでは皆様最後までご覧いただき、誠にありがとうございました。

元記事発行日: 2025年04月28日、最終更新日: 2025年04月28日