Azure AI Search (Azure AI検索) のベクトル検索とは

Azure AI Search

Azure AI Searchは、開発者が大規模言語モデルとエンタープライズデータを組み合わせて、豊かな検索エクスペリエンスと生成AIアプリケーションを構築するのに役立つ、検索プラットフォームです。

Azure AI Search におけるベクトル検索は、最先端のAI技術を活用して、検索クエリに意味的に似た情報を見つけることができる機能です。
この技術は、伝統的なキーワードベースの検索とは異なり、文、画像、オーディオ、グラフなどのコンテンツの「意味」や「コンテキスト」を理解してマッチングを行います。

【関連記事】
➡️Azure AI Serch(旧Azure Cognitive Search)の機能と料金を徹底解説！

Azure AI Services

Azure AI サービスの主要サービス

Azure AI SearchとAzure OpenAI Service を組み合わせることで、最先端のAI言語モデルを検索ソリューションに適用し、エンタープライズデータから得られる知識を会話形式で利用できます。

このようなAzureにおけるAIサービスの総称をAzure AI Servicesと呼びます。

【関連記事】
➡️Azure AI Services(旧Azure Cognitive Services)とは？その概要や料金を徹底解説

Azureベクトル検索(Vector Search)について

ベクトル検索は、データを多次元ベクトル空間にマッピングし、この空間内での類似性に基づいて情報を検索する技術です。
この手法は、テキスト、画像、音声など、様々な形式のデータに適用可能です。

ベクトル検索のプロセスは大きく以下の2段階に分類されます。

ベクトル埋め込みベクトル検索は
埋め込み空間（意味的類似性）

ここでは、それぞれ詳しく解説していきます。

埋め込みベクトル化

埋め込みベクトル化イメージ

埋め込みベクトル化は、テキスト、画像、音声などのデータを、多次元の実数ベクトル空間にマッピングするプロセスです。
このプロセスは、データの「意味」や「内容」を、ベクトルとして数学的に表現することを可能にします。

具体的には以下のステップで行われます。

前処理
データを標準化し、モデルが処理しやすい形式にします。テキストの場合、トークン化、正規化、ストップワードの除去などが含まれます。
モデル選択
埋め込みを生成するためのモデルを選択します。テキストデータの場合、Word2Vec、BERT、GPTなどの事前学習済み言語モデルが一般的に使用されます。
ベクトル化
選択されたモデルを使用して、データをベクトルに変換します。このステップでは、各データ項目（例えば、テキストの文やドキュメント）が、モデルによって多次元空間上の点として表現されるベクトルに変換されます。

このベクトル化プロセスにより、データの意味的な特性がベクトルの形で捉えられ、後続の検索や分析に利用されます。

埋め込み空間とは

埋め込み空間イメージ

埋め込み空間は、データがベクトル化された後に存在する多次元の実数ベクトル空間です。
この空間では、ベクトル間の距離や角度が、元のデータ項目間の意味的な類似性や関連性を反映します。

埋め込み空間における主要な概念は以下の通りです。

次元
埋め込み空間の次元は、ベクトルの特徴量の数です。高次元（例えば、数百から数千次元）の空間は、データの複雑な特徴を捉えることができますが、計算の複雑さも増します。
類似性の測定
ベクトル間の距離（例えば、ユークリッド距離やコサイン類似度）は、データ項目間の類似性を測定するために使用されます。距離が近いほど、データ項目は意味的に類似していると見なされます。
検索
ユーザーからのクエリもまた、同じプロセスを通じてベクトル化され、埋め込み空間内で最も近いデータベクトル（すなわち、最も関連性の高いデータ項目）を見つけるために使用されます。

埋め込み空間とは、データ項目間の複雑な関係を捉えるための強力なツールであり、ベクトル検索の基盤を形成します。

この技術を使用することで、検索システムは単なるキーワードマッチングを超えて、データの深い意味的な理解に基づいた結果を提供することができます。

ベクトル検索を使用する理由

ベクトル検索を利用する理由は、その能力によりテキストやその他のデータ形式の検索を、単にキーワードの一致に基づくものから、意味的な類似性に基づくものへと進化させることができる点にあります。以下に具体的に紹介します。

深いコンテキストの理解
ベクトル検索は、単語やフレーズの表面的な意味だけでなく、そのコンテキストや使われ方に基づいた深い理解を可能にします。
これにより、クエリと文書の意味的な一致を高い精度で見つけ出せるようになります。
表現の多様性への対応
同じことを表現するのに異なる言葉や表現を使う場合、伝統的なキーワード検索ではこれらを正確にマッチングさせることが難しいです。
ベクトル検索では、これらの多様な表現を意味レベルで理解し、類似のコンテンツを見つけ出せます。
精度の向上
検索クエリとコンテンツ間の意味的な類似性を測定することで、より関連性の高い結果をユーザーに提供できます。
これにより、ユーザーは必要な情報をより早く、より簡単に見つけることができます。
新たな内容の発見
ユーザーが正確な検索キーワードを知らない場合でも、ベクトル検索を利用することで、関連するトピックや内容を発見できます。
これは、学術研究や製品探索などのシナリオで特に有効です。
多言語対応
言語に依存しないベクトル表現を使用することで、ベクトル検索は異なる言語間での検索を容易にします。
これにより、多言語環境での情報アクセスが大幅に改善されます。
多様なデータタイプなどテキスト以外のデータへの適用
画像、音声、ビデオなどの非テキストデータにもベクトル検索を適用できます。
これにより、様々な形式のデータに対して意味的な検索を実現し、より豊かな検索体験を提供します。

ベクトル検索は、これらの理由により、従来のキーワードベースの検索よりもはるかに高度で柔軟な検索体験を実現します。

組織や開発者は、ユーザーがより関連性の高い情報に迅速にアクセスるようになるため、この技術を積極的に採用される価値のあるものといえます。

Azure ベクトル検索の実践

Azure AI searchを用いて実際にベクトル検索を行う方法をご紹介します。

Azure AIは、特にAzure AI Serch(旧:Azure Cognitive Search)において、このベクトル検索をサポートしています。

ステップ 1: データの用意

Azure ポータルにログインします。
まずAzureにログインを行います。

Azure ポータルにログイン画面

【関連記事】
➡️Azure Portal解説記事

Azure Storage Account の作成とコンテナーの設定を行います。

Azure Storage Account の作成
テキストデータや画像などのベクトル検索したいデータをAzure Storageにアップロードします。

Azure Storageにアップロード画像

ステップ 2: Azure AI Search のセットアップ

AIサービスをメニューから探し選択します。

AI Search サービスを検索画面
AI Search サービスを作成します。サービスがない場合、新しく作成する必要があります。

以下のメニューバーからAI検索を探し、選択します。

AI Searchのメニュー画面
サービスを作るのが初めての場合、画像のように作成してください。作成時の料金についてはこちらをご覧ください。

AI Search サービス作成画面

ステップ３:データのインポートとベクター化

AI Search サービスの「データのインポートとベクター化」を選択。

データのインポートとベクター化選択画面
格納したデータがあるストレージアカウントのコンテナーを指定。

データのインポートとベクター化入力画面

Azure OpenAIの設定を行い、セマンティックランカーも有効にします（必要なければ無しでも大丈夫です）。
インデックス名になるオブジェクトのプレフィックスを設定。

オブジェクトのプレフィックスを設定
作成ボタンをクリックして、インデクサーがデータの取り込みを完了するまで待ちます。作成完了画面が出たら検索の開始をクリックします。

作成完了画面

ステップ 4:構成、検索結果の確認

インデックスの確認 をします。

インデックスの確認画面
実際に検索を行います。

検索テスト

ベクトル表現が加わっていることがわかるかと思います。ここまででAI searchを使用したベクトル検索の一連の流れが完了となります。

追加の補足情報

Azure AI Searchでのベクトル検索を利用するには、データの適切な準備とインデクサー設定が重要です。
セマンティック検索の有効化やAzure OpenAIの利用により、テキストデータを含む様々なファイルタイプのデータから、より高度な検索結果を得られます。
スキルセットやアナライザの設定により、検索の振る舞いや結果が大きく変わるため、目的に応じた調整が必要です。
検索のテストはこちらが便利です。

このプロセスにより、Azure AIを活用した効率的なベクトル検索システムを構築できます。特に、大量のテキストデータに対する検索性能の向上に役立ちます。

セマンティック検索

セマンティック検索は、テキストの意味論的な理解に基づいて検索結果を提供する技術です。この方法では、ワードの意味や文脈を分析し、単にキーワードの一致に基づく検索よりも関連性の高い結果を提供します。

Azure AI Search では、AIベースの機能を利用して、テキストデータに対するセマンティック検索を実現しています。これにより、より精度の高い検索結果を得ることが可能になります。

この機能を使用したい場合には、料金プランBasic以上から利用が可能です。

その他の検索手法

Azure AI Search でのベクトル検索技術には、どのような検索を行うかによって最適な手法を選ぶ必要があります。
ここでは上記で紹介した以外の検索手法をご紹介します。

ニアレストネイバー検索

ニアレストネイバー検索は、指定されたクエリポイントに最も近いデータポイントを見つける検索方法です。この方法は、ベクトル空間内での距離（例えば、ユークリッド距離やコサイン類似性）を計算することにより、最も似たベクトルを識別します。

Azure AI Search では、この機能はベクトルフィールドを利用して実現され、高度な検索シナリオで役立ちます。

近似ニアレストネイバー検索

近似ニアレストネイバー検索（Approximate Nearest Neighbor; ANN）は、完全なニアレストネイバー検索よりも計算効率を優先する方法です。完璧な精度を犠牲にして、検索時間とリソース使用量を大幅に削減します。

Azure AI Search では、ANN 検索をサポートしており、大規模なデータセットにおける高速な検索が可能になります。この技術は、特にユーザー体験を損なうことなく、検索性能を向上させたい場合に適しています。

ハイブリッド検索

ハイブリッド検索は、上記の検索技術を組み合わせて使用する方法です。例えば、キーワード検索とセマンティック検索を組み合わせることで、検索クエリの文字通りの意味と、それが持つ潜在的な意味の両方に基づいて結果を提供できます。

Azure AI Search では、様々な検索技術を組み合わせることで、柔軟かつ高度な検索シナリオを実現することができます。これにより、ユーザーが求める情報をより正確に、迅速に見つけ出すことが可能になります。

➡️ベクトル検索も可能なAzure AI Studio解説記事

Azure AI Searchの料金

ベクトル検索は、すべてのリージョンのすべての Azure AI Search レベルの一部として追加料金なしで利用できます。

また、利用料金の見積もりはAzureの料金計算ツールを利用することをお勧めします。

Plan	Storage	Max Indexes per Service	Scale-out Limits	Price per SU
Free	50 MB	3	N/A	¥0/hour
Basic	2 GB	15	Up to 3 units per service (Max 1 partition, Max 3 replicas)	¥20.01/hour
Standard S1	25 GB	50	Up to 36 units per service (Max 12 partitions, Max 12 replicas)	¥66.79/hour
Standard S2	100 GB	200	Up to 36 units per service (Max 12 partitions, Max 12 replicas)	¥266.86/hour
Standard S3	200 GB	200 or 1,000/high-density 1 mode partitions	Up to 36 units per service (Max 12 partitions, Max 12 replicas) High-density 1 mode up to 12 replicas	¥534.31/hour
Storage Optimized L1	1 TB	10	Up to 36 units per service (Max 12 partitions, Max 12 replicas)	¥577.49/hour
Storage Optimized L2	2 TB	10	Up to 36 units per service (Max 12 partitions, Max 12 replicas) High-density 1 mode up to 12 replicas	¥1,154.82/hour

また、Azure製品全般の料金体系についてはこちらの記事で詳しく解説しています。
【関連記事】
➡️Azureの料金体系を解説！サービスごとの料金例や確認方法も紹介

Azure の統合と関連サービス

Azure AI Search は Azure AI Services と統合されています。
これにより、データのインデックス作成プロセス中に、テキスト解析、画像認識、自然言語処理などのAI機能を使用してデータをエンリッチ（拡張）することができます。

例えば、ドキュメント内の人物名、場所、日付を自動的に識別し、それらを検索可能なインデックスに組み込むことが可能です。

また、他のAI以外のサービスとの統合もできます。ここではその一部を紹介します。

Azure Logic Apps

Azure Logic Apps との統合を通じて、Azure Cognitive Search は自動化されたワークフローと連携することができます。たとえば、新しいドキュメントが Azure Storage にアップロードされたときに自動的にインデックスを更新するプロセスを設定することが可能です。

Azure Functions

Azure Functions と組み合わせることで、カスタムのデータ処理ロジックやデータ変換処理を実行し、検索インデックスの更新やデータのエンリッチメントを動的に行うことができます。

これは、特定のイベントが発生したときに自動的に実行されるサーバレスコンピューティング機能です。

【関連記事】
➡️Azure Functionsとは？サーバーレスコンピューティングの基礎知識

Azure Storage

Azure AI Search は、Azure Storage に格納されているデータを直接インデックス作成することができます。
これにより、大量の文書、画像、その他のメディアファイルを効率的に検索可能な形式で管理できます。

【関連記事】
➡️Azure Storageとは？使い方や料金、Blobとの違いについて解説

Azure Security

Azure Security との統合により、Azure Cognitive Search はデータのセキュリティとプライバシーを強化します。
アクセス管理、暗号化、監視といったセキュリティ機能を利用して、データの安全性を確保できます。

【関連記事】
➡️Azureのセキュリティ対策を徹底解説！主要機能や製品、導入事例も

Azure AI Search は、これらの統合を通じて、豊富なデータセットを効率的に管理し、検索するための強力なツールを提供します。Azure の他のサービスと組み合わせることで、データ駆動型のアプリケーション開発がより簡単かつ効果的になります。

ベクトル検索をサポートできる利用場面

利用場面

ベクトル検索は、データの意味的な類似性に基づく高度な検索機能を提供するため、さまざまな利用場面で有効です。
以下は、ベクトル検索をサポートできるいくつかの具体的な利用場面をご紹介します。

オンラインコンテンツ検索

**ニュース記事やブログの検索
** ユーザーが興味のあるトピックに関連する記事やブログを見つけるために使用されます。
ベクトル検索は、単なるキーワードマッチングを超えて、テキストの深い意味理解に基づく検索を提供します。
学術論文の探索
研究者が特定の研究トピックに関連する論文を探す際に有効です。類似の研究や引用されている作業を容易に発見することができます。

eコマース

製品推薦と検索
顧客の興味や過去の購買履歴に基づいて、類似の製品を推薦します。
ベクトル検索により、製品の特徴やレビューのテキストから類似性を判断し、より関連性の高い推薦を行えます。

エンターテイメントとメディア

音楽や動画の発見
ユーザーの好みに合わせて、似たようなジャンルやスタイルの音楽や動画を推薦します。
この場合、ベクトル検索はメタデータやコンテンツの分析に基づいて行われます。

顧客サポートとナレッジベース

FAQとヘルプドキュメントの検索
顧客が問題解決のために必要な情報を迅速に見つけられるようにします。
類似の問題や解決策を簡単に検索できるようになり、顧客サポートの効率が向上します。

ソーシャルメディアとフォーラム

投稿やコメントの探索
ユーザーが興味のあるトピックや意見に関連する投稿やコメントを見つけるために使用されます。
これにより、情報の発見やコミュニティ内での交流が促進されます。

企業内情報管理

ドキュメントと知識の検索
企業内のナレッジベースや文書管理システムで、従業員が必要な情報や文書を効率的に検索できるようにします。
プロジェクト報告書、マニュアル、社内ポリシーなどが含まれます。

マルチメディアコンテンツ管理

画像やビデオアーカイブの検索
ビジュアルコンテンツを特徴づけるタグや説明に基づき、類似する画像やビデオを見つけるために利用されます。
アーカイブから特定のイベントや物体を含むコンテンツを簡単に探すことが可能になります。

これらの利用場面において、ベクトル検索はデータの意味的な類似性に基づく強力な検索能力を提供し、ユーザーエクスペリエンスの向上、情報アクセスの高速化、そしてより正確な情報の発見を可能にします。

Azure AIに関する学習リソース

Azure AIに関する情報は様々あり、包括的に学ぶことが重要です。

AI総合研究所ではAzureに関する情報を多く発信しています。ぜひ学びに活かしてください。
➡️AI総合研究所クラウド特集

また、Microsoft公式でもAIについて多くまとめられています。
Microsoft learnのAIサービスではAzureのAIに関連する情報を学ぶことができます。

【関連記事】
➡️Microsoft Learnとは？AzureやAIの基礎が無料で学べる方法を解説！

まとめ

本記事で解説したAzure AI Searchのベクトル検索機能は、高度な検索システムを構築する上で欠かせない要素です。その概念とメリットを理解し、実装方法や活用事例を参考にすることで、自社の検索システムを大きく改善できるはずです。

Azure AI Searchに搭載されたベクトル検索機能は、ユーザーが求める情報を効率的に見つけ出すための強力なツールとして、今後ますます幅広い分野で活用が広がっていくことでしょう。ビジネスにおいては、顧客の要望に素早く応え、満足度を高めるために、ベクトル検索技術の導入が不可欠になるかもしれません。

Azureが提供する最先端のベクトル検索技術を活用し、ユーザーにとって価値ある情報をいち早く届けられるよう、検索システムの進化に取り組んでいきましょう。データの意味的な側面を捉えた高度な検索は、ビジネスの成功と顧客満足度の向上に大きく貢献するでしょう。