grasys blog

社内文書検索に AI を使ってみよう。精度の高い検索結果には何が必要か

自己紹介

はじめまして、今年1月から grasys に入りました H.koizumi です。

前職では20年ほど製造業で開発した製品のデータ分析や解析の仕事に携わってきました。その中で取得データの利活用について興味を持っており、多くの情報をどのように活用すれば意味を持たせることができるのかを模索し続けてきました。

そんな中、縁があり grasys に入り新しい技術を学びながら社内情報検索ができる AI サービスに出会いました。AI と聞くと ChatGPT に代表される生成 AI が近年活用されており、AI が学術的な利用から一般の人の身近にあるサービスとして認知される時代になっていますね。

今、各プラットフォーマーから AI について様々なサービスが発表されて、みなさん何を使えばいいのか迷っていることだと思います。

会社は、大量の文書を作成して管理することが多いと思います。

今回は AI を使って社内に点在している文書を探すユースケースを紹介します。

AI を使った取り組みの第一歩としていかがでしょうか。

今までの社内文書検索システムの問題点

社内で構築した今までの文書検索システムはアナログ/デジタル問わず大量の文書を社内フォルダやストレージに入れたあと、以下のようなことが起こり得ます。

  • 文書をキーワード検索してもヒットしない
  • 検索しても欲しい情報が入手できない
  • 文書をペーパーレス化したけれど紙文書が画像で保存されていて検索できない

欲しい情報がたくさんの情報に埋もれてしまって、探したい情報がどこにあるかわからなかったり、知っている人しか情報に辿り着けなかったりすることなどの経験はみなさんあると思います。また経験者がいなくなると情報を見つけることが困難になることもあり、意外と文書を探すことに時間を費やしていると思います。

そんな問題を解決してくれるサービスが、この AI を利用した社内文章検索のユースケースです。

Google Cloud が提供している「 Vertex AI Search 」を例に挙げて、他のサービスとの比較を行っていきます。

検索したい文書を一つのオンライン上のストレージ(以降、オンラインストレージ)に入れておくだけで検索窓からキーワードではなく話し言葉(自然言語検索)を入力することで欲しい情報と参照する文書を検索することができます。また、格納したオンラインストレージ以外は検索対象にならず回答を生成するので社内情報検索に便利です。

デジタル文書はそのままオンラインストレージに格納することでいつでも検索で探し出すことができます。また、アナログ文書(紙文書等)の場合も PDF などの画像データがオンラインストレージに格納されていれば、文書を自動的にテキストとして認識でき検索できる機能を持っています。

サービス比較

今回比較したサービスは、クラウドプラットフォーマーが提供している以下の3つです。

  • Vertex AI Search( Google Cloud )
  • Amazon Kendra( AWS )
  • Copilot for Microsoft 365( Microsoft )

それぞれどのような違いがあるか実際に試してみました。概要を説明していきます。

・Vertex AI Search( Google Cloud Platform )とは

Google Cloud 環境下で使用するサービスです。手軽に生成 AI を搭載した検索エンジンを構築できるサービスです。セマンテック検索という単語間の意味を理解した検索方式とベクトル検索という検索する言葉を数値化する検索方式を組み合わせて検索を行います。

・Amazon Kendra( AWS ) とは

AWS 環境下で使用するサービスです。検索する文書の保存先をコネクタを使用して複数設定できるため、ユーザが様々な場所に文書や情報を保存していてもそれらを全て検索対象に含めて検索することが可能になります。

・Copilot for Microsoft 365( Microsoft )とは

Micosoft365 のアドインパッケージでありライセンスを購入すれば、OneDrive や SharePoint を用いてすぐに社内文書検索を企業に導入することができます。

比較項目Cloud Argent Builder
( Vertex AI Search )
Amazon KendraCopilot for Microsoft 365
提供者Google CloudAWSMicrosoft
料金検索回数による課金・$2.00/1,000クエリ・要約機能追加時  $4.00/1,000 クエリ稼働時間による課金・Developer Edition : 月額 810 USD(1.125 USD/時間)ライセンスによる年間契約Microsoft365 に対する Copilot アドイン機能追加$30/月で年間契約のみ
文書保存先・Cloud Storage・BigQuery・他サードパーティ( Jira 他)・Amazon Simple Storage   Service( Amazon S3 )・コネクタを使用して他のサービスと接続可能( Box 等)・OneDrive for Business・SharePoint Online 
保存できるファイル形式・構造化データ( JSON )
・非構造化データ( HTML、PDF、MS Ofiice( .docx / .ppt )及びテキスト)
・構造化データ
・非構造化データ( HTML、PDF、MS Office( . doc、.ppt )及びテキスト)
・文字コードは UTF-8 エンコードのみ
・Word ( doc、docx )
・Excel ( xls、xlsx )
・PowerPoint ( ppt、pptx )
・PDF ( pdf )
・Text ( .txt、.md、.log )
・HTML ( html、html )
・CSV ( csv )
・XML ( xml )
・OpenDocument ( odt、ods )
・EPUB ( epub )
・リッチ テキスト形式 ( rtf )
・Apple iWork ( Pages、Key、Numbers )
・JSON ( json )
・YAML ( yml、yaml )
・LaTeX ( tex )
データストア* への保存の仕方1階層のみ保存可能フォルダ構成はできない階層的に保存可能階層的に保存可能
設置可能データストア複数のデータストアを設置可能1つのデータストアで保存可能1つのデータストアで保存可能
データストアへの権限設定Google Cloud による権限設定AWS による権限設定Microsoft Entra による権限設定
保存できる1ファイルあたりの容量100 MB/ファイル50 MB/ファイル特に制限なし
OCR**データストア作成時に OCR を取り込みテキストとして認識が可能OCR 化は他のソフトで必要OCR 化は他のソフトで必要
3つのサービス比較(2024年5月10日時点)

*データストア:文書をオンラインストレージ上で格納する場所
**OCR:Optical Character Recognition(手書き文書や紙文書をデジタル化したもの)


視点1:検索精度

実際に以下のような条件で質問してみました。

オンラインストレージに格納した文書に対してどのような回答が生成されるのかを調べてみました。

 ①検索対象文書( PDF )に回答がある場合
 ②検索対象文書( PDF )に回答がない場合

Vertex AI Search:

 ①オンラインストレージからのみ検索し回答を生成する
 ②データストア内に回答がない旨のメーセージが表示される

Kendra:

 ①オンラインストレージから検索し回答を生成する
 ②オンラインストレージ検索後ウェブサイトを検索し回答を生成する

Copilot for Microsoft 365

 ①オンラインストレージから検索し、ない場合にはウェブサイトも検索し回答を生成する
 ②オンラインストレージ検索後ウェブサイトを検索し回答を生成する( Copilot Studio を追加購入するとウェブサイトを検索対象から外す設定が可能になります。)

視点2:文書データの格納方法と文書管理方法

Vertex AI Search:

保存先を複数に分けて保存することができ、データストアごとに保存する文書を分けて管理することが可能です。


AmazonKendra と Copilot for Microsoft 365:

保存先は1つのデータストアでデータストアの中でフォルダ構成を作り文書を管理することができます。Kendra はコネクタを使い複数のデータストアに保存してある文書を検索することが可能です。

精度の高い検索結果を得るためには

3つのクラウドサービスを使用して試してみた結果、AI の重要性は認識されていますが、まず文書をデータストアに格納する際にその文書の信頼性、文書レベルを適切に考慮することを検討する必要があると思います。

社内文書検索では、必要な文書を社内で整備することが精度の高い検索において鍵となります。

企業は、社内秘、社外秘、個人情報、機密データなどたくさんの情報を抱えています。データストアに入れる情報が適切に考慮されていないと偏ったアウトプットや信頼性の低い情報が生成されることになるようです。

まとめ

実際に試してみて「 Vertex AI Search 」は、ウェブサイトを検索対象に含まずオンラインストレージに格納された文書に対してのみ検索ができ、権限管理は Google Cloud 環境で適切に管理できるので社内情報検索には効果があると考えます。

この流れは不可逆で社内で AI を使わない選択肢は難しく社内に詳しい人がいないなら、ぜひ grasys にお任せください。まず最初の AI として社内文書検索を通じて AI を会社内に取り込み、AI とともに会社全体で効率的にデータを利活用するためにこれらのサービスをご検討いただければ幸いです。私たちは企業様の抱える問題を共に考えて解決策をご提案させていただきます。お気軽にご相談ください。


採用情報
お問い合わせ