AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

ChatGPTをテキストマイニングに活用する手順を徹底解説

この記事のポイント

  • 本記事はChatGPTを活用したテキストマイニングの方法について紹介しています。
  • テキストマイニングを用いることで、膨大なテキストデータから重要な情報を抽出し、非構造化データの分析が可能になります。
  • 実際には、文書の要約やキーワードの出現率分析などの例を挙げながら、ChatGPTの活用方法を解説しています。
  • また、Code Interpreterを使用してユーザーレビューの感情やカテゴリを分類する方法も示されています。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

テキストマイニングは、大量の非構造化データから有益な情報を引き出す強力な手法ですが、その技術を活用することに不慣れな方も多いかと思います。

そこで本記事では、最新の人工知能技術であるChatGPTを利用したテキストマイニングの方法について、具体的な例と共にわかりやすく解説しています。
本稿を読むことで、文書の要約、キーワード出現率の分析、ユーザーレビューの分類など、多岐にわたるテキストマイニングのアプローチをChatGPTを用いてどのように実施できるかを理解していただけるでしょう。

これにより、データの価値を最大化し、研究やビジネスの効率を一層高める一助となることを目指しています。

最新モデル、OpenAI o1(o1-preview)について詳しく知りたい方は、こちらの記事もご覧ください⬇️
OpenAI o1(ChatGPT o1)とは?その特徴や使い方、料金体系を徹底解説!

テキストマイニングとは

テキストマイニングは、膨大な文書群から価値ある情報や知見を抽出する技術であり、自然言語処理(NLP)を基盤としています。
この手法により、非構造化テキストデータを分析し、隠されたパターンやトレンドを明らかにすることが可能となり、学術研究やビジネスインテリジェンスに寄与します。

テキストマイニングイメージ


ChatGPTをテキストマイニングに活用する方法

それでは、ChatGPTを使ったテキストマイニングを実際に行った例をいくつか紹介します。

長文に関する例では、総務省のAIネットワーク社会推進会議 「報告書2022」の文章を使用しています。
参考:総務省

長文をサマリーに要約する

ChatGPTの高度な自然言語処理能力を活用することで、大量のテキストデータを簡単に要約することができます。この機能を最大限に活用するには、ChatGPTに明確なプロンプト(指示)を与えることが重要です。

例えば、「この文章の要点を5文で要約してください」や「この記事の要旨を3つの重要ポイントで説明してください」といった具体的なタスクを設定することで、ChatGPTはテキストデータから核心となる情報を的確に抽出し、簡潔なサマリーを生成します。

以下は、実際のやり取りです。

実際のやり取り_サマリー実際のやり取り(サマリーに要約)


ChatGPTが合計127ページあるPDFの内容を即座に要約してくれています。
この手法により、膨大なテキストデータの中から必要な知見を素早く得ることができ、データ分析の効率が大幅に向上します。また、複雑な内容が明瞭で簡潔なポイントに集約されることで、情報の整理と理解が促進されます。

【関連記事】
➡️ChatGPTに要約を依頼する方法を解説!論文やPDFを読み込ませるコツ

長文内の"言葉"の出現率を調べる

テキストデータにおける特定のキーワードやフレーズの出現頻度を分析することは、テキストマイニングの基礎であり、データの傾向や特徴を理解する上で非常に重要です。
ChatGPTを活用することで、この頻度分析をシンプルかつ効率的に行うことができます。

ChatGPTにテキスト内の特定の言葉の出現回数を問い合わせるには、明確なクエリを使用します。
例えば、「このテキストの中で"〇〇"というフレーズは何回出てきますか?」というように、直接的な質問を投げかけます。ChatGPTは、このクエリを理解し、テキスト内のデータを高速で処理した上で、求められた言葉の出現頻度を即座に返答します。

以下は、実際のやり取りです。

実際のやり取り_出現率実際のやり取り(言葉の出現率チェック)

ChatGPTによると、11回「AI開発ガイドライン」という言葉がPDF内で使用されていることが分かりました。

この結果は、テキストデータの特性や傾向を把握するための貴重な洞察を提供してくれます。
特定のキーワードやフレーズの出現頻度が高いことは、そのトピックがテキストの主要なテーマであることを示唆しています。逆に、出現頻度が低い場合は、そのトピックがテキストの中心的な内容ではないことを意味するでしょう。

Advanced Data Analysi(旧Code Interpreter)を使ってユーザーの声を分類する

Advanced Data Analysisを使うことで、ユーザーの声を分類するという使い方もできます。
今回は架空のイタリアンレストランのレビューデータをChatGPTにExcelファイルで読み込ませ、レビューの感情とカテゴリを分析してもらいました。

日本語対応してない証拠
日本語で感情分析しようとした際の返答

プロンプトは以下の通りです。

#命令文
xlsxファイルを読み込んでテキストマイニングを行ってください。
次の#手順に沿って処理をしてください。

#手順
1."レビュー内容"の感情を分析して、D列にPositive/Negative/Neutralのいずれかを入力してください。
2."レビュー内容"のテキストを分析して、#カテゴリの中から適切なものを一つ選んでE列に入力してください。
3.1~2までの処理を行った後のデータをxlsx形式で出力してください。

#カテゴリ
Taste, appearance, customer service, location, price, other

元のデータは以下のような状態になっています。
分析前
分析前のデータ

Excelファイルを添付して、プロンプトを実行したところ、以下のように分析をしてくれました。
分析中
ChatGPTの分析の様子

最終的に分析をしてくれた後のデータは下記のようになっています。
分析後
分析後のデータ


このように、ChatGPTのAdvanced Data Analysisの機能を使うことでユーザーの声を分類することができます。

【関連記事】
➡️Advanced Data Analysis(Code Interpreter)とは?その機能や活用例を解説

スプレッドシートを使ってユーザーの声を分類する

事前準備

  • APIキーの取得

自身が使用したいサービス(OpenAI,Azure OpenAI等)APIキーを取得し、メモしておいて下さい。今回は、Azure OpenAI Serviceを使用します。他にも、OpenAI APIやAnthropic Claude APIがあります。

【関連記事】
➡️ChatGPT(OpenAI)のAPIキー発行・取得手順を解説!支払い方法も

➡️Azure OpenAI APIキーの取得方法と利用手順をわかりやすく解説!

  • 「GPT for Sheets and Docs」のインストール

Chromeの拡張機能「GPT for Sheets and Docs」をインストールしていきます。
GPT for Sheets and Docsにアクセスしアクセスすると、以下のような画面が表示されます。

GPT for Sheets and Docsのインストール
サイトアクセス時の画面



「インストール」→「続行」の順にクリックし、指示に従ってインストールして下さい。スプレッドシートを開き、下記のように「拡張機能」に「GPT for Sheets and Docs」が表示されていればインストールが成功しています。
GPT for Sheets and Docsのインストール完了
GPT for Sheets and Docsのインストール成功画面

使用の流れ

後は、APIキーを設定し、関数を入力することで、テキストマイニングをすることができます。


まとめ

この記事では、ChatGPTを活用したテキストマイニングの基本的な手法について詳しく解説しました。テキストマイニングは、大量のテキストデータから価値ある情報やインサイトを効率的に抽出するための強力なツールです。

ChatGPTのような先進的な言語モデルを用いることで、企業や研究者は、テキストデータに隠された重要なパターンや傾向を迅速に発見し、ビジネスや研究に役立つ知見を得ることができます。また、テキストの分析と理解にかかる時間と労力を大幅に削減できるため、生産性の向上も見込めるでしょう。

本記事が、ChatGPTを用いたテキストマイニングに関心をお持ちの方にとって、有益な情報源となれば幸いです。テキストマイニングは、ビッグデータ時代に不可欠なスキルの一つと言えます。
ぜひこの機会に、ChatGPTを活用したテキストマイニングに取り組んでみてください。新たな発見と可能性が待っているはずです。

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!