徳永研究室
研究室の概要
東京工業大学大学院情報理工学院の徳永研究室は、自然言語処理(Natural Language Processing、NLP)、すなわち言葉を計算機で処理する研究を中心に行っています。
人間の認識・理解,また言語で書き表されたものをどのようにコンピュータで便利に扱うかということに着目しています。
具体的には人間の言語理解のモデル化やそれを利用した応用処理などのサービスを研究しています。
主な研究分野を下記にご紹介します。
マルチモーダル情報を利用した言語処理
自然言語処理におけるマルチモーダル情報とは、テキスト情報だけでなく、画像、音声、ビデオなどの他の携帯のデータを組み合わせて処理することを指します。
徳永研究室ではマルチモーダル情報の中でも特に、人間同士の言語を使ったコミュニケーションにおける,言語情報以外の声の調子,視線,ジェスチャーなどの情報に注目しています。
具体的には、視線計測装置を用いて対話している人間の視線を発話と同時に記録し,人間がどこを見ながら話しをしているかを分析し,対話においてより人間に近い振舞いをできるシステムの構築を目指しています.
照応・共参照解析
言語処理における照応解析と共参照解析は、テキスト中で異なる表現が同一の実体や事象を指しているかどうかを識別し、関連づける技術です。
照応解析は、文中で前に出てきた名詞や名詞句を指す代名詞(例えば「彼」「それ」など)の参照先を識別するプロセスです。
例えば、「ジョンが店に行った。彼はパンを買った」という文において、「彼」が「ジョン」を指していることを識別するのが照応解析です。
一方で共参照解析は、テキスト全体を通じて、同じ人物、場所、事象などを指す表現を識別し、グループ化するプロセスです。
例えば、「ジョンは昨日、店に行った。その後、彼は図書館にも立ち寄った」という文において、「ジョン」と「彼」が同一人物を指していると識別するのが共参照解析です。
徳永研究室ではこれまでに談話研究で蓄積された照応・共参照解析の知見を機械学習のモデルにどう組み込むか、また大規模な問題を問くことでわかる問題の分析、さらに解析結果を言語教育などのの応用処理へ利用するという研究テーマに取り組んでいます。
言語資源の構築と利用
自然言語処理におけるコーパスは、言語データ(テキストや音声)の集合体であり計算機による言語処理のために収集されたデータセットです。
コーパスは言語モデルのトレーニングに使われるため、コーパスの性能によって言語モデルの性能は左右されます。
また、特定のコーパスは言語モデルのベンチマークにも利用されるなど、自然言語処理研究において非常に重要性が高いです。
そのため,コーパスの構築とそれに詳細な情報を付加することは非常に重要です。
徳永研究室はコーパスを構築するための支援環境の開発やそれを実際に使って種々のコーパスを作成しています.
配属希望の方向け情報
徳永研究室の活動内容や入試関連情報など配属希望の方向けの情報をまとめました。
活動内容
徳永研究室では主に次のような活動を行っています。
-
全体進捗報告(ゼミ)
週2回約2人の学生が個人の研究の進捗報告を行い、スタッフを含め他の学生にコメントをもらいます。
研究内容だけではなく、発表のやり方についての指導もここで行っています。
-
B4 (M1) 基礎勉強会
週に2回程度、言語処理の基礎的な内容を把握するために以下の教材を学習し、学部生(修士の学生で勉強できていない人も含む)が持ち回りで本の内容を紹介しています。
入試関連情報
横田研究室に参加するには、東京工業大学工学院情報工学系を受験する必要があります。
詳しい入試情報に関しては東京工業大学工学院情報工学系情報工学コースを確認することをお勧めします。
アクセス
横田研究室の所在地は東京工業大学大岡山キャンパス西8号館E棟6Fとなっています。
具体的な所在地は、東京工業大学のアクセスマップをご確認ください。
研究内容紹介
徳永研究室から発表された論文の内容を簡単に紹介します。
大規模言語モデルを用いた日本語判決書の自動要約
山田寛章,徳永健伸,小原隆太郎,得津晶,竹下啓介,角田美穂子,日本語不法行為事件データセットの構築,言語処理学会第30回年次大会(NLP2024)発表論文集,pp. 1045-1050 (E4-2),2024,Mar. pdfより抜粋
言語モデルを用いた自動要約に関する研究は広く進められています。この論文では**日本語判決書の高品質な要約を生成することを目指しています。
具体黄な学習の手法として、機械学習モデルが限られたデータ(たとえば一つのサンプルから)で学習し、それを基に新しいタスクやカテゴリーを理解あるいは実行する「One shot learning」という手法において、学習するサンプルの選び方の新手法を提案し、それによって要約精度が高まることを示しています。
日本語不法行為事件データセットの構築
山田寛章,徳永健伸,小原隆太郎,得津晶,竹下啓介,角田美穂子,日本語不法行為事件データセットの構築,言語処理学会第30回年次大会(NLP2024)発表論文集,pp. 1045-1050 (E4-2),2024,Mar. pdfより抜粋
機械学習においてモデルの性能と精度を決定するデータセットは非常に重要です。
この論文では日本語、日本法における犯罪事例から法的判断を予測したり、あるいは法的判断の根拠を得るためのデータセットの構築を目指しています。
このデータセットは41人の法律専門家によって注釈付けされた3,477件の民事事件判決書に基づいて構築されており、7978事例(事例に内包される原告・被告らの主張は59,697事例)が収録されています。
またこの構築されたデータセットを用いて、根拠抽出タスク(RE)、不法行為判断予測タスク(TP)、それらのマルチタスクを行い、データセットの評価を行っています。
まとめ
この記事では東京工業大学工学院情報工学系情報工学コースの徳永研究室について、研究室の研究内容や配属希望の方向け情報、研究室教授からのメッセージを紹介しました。
自然言語処理技術について、言語モデルを活用した言語の処理方法の開発や、モデル学習に必要なデータセットの構築を行っている研究室であることを説明しました。
徳永研究室への参加を考えている方や、より詳しい情報が知りたい方は、研究室や東京工業大学情報理工学院ホームページを参照ください。