岡崎研究室
研究室の概要
東京工業大学大学院情報理工学院の岡崎研究室は、自然言語処理(Natural Language Processing、NLP)、すなわち言葉を操るコンピュータの研究を中心に行っています。
言語学、統計学、機械学習の知識を用いながら、コンピュータによって人間の言語を理解、生成する大規模言語モデルを開発することを目指し、さらにビッグデータ解析による社会観測など、研究成果の実社会での応用も展開しています。
主な研究分野を下記にご紹介します。
1.大規模言語モデル
岡崎研究室の代表的な研究内容として、大規模言語モデル 「Swallow」 の開発があります。
Llama、Swallow
日本語に強い大規模言語モデル 「Swallow」 を公開した、日本の自然言語処理のおけるトップの研究室です。
Swallowは英語に特化したLlama 2モデル(7B, 13B, 70Bバージョン)の日本語能力を拡張することを目的としています。
岡崎研究室の研究チームは新たに開発した日本語データによる学習を実施しました。
2023年12月時点で、日本語に関して最高性能を達成したとされ、baseバージョンと指示チューニングを施したinstructバージョンの合計6種類のモデルが公開されています。
2. 自然言語処理
岡崎研究室では自然言語処理技術そのものに対する研究も行っています。
自然言語処理技術は大きく、コンピュータによる言語の理解を目指す自然言語理解と、コンピュータによる文章の生成を実現する自然言語生成の2分野に分けられています。
- 自然言語理解
岡崎研究室では主に固有表現認識や関係抽出、語義曖昧性解消、感情分析などのタスクに取り組みながら、コンピュータがテキストデータを自動的に分析する研究を進めています。
- 自然言語生成
岡崎研究室では、機械翻訳や自動要約、文法誤り訂正、広告文生成などのタスクに取り組んでいます。
3. マルチモーダル処理
マルチモーダル処理は、テキストデータだけでなく、画像、音声、ビデオなど複数の異なる形式のデータを組み合わせて分析や予測を行う技術のことを指します。
例えば画像に自動でキャプションをつける技術がマルチモーダル処理にあたります。
岡崎研究室では、主に画像と言語を対応付けた機械翻訳や説明文生成などのタスクに取り組みながら、マルチモーダル処理の研究を進めています。
岡崎研究室ホームページより引用
特徴
岡崎研究室ではセミナーが定期的に開催されます。セミナーでは総合研究会、論文輪読、基礎勉強会が主に行われます。
-
総合研究会
発表者の各自の研究について内容の紹介を行い、その内容について議論、情報交換を行います。
-
論文輪読
発表担当者が見つけた興味ある論文を発表、紹介する会です。
-
基礎勉強会
自然言語処理や機械学習など,研究に必要な知識を身に着けるための勉強会です。具体的な教材として言語処理100本ノックというのがあります。
これによって自然言語処理の課題に取り組みながら、プログラミングやデータ分析などの基礎的な能力を身に着けます。
このように研究だけでない基礎的な内容の習得をサポートしてくれる研究室は珍しく、かけがいのない自身の強固な基礎の形成になるのではないでしょうか。
研究環境
具体的な研究環境は次のようになっています。
- 個人のデスクスペースあり
- 豊富な計算環境(8台の計算サーバ(全部で162コア,448GBメモリ,24GPU)と,ファイルサーバ(66TB))、東工大保有のGPU
- 情報交換: Slack、esa.io
研究内容紹介
※一部を抜粋して紹介しています。
Swallow コーパス
(日本語大規模ウェブコーパス, 岡崎 直観ら, 2024)
Swallow コーパスの構築手順,論文より引用
Common Crawlから日本語のテキストを独自に抽出・精錬し、約3,121億文字(約1.73億ページ)からなる日本語ウェブコーパス「Swallow」を構築し、その性能を報告した論文です。
構築したコーパスの品質は、Llama 2 13B の継続事前学習の結果、既存のコーパスを用いた場合と比べて同等かそれを上回る性能のLLMが構築されました。
本論文の「Swallow コーパス」は、日本語の言語モデルかつ商用利用が可能な学習コーパスの中で、最大規模の学習コーパスです。
大規模言語モデルの日本語能力の効率的な強化
継続事前学習における語彙拡張と対訳コーパスの活用, 水木 栄 ら, 2024
Llama-2に対するSwallowの相対スコア[%],論文より引用
すでに学習済みのLLM(英語ベース)をもとに日本語テキストを継続事前学習をする方法で日本語能力を強化したLLMを構築するアプローチの効果を検証した論文です。
その結果、継続的な事前学習が日本語の質問応答において知識獲得の効果を示すことが明らかとなりました。
また、語彙拡張は要約を除いて性能に大きな影響を与えないこと、対訳コーパスを組み込むことで翻訳能力(特に日英)が向上するものの、他のタスクへの効果は限定的であることが示されました。
配属希望の方向け情報
岡崎研究室に配属希望の方向けの情報や、よくある質問をまとめました。
学生生活との両立について
研究室のスケジュールとしては、定時やコアタイムというものありません。土日祝日は休日で、アルバイトやサークルにも自由に参加することが出来るでしょう。
またインターンシップに参加して実際の企業活動を体験することも期待されています。
一方で研究を順調に進めるために、研究室を定期的に訪れることが推奨されています。
卒業性の主な就職先
これまでの卒業生の就職先の例を紹介します。
- グーグル (Google)
- Cygames
- 大和証券
- 日本アイ・ビー・エム (IBM)
- 富士通
- ヤフー
- リクルート
IT企業が中心となっていますが、それ以外にも幅広い業界に就職してる方がいます。
ただし岡崎研究室では就職先のことを考えて研究室を選ぶことは推奨されていません。就職先の例はあくまで参考程度に考えてください。
入試関連情報
岡崎研究室に参加するには、東京工業大学情報理工学院情報工学系を受験する必要があります。
詳しい入試情報に関しては東京工業大学情報理工学院情報工学系のホームページを確認することをお勧めします。
岡崎研究室の研究室見学を希望する方はinfo (at) nlp.c.titech.ac.jpに気軽にご相談ください。
ただし志望理由書や研究計画書の内容についての質問には岡崎研究室で尋ねることはできませんので、注意してください。
まとめ
この記事では東京工業大学大学院情報理工学院の岡崎研究室について紹介しました。
岡崎研究室の研究内容や研究環境、研究室教授からのメッセージを紹介しました。機械学習や自然言語処理、いわゆるAI技術に興味がある方に岡崎研究室がおすすめだと言えます!
岡崎研究室への参加を考えている方や、より詳しい情報が知りたい方は、研究室や研究内容であるSwallowホームページを参照ください。