技術戦略ユニット・デジタル編成ユニットの白井です。
昨年の言語処理学会に引き続き、言語処理学会第28回年次大会(NLP2022)に参加しました。 この記事では参加した感想や気になった研究について紹介したいと思います。 なお、日本経済新聞社から発表した研究の内容については以前のブログで紹介しています。

気になった研究について紹介
C4-1 金融文書を用いた追加事前学習言語モデルの構築と検証(pdf)
○鈴木雅弘, 坂地泰紀, 和泉潔 (東大), 石川康 (日興アセットマネジメント)
- BERTに対してドメインごとに追加で学習する追加事前学習は対象ドメインのタスクにおいて有効。
- 事前学習を行った日本語BERTモデルに対し、追加で金融コーパスの事前学習を行う。モデルは Izumi-Lab - 事前学習言語モデル で公開。
- 公開されている追加事前学習モデルの多くは英語のため、日本語モデルが公開されるのはとても意義深いと思いました。金融関連のタスクは研究分野としては多くないように感じているので今後活発になることを期待します。
G4-3 文分割による読みやすさへの影響に関する考察(pdf)
○土井惟成, 大西恒彰, 命苫昭平, 嶋根正輝, 高頭俊 (JPX)
- 「TDnet」の開示資料は長くて複雑な文が多く、翻訳・要約の精度が低い原因になる。
- 文を分割することで読みやすくなるかを調査。日英の翻訳時に1文が複数文に分割されていることがあるため、分割された文を日本語に再翻訳することでデータを構築する。
- 開示文書など企業が公開する文章は語彙が難しいという課題もありますが、文分割のように構成を工夫をするアプローチはさまざまなドメインにも適用できそうだと思いました。
D8-4 記事に忠実ではない訓練事例も活用した見出し生成モデルの忠実性の改善法(pdf)
○植木滉一郎, 平岡達也, 岡崎直観 (東工大)
- 記事本文から見出しを生成する見出し生成タスクのデータセットについて、見出し(正解データ)が必ずしも記事本文を含意しないことがある。このデータから作られたモデルは本文から逸脱した見出しを生成する可能性がある。
- 訓練データを減らさず、記事本文に忠実なモデルをつくるための手法を2つ提案。忠実でない部分を修正した擬似見出しを生成し訓練データに利用する 部分修正 と 訓練データに見出しが忠実かどうかの情報を追加して学習する タグ制御。
- 実際、日経電子版でもコラム記事のように見出しが本文と必ずしも一致しない記事もあります。記事のスタイルに合わせたモデルの制御ができるか、見出し生成は今後も注目したい分野です。
全体の感想
チュートリアルでも取り上げられていた大規模言語モデルを利用した研究が多く、NLP界隈のスピード感が伝わってきました。 日本語評価データセットに関するワークショップJED2022も実施されるなど、大規模なモデルに合わせた日本語データセットにも注目が集まっているように思います。
また、今回からポスター発表はgather.townを利用した形式に変更されました。 会場に発表毎にスペースが用意され、アバターで移動して発表を聴きに行く仕組みです。
混雑具合がアバターの人数でわかったり、ちょっとだけ立ち聞きもしやすくなり、オンサイトで行われるポスター発表に近く感じました。
Zoomを使った口頭発表も時間管理・質疑応答がスムーズで、全体を通してとても快適な学会でした。
来年の開催は沖縄ということで、ぜひ現地参加したいです。
編集履歴
5月2日: 発表論文へのリンクを追加しました。