デジタル編成ユニットの白井です。エンジニアとして、自然言語処理 (NLP) 関連の業務に携わっています。
3月15~19日に開催された 言語処理学会第27回年次大会(NLP2021) に聴講者として参加しましたので、 その感想を述べます。

言語処理学会
言語処理学会は自然言語処理の研究を専門とする学会です。 第27回年次大会では、日本経済新聞社もゴールドスポンサーとして協力しております。(https://www.anlp.jp/nlp2021/index.html#sponsor)
日本経済新聞社は、今週開催されている言語処理学会第27回年次大会にゴールドスポンサーとして協賛しています。 言語処理の知見を各種サービスで活用している他、記事データ関連サービスも提供しています。ご関心のある方はぜひスポンサーブースにお越しください!#NLP2021 #NLP2021sponsor
— NIKKEI Developers (@nikkeideveloper) March 17, 2021
機械学習・人工知能といった分野が活発になっている昨今、自然言語処理もまた、大いに盛り上がっている分野の一つ。 大会によると、今年は1500名を超える参加者が集まったそうです。
今年は北九州での現地参加とオンライン参加の両者を受け付ける形で開催される予定でしたが、オンラインのみでの開催に変更となり、発表はZoomを使って行われました。
気になった発表について紹介
気になった発表をいくつか紹介します。
D1-3 動的トピックモデルを用いた特許技術専門用語に対する技術進展分析
岩田真奈 (東工大), 内海祥雅, 松田義郎, 齋藤歩美 (楽天), 田中義敏, 中田和秀 (東工大)
- 特許ドメインにおいて、分類は定期的に改正される。その改正を補助するため、専門用語を利用した動的トピックモデルを構築する。
- 文章の分類において、名詞は重要な特徴量です。専門用語となると、この論文で使われているような頻度情報を利用したスコアリングは未だ有用だと感じます。
- トピックモデルを実応用する研究は多くないのですが、補助という立ち位置で活用を試みるアプローチが面白いと思いました。
P2-19 オンラインコミュニティにおける単語頻度の通時的変化を利用した新語リストの獲得
阿部香央莉 (東北大), 松田耕史 (理研/東北大), 吉川将司, 乾健太郎 (東北大/理研)
- 言語処理に用いられるモデル・辞書は静的であるが、未知語 (特に新語) は常に生まれている。Twitterとニコニコ動画のデータから、頻度が0から増えた単語、右肩上がりに増加した単語を新語とし、自動で新語を獲得することを試みる。
- 新語はゼロから突発的に流通するイメージがあるのですが、時系列として分析すると「エモい」は2013年時点で既に使われていたり、徐々に頻度が上がっていく単語も多く、単純な頻度だけでは獲得が難しいことが意外でした。
- 機械で扱うのはもちろん、人が理解する上で、新語をいち早く扱えるようにする需要は大いにあると思います。
D5-1 ことばつなぎゲーム:ゲーミフィケーションによる小学生の作文教育
大村和正, 久保圭, 黒橋禎夫 (京大)
- 名詞・動詞などの単語を使って文を組み立てるゲームを構築。データはイベント同士で蓋然性 (ある程度起こりうる) 関係を持つペアが作れるような文を作れるよう、単語の難易度も考慮しつつ生成する。
- 教育のような所謂文系分野と融合した研究が見られるのも言語処理学会の良い点です。
- 娯楽として子供のころから日本語を学ぶ機会が増えてほしいですし、自然言語処理がその手助けとなっていけば良いと思います。
B6-4 指定語句を確実に含む見出し生成
山田康輔 (名大/朝日新聞社), 人見雄太, 田森秀明 (朝日新聞社), 岡崎直観 (東工大), 乾健太郎 (東北大/理研)
- Transformerを使った文書からの見出し生成において、指定語句から文頭・文末に見出しを生成する
Dual Outward Generation mechanism (DOG)
の提案。指定語句を100%含む生成が可能。 - Transformerは文頭・文末を起点とし双方向に生成するモデルのため、途中の生成を指定するのは難しいというネックをうまく解消した研究だと思いました。
- 語句を指定するだけで生成モデルのコントロールができるのは、実際に利用するユーザーにとっても便利だと思います。
B7-3 テキスト変換モデルに基づく様々な制約を用いたインタラクティブ要約
柴田知秀 (ヤフー), 山田悠右 (東工大), 小林隼人, 田口拓明 (ヤフー), 奥村学 (東工大)
- T5 で生成された見出しをインタラクティブに改善していく制約つき生成の提案。制約なしで生成された見出しに対して、文・キーワード・フレーズの条件を追加して再度見出しを生成する。
- 生成が何度もやり直し可能であるのは人間の編集者のやり方に沿った考え方で良いと思いました。
- T5のような text-to-text は応用先が多そうなので、今後も注目したいです。
オンラインでの交流など
私自身、オンライン開催の学会は初参加でしたが、運営の方々の工夫もあり、とても円滑に進んでいました。 Zoomでの口頭・ポスター発表とは別にslackチャンネルがあることで、発表時間外にも活発な議論が行われたのはリモートの良さだと思いました。
今回、懇親会は gather.town を使って行われました。Zoomのようなツールだと全員との距離が同じになってしまいますが、 gather.townではマップ内を自由に移動することができるため、リアルな懇親会のように集まったり移動したりができるのが画期的でした。
一方で、リモートでの交流は難しいことも多々あるなと感じました。 知り合いとの交流であれば問題ないのですが、知り合いではない人との偶然的交流はまだまだ難しそうです。
また、最終日のワークショップでは研究者向けのワークショップ 若手研究者交流のニューノーマルを考える に参加しました。 研究は様々な人と交流することでアイデアが芽生えたり、協業する機会が生まれたりしますが、コロナによってそれが難しくなっています。 そんな現状において、どのように交流を深め、この分野の活動を活発にするか、ファシリテータの方々を含め、みなさん真剣に考えていることがよくわかりました。
期間全体を通し、自然言語処理の面白さを改めて感じることができました。 浜松で開催される予定の、来年の年次大会 (NLP2022) が今から楽しみです。