【編注】この記事は、日本経済新聞社のインターンシップに参加した村田栄樹さんによる寄稿です。 自身の大学での経験も活かして、大規模言語モデルを用いた要約モデルの分析に取り組んでいただきました。
こんにちは。長期インターンの村田と申します。現在大学院の修士課程 1 年目で、研究室では自然言語処理(NLP)の研究をしています。
2023 年の春から半年ほど長期インターンとして日経イノベーション・ラボにて勤務しました。本稿では、インターンの流れや研究の成果をまとめます。研究の成果はNLP若手の会 第18回シンポジウム (YANS2023)で発表しました。
経緯
インターンをはじめるまで
大学で NLP の研究をしていることもあり、NLP をできるインターンを探していました。そこで日経の長期インターンの募集を知りました。NLP では、高い質のテキストデータを大量に必要とします。日経は電子版のデータなどの高品質なデータが大量にありそれを生かした研究や開発を行っていることから、日経でのインターンに興味を持ちました。
長期インターン生には短期インターンを経由している方も多いですが、私は直接長期インターンから勤務することになりました。日経イノベーション・ラボという研究開発の部署に配属されました。
テーマ決め
面接や初回のミーティングでどんなことをしたいか、何ができそうかをメンターの方と相談しました。NLP を中心に Vision & Language や Text-to-speech など幅広いテーマを提案していただきました。持ち込みのテーマも歓迎しているそうです。私は自分の興味とトレンドから「記事要約における Hallucination」をテーマに選びました。
研究内容
背景
Hallucinationとは?
ChatGPT1の登場によって NLP という研究分野に世間の注目が集まりました。しかし、ChatGPT をはじめとする言語モデルが常に正しい文章を生成する保証はありません。例えば、「〇〇駅周辺の美味しいハンバーガーショップを教えて」と入力するといくつかの例を挙げてくれますが、店名を検索エンジンで実際に調べるとそんなお店はないということがあります。このようにモデルが存在しない情報をでっちあげることを、Hallucination (幻覚) と呼びます。信頼性、応用可能性の観点から Hallucination の検知や防止が注目を集める研究分野の一つとなっています。
日経では、約 10 年分の記事データで事前学習した T5 による見出し生成や記事要約が研究されています。実応用に向けて Hallucination の検知や防止は重要となります。
Hallucination をテーマに選び、サーベイを進める中で Hallucination を細分類し分析する研究2を見つけました。その論文では、モデルの生成を Hallucination の要因に着目して以下のように分類しています。
- Non-hallucination:ソースに忠実な要約
- Intrinsic Hallucination:ソースに対して矛盾のある要約
- Extrinsic Non-factual Hallucination:ソースに対して矛盾でも忠実でもない情報がある要約のうち、その情報が世界知識において事実はないもの
- Extrinsic Factual Hallucination:ソースに対して矛盾でも忠実でもない情報がある要約のうち、その情報が世界知識において事実であるもの
事前実験
日経 T5 である日の「日本経済新聞」の朝刊を要約し、上記の分類に従って分析してみました。
下図に示すようにおよそ 4 割の要約でなんらかの Hallucination がありました。また、Hallucination を含むときとそうでない時を比較すると、生成時のエントロピーが前者の方が有意に大きいことも確認できました。
特に、Extrinsic な Hallucination に注目しました。日本銀行の記事において本文に現れない黒田前総裁3の名前が生成されたり、J リーグの記事においてヴィッセル神戸の吉田監督の名前が麻也で補完されたりする例4も見られました。このように記事には含まれない学習時に得た情報を生成する Hallucination に興味を持ち、学習時のドメインと要約対象記事のドメインの一致・不一致による Hallucination の変化を分析することにしました。経済ドメインで学習したモデルは経済の記事において Intrinsic な Hallucination が減り Extrinsic な Hallucination が増え、スポーツモデルであればスポーツの記事において Intrinsic Hallucination が減り Extrinsic Hallucination が増えるという仮説で実験を設定しました。

実験
事前学習した T5 を要約のために使用するには、要約データセットでファインチューニング(追加訓練)する必要があります。ファインチューニング時のデータをドメインごとに分けることで 4 種類のモデルを作成ました。ドメインとしては、経済・スポーツ・IT の 3 分野を採用しました。テスト時には、それぞれのモデルで 3 つのドメインの記事を要約し、訓練時のドメインとの一致・不一致に着目し分析します。

結果・考察
結果を下図に示します。縦軸に生成した要約のうち Hallucination を含んでいた割合を、棒の色で Hallucination の種類を示しています。''Domain-specific'' は 3 モデルの平均を示しています。各モデルにおいて、左側にファインチューニングドメインのテスト記事、右側にファインチューニングドメインではないテスト記事に対する結果となっています。

以下に結果に対する考察を示します。
- ドメインの一致は Halluciation を減らした
- 特殊な語彙や記事パターンへの適応
- スポーツモデルではその傾向が見られない
- スポーツモデルも日本経済新聞のデータで事前学習をしており、その時に経済ドメインの記事などを多量に学習している
- よって、ドメイン外の記事に対する要約の精度が高い
- Hallucination の内訳に差は見られなかった
- ドメイン内・外の差は、経済モデルよりも IT モデルで大きい
- 事前学習時の記事に経済記事が多く、IT と比較してファインチューニング時の伸び代が小さい
- 全体として事前学習時の知識の影響を強く受けており、ファインチューニングによってドメイン特化に至っていない
展望
結果・考察の節で述べたように事前学習の影響が強く残る結果となりました。したがって、事前学習時からドメイン特化で訓練されたモデルにおいて実験することでより興味深い知見が得られると考えています。また、今回採用したような細分類を考慮することで、よりよい精度の Hallucination 検知や防止に繋がると考えています。
感想
本インターンは、基本的にリモートワークで実施しました。出社も許可して頂いており、数回本社でも作業をしました。出社した際には先輩社員の方にランチに連れて行って頂いたり、施設の紹介をして頂いたりもしました。社内の雰囲気を感じることのできる貴重な機会でした。
メンターの方をはじめとして Slack を使用して密にコミュニケーションをとってくださり、必要な時は Zoom でのミーティングもして頂けたのでインターン中は特に困ることもなく作業ができました。勤務ペースも比較的自由に設定することが可能で、大学の方で論文の締め切りが近い時は勤務日を減らすなど柔軟に勤務することができ、ありがたかったです。
謝辞
日経イノベーション・ラボをはじめとする社員の皆様には大変お世話になりました。特にメンターの石原さんには、研究のテーマ決めから実装のエラー、結果の考察まで手助けいただきました。ありがとうございました。
- https://chat.openai.com↩
- Hallucinated but Factual! Inspecting the Factuality of Hallucinations in Abstractive Summarization (Cao et al., ACL 2022)↩
- 黒田氏は既に退任し植田新総裁が就任している。黒田氏の名前は本文に現れていない。↩
- ヴィッセル神戸の監督は吉田孝行氏で、吉田麻也はカタール W 杯で日本代表のキャプテンを務めた選手である。↩