NIKKEI TECHNOLOGY AND CAREER

日本経済新聞社での事前学習済み言語モデルの構築と活用

研究開発部署「日経イノベーション・ラボ」の石原です。 Nikkei Advent Calendar 2022の 23 日目を担当します。

日本経済新聞社では、ユーザへより良いサービス利用体験を提供するため、広くデータの利活用を進めています。 本記事では特に「自然言語処理」と呼ばれる領域に焦点を当て、2022 年の主要な取り組みの一つとして、昨今の急速な進展の根幹を担う「事前学習済み言語モデル」の構築と活用に関する事例を紹介します。 最初に自然言語処理や事前学習済み言語モデルの概要を説明し、その後に日本経済新聞社での取り組みをまとめます。 日本経済新聞社では積極的な対外発表が推奨されており、本記事は技術ブログ外部登壇論文発表で公表済みの内容をもとに構成しています。

自然言語処理とは

自然言語処理とは、人間が日常的に使っている言語(自然言語)をコンピュータで処理するための一連の技術です。 日本経済新聞社は、日経電子版で毎日約 1000 記事を公開するなど、多種多様な自然言語に関する情報が集まっています。

自然言語処理は、さまざまな観点でニュースメディアの事業に貢献できると考えています。 Google News Initiative が支援する「JournalismAI」は 2019 年、次のような観点で自然言語処理のような人工知能技術がジャーナリズムの中で利用できると提言しました1。 いずれも日本経済新聞社の業務に当てはまる要素で、内製のエンジニア組織で日々研究開発を進めています。

  • Newsgathering(収集): データ収集、解析、ラベル付けなど
  • News production(生成): 記事生成、見出し生成、校正など
  • News distribution(提供): パーソナライズ、推薦、検索など

事前学習済み言語モデルの概要と実運用での課題

言語モデルとは、言語表現に対する確率分布を何かしらの方法で表現したモデルです。 近年は、大量の文章を用いた「事前学習」を通じてモデルのパラメータを推定しておき、必要に応じて「ファインチューニング」することで数多くの下流タスクで高い性能を発揮することが知られています(図 1)。 事前学習では、たとえば文章の穴埋め問題を解きます。 文章の一部を隠すことで、機械的に入出力の組みを用意できる利点があります。 具体例を交えた解説は、筆者の「PyCon JP 2022」での発表動画・資料を参照してください。

pretrained 図 1. 言語モデルの事前学習の概念図

一般に言語モデルの事前学習にはインターネット上の多種多様な文章が大量に利用されますが、分野特有の専門用語・表現に対応できる利点から、特定の分野の文章を用いた事前学習済みモデルを構築する動きも出ています。 たとえば、科学論文を用いた「SciBERT」2や「Galactica」3、生物医学に特化した「BioBERT」4があります。 言語という観点でも、英語だけではなく、日本語・中国語・韓国語など特定の言語に絞った文章で事前学習したモデルが開発されています。 日本語の経済ニュースも、専門用語や特有の言い回しが登場しやすい文章です。 独自の事前学習済み言語モデル構築から享受できる恩恵があると考え、日本経済新聞社は 2019 年、日経電子版の約 6 年分の記事を用いた「BERT」5モデルを構築しました。

日経電子版特化のモデルに対して記事要約への応用などを検討する中で、課題の一つとして単語の通時的な変化の存在が浮かび上がってきました。 たとえば、新型コロナウイルス感染症の流行前の文章で学習したモデルは「コロナ禍」「巣ごもり需要」といった流行以後に登場した語句を適切に処理できない傾向があります6。 単語の意味が、流行前後で大きく変わっている例も確認しました。 「コロナ」の関連語を見てみると、流行前は「ジム・ビール」だったのが、流行以後は「疫病」や「感染症」になっています7

日本経済新聞社での取り組み 2022 年版

「事前学習済み言語モデルは一度作れば終わりではない」という課題意識を抱えながら、2022 年現在は次のような目標を掲げて、事前学習済み言語モデルに関する研究開発に日々取り組んでいます。

  1. 手軽かつ汎用的な学習環境の整備
  2. 業務活用の検証
  3. 実運用にまつわる課題整理と対応検討

手軽かつ汎用的な学習環境の整備

最初に取り組んだのが、学習環境の整備です。 ここでの学習とは、言語モデルの事前学習やファインチューニングを指します。 新規作成・継続学習の必要性が示唆されたことから、社内の人間がいつでも手軽に言語モデルを学習できる環境は重要だと考えました。 事前学習済み言語モデルに関する研究は絶え間なく進んでおり、BERT に続くモデルが次々と登場しています。 より高い性能が期待できる新しいモデルを構築するためにも、汎用的な仕組みの整備は大切です。

実際には AWS Japan のプロトタイプ支援の枠組みも活用して「Amazon SageMaker」を用いた学習環境を整備し、日々活用しています。 SageMaker は機械学習モデルの学習や実運用のための AWS のサービスです。 用途に応じた学習インスタンスを手軽に起動できる点や、最先端の自然言語処理ライブラリを提供する「Hugging Face」との連携機能が充実している利点があります。 より具体的な解説については、AWS Japan 主催のイベントに登壇した際の発表動画・資料を参照してください。

業務活用の検証

事前学習済み言語モデルの業務活用にも、積極的に取り組んでいます。 日経電子版特化のモデルは、日経電子版内の専門用語や特有の言い回しを習得していると期待されます。 この恩恵を最も享受できる問題の一つが、見出し・要約などの文生成です。 事業部門での具体的な業務を支援する目的で、API の実装や活用方法の議論が進んでいます。 日経電子版特化のモデルは、記事へのラベル付けにも活用できます。 2022 年には国際学会で、クリック率8や閲覧秒数の予測9への応用事例を報告しました。

開発時には、必ずしも日経電子版特化のモデルにこだわらずに広く技術選定を進めています。 一般公開されているモデルが流用できれば、開発の費用を抑えられます。 2022 年に国内外の学会で報告した例として、多言語ニュースの話題一致判定10、決算短信の業績要因文の特定11、企業の業種分類12があります。 当然ですが、そもそも事前学習済み言語モデル自体を使うべきかという観点も留意しています。 新聞記事からのクロスワードパズルの自動生成に取り組んだ研究13は、ルールベースや数理最適化の手法を中心に構成しており、将来的な展望として事前学習済み言語モデルの活用も見込んでいます。

実運用にまつわる課題整理と対応検討

事前学習済み言語モデルの業務での実運用を考えると、さまざまな課題に直面します。 新規性が高く可能性を秘める技術の課題を整理し対応を検討することも、研究開発部門の重要な役割です。

特に 2022 年は「いつ事前学習済みモデルを再学習すべきか」という問いに向き合いました。 具体的には、通時的な単語の意味変化が事前学習済み言語モデルに与える影響を分析し、意味変化の度合いとモデルの性能劣化に一定の相関があることを見い出しました。 言語モデルの事前学習には、大きな費用がかかります。 通時的な単語の意味変化の度合いから計算できる指標を代替として用いることで、実際に事前学習をすることなく、モデルの再学習が必要かの議論や意思決定が可能となります。 この研究は、自然言語処理の主要な国際学会「AACL-IJCNLP 2022」に論文が採択されました14

終わりに

本記事では、事前学習済み言語モデルの構築と活用に関する事例について、技術ブログ・外部登壇・論文発表で既に公表済みの内容から抜粋して紹介しました。 日本経済新聞社ではウェブやメディアに関連する先端技術を探究しつつ、積極的な事業活用に挑戦しています。 メディアの未来を作る仕事に興味のある方は、ぜひお気軽にページ下部の「カジュアル面談」からご連絡ください。 学生向けのインターンシップも開催しています。

参考文献


  1. Charlie Beckett. 2019. New Powers, New Responsibilities. A Global Survey of Journalism and Artificial Intelligence. https://blogs.lse.ac.uk/polis/2019/11/18/new-powers-new-responsibilities/ (Accessed: 2022-12-23).
  2. Iz Beltagy, Kyle Lo, and Arman Cohan. 2019. SciBERT: A Pretrained Language Model for Scientific Text. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pages 3615–3620, Hong Kong, China. Association for Computational Linguistics.
  3. Ross Taylor, Marcin Kardas, Guillem Cucurull, et al. 2022. Galactica: A Large Language Model for Science. https://galactica.org/ (Accessed: 2022-12-23).
  4. Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, et al. 2020. BioBERT: A Pre-trained Biomedical Language Representation Model for Biomedical Text Mining, Bioinformatics, Volume 36, Issue 4, 15, pages 1234–1240.
  5. Jacob Devlin, Ming-Wei Chang, Kenton Lee, et al. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.
  6. 石原慧人, 石原祥太郎, 白井穂乃. 2021. BertSum を用いた日本語ニュース記事の抽象型要約手法の検討. 2021 年度人工知能学会全国大会(第 35 回)論文集.
  7. 高橋寛武, 石原祥太郎, 白井穂乃. 2022. 単語分散表現を用いた新型コロナウイルスによる意味変化検出. 言語処理学会第 28 回年次大会発表論文集.
  8. Shotaro Ishihara, and Yasufumi Nakama. 2022. Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. In Proceedings of Computation + Journalism Conference 2022. New York, NY, USA.
  9. Shotaro Ishihara, and Yasufumi Nakama. 2022. Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. In Proceedings of 2022 IEEE International Conference on Big Data (Industrial & Government Track).
  10. Shotaro Ishihara, and Hono Shirai. 2022. Nikkei at SemEval-2022 Task 8: Exploring BERT-based Bi-Encoder Approach for Pairwise Multilingual News Article Similarity. In Proceedings of the 16th International Workshop on Semantic Evaluation.
  11. 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦. 2022. 決算短信からの業績要因文の抽出に向けた業績発表記事からの訓練データの生成. 言語処理学会第 28 回年次大会発表論文集.
  12. 増田太郎, 石原祥太郎, 吉田勇太. 2022. 企業の業界分類予測における共変量シフト問題の抑制. 第 14 回データ工学と情報マネジメントに関するフォーラム.
  13. 馬嶋海斗, 石原祥太郎. 2022. ニュース用語を含むヒント付きクロスワードパズルの自動生成. NLP 若手の会第 17 回シンポジウム.
  14. Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai. 2022. Semantic Shift Stability: Efficient Way to Detect Performance Degradation of Word Embeddings and Pre-trained Language Models. In Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 205–216, Online only. Association for Computational Linguistics.
石原祥太郎
DATA SCIENTIST石原祥太郎

Entry

各種エントリーはこちらから

キャリア採用
Entry
新卒採用
Entry
短期インターン
Entry
カジュアル面談
Entry