NIKKEI TECHNOLOGY AND CAREER

言語処理学会第 29 回年次大会(NLP2023)のゴールドスポンサー&研究発表

3 月 13〜17 日に開催される言語処理学会第29回年次大会(NLP2023)で、日本経済新聞社から 3 件の研究発表を実施します。 ゴールドスポンサーとしても参加し、展示ブースも設置します。 日本経済新聞社の自然言語処理に関する取り組みや、データ提供に関する情報をお届けします。 ぜひお気軽に研究発表や展示ブースにお越しいただけると嬉しいです。 多くの皆さまと交流できる機会を楽しみにしています。

Q2-2 事前学習済み言語モデルからの訓練データ抽出:新聞記事の特性を用いた評価セットの構築と分析

  • Q2:ポスター:知識獲得・情報抽出(1)
  • 3 月 14 日(火)11:30-13:00
  • 石原祥太郎 (日経新聞)
  • 発表論文

大規模なデータセットを用いた事前学習済み言語モデルが数多くのタスクで高い性能を示している一方、訓練データの一部が抽出可能であるセキュリティ面の課題が重要性を増しています。 本稿では新聞記事の特性を考慮することで、事前学習済み言語モデルからの訓練データ抽出の議論に向け、現実世界に即した評価セットが構築できると主張します。 最初に先行研究を踏まえこの課題を整理し、日本語の新聞記事を用いた評価セットを提案します。 次いで新聞記事で独自にモデルを事前学習し、構築した評価セットに対して複数のモデルで訓練データ抽出を試みます。 条件ごとの記憶の度合いの変化を確認する実験を通じて、この課題に関するいくつかの知見を示し、将来展望を述べます。

D11-2 極性と重要度を考慮した決算短信からの業績要因文の抽出

  • テーマセッション 1:金融・経済ドメインのための言語処理(3)
  • 3 月 16 日(木)11:30-13:00
  • 大村和正 (京大), 白井穂乃, 石原祥太郎, 澤紀彦 (日経新聞)
  • 発表論文

本発表では、極性と重要度を考慮した決算短信からの業績要因文の抽出手法を提案します。 提案手法は 2 段階の学習データの自動生成から成り、重要度を考慮した要因分類器の学習データと極性分類器の学習データを決算短信から生成します。 これらの自動生成データにより、業績要因文の抽出精度の改善と高精度な極性付与ができることを示します。 中規模な評価データを人手で構築し、この再現ができるように必要な情報を公開する予定です。

日本経済新聞記事オープンコーパス:新聞記事コーパスと形態・統語情報アノテーション

本発表では、2023 年 3 月に日本経済新聞社が公開する「日本経済新聞記事オープンコーパス」を紹介します。 同データをより有用な言語資源にするために、国立国語研究所により、国語研短単位形態論情報・国語研長単位形態論情報・文節境界・文節係り受けを付与し、Universal Dependencies 形式のデータも準備しました。

石原祥太郎
DATA SCIENTIST石原祥太郎
白井穂乃
ENGINEER白井穂乃

Entry

各種エントリーはこちらから

キャリア採用
Entry
新卒採用
Entry
カジュアル面談
Entry