研究開発部署「日経イノベーション・ラボ」の石原です。
3月14〜18日に開催される言語処理学会第28回年次大会(NLP2022)で、日本経済新聞社から2件発表します。 当日の議論や懇親会などを通じて、多くの皆さまと交流できる機会を楽しみにしています。 ぜひお気軽にポスター発表にお越しいただけると嬉しいです。
開催前の11日には、NLP若手の会懇親会 (YANS懇) 2022にも参加します。 2分間程度のライトニングトークを実施予定です。 日本経済新聞社での自然言語処理に関する取り組みなど、ざっくばらんにお話する機会になればと考えています。
PH3-5 決算短信からの業績要因文の抽出に向けた業績発表記事からの訓練データの生成
- ポスター発表:2022年3月17日(木)9:00〜10:20
- ○大村和正 (京大), 白井穂乃, 石原祥太郎, 澤紀彦 (日本経済新聞社)
- 発表論文(4月30日公開)
決算短信とは、上場企業が決算発表の際に開示する当期の業績等をまとめた書類です。 決算短信から業績に関わる要因が記述された文を高精度に抽出できれば、投資支援や業績発表記事の作成補助として非常に有用だと考えられます。 本研究では、決算短信からの業績要因文の抽出に向けた深層学習モデルを構築するために、業績発表記事から単純なルールで訓練データを生成する手法を提案します。 提案手法はデータ構築が容易であるという特徴を持ち、再現率(Recall)の高い抽出モデルが構築されることを示しました。
PT3-8 単語分散表現を用いた新型コロナウイルスによる意味変化検出
- ポスター発表:2022年3月17日(木)9:00〜10:20
- ○高橋寛武 (independent researcher), 石原祥太郎, 白井穂乃 (日本経済新聞社)
- 発表論文(4月30日公開)
本研究では日本語の新聞記事データを題材に、新型コロナウイルス感染症で意味が変化した単語を検出する手法を提案します。 最初に実データを用いて時系列の推移で単語分散表現の性能が悪化する可能性を検証し、単語の意味変化を検出する意義を議論します。 次に先行研究に独自の工夫を施した手法を用いて、意味が変化した「コロナ」「まん延」といった単語を導出しました。 最後に単語分散表現全体の変化度合いを計算する方法を提案し、新型コロナウイルス感染症による単語の意味変化の大きさを確認しました。
編集履歴
5月2日: 発表論文へのリンクを追加しました。