NIKKEI TECHNOLOGY AND CAREER

NLP若手の会(YANS)第16回シンポジウムの聴講&ハッカソン参加録

研究開発部署「日経イノベーション・ラボ」の石原です。

8月30、31日にオンライン開催された研究シンポジウム「NLP若手の会(YANS)第16回シンポジウム」に参加しました。 YANSへの参加は昨年に続き2回目です。 昨年は「新聞記事での共起回数を用いた関連企業の抽出」[1]の題目で発表しましたが、今年は聴講参加でした。

チュートリアルやポスターセッションの聴講に加えて、2019年以来2年ぶりに開催されたハッカソンにも参加しました。 チュートリアルやハッカソンの発表資料は、公式の開催報告記事で公開されています。

チュートリアル

チュートリアルは下記の2本で、共に個人的な関心領域と近い話題が体系立てて紹介され、参考になる部分が多くありました。

  • 馬場 雪乃 氏(筑波大学): 「Human-in-the-loop 機械学習」
  • 渡辺 太郎 氏 (NAIST): 「Back to the noisy channel」

前者は、より良い機械学習モデルを開発・運用するために人間がどのように関わっていくかを議論した内容です。 正解データのラベル付けや熟練者からの知識抽出、モデルの出力の活用方法などは、事業会社の中で情報技術を活用する上で必要不可欠な視点です。 私も今年の人工知能学会全国大会で編集業務支援に向けた記事要約の仕組みについて発表しました。[2]

後者は、学習データの誤りに対して頑健なニューラル機械翻訳の研究紹介でした。 講演の終盤には文書分類・質問応答・誤り訂正などへの事例もあり、幅広い応用事例を知る機会となりました。

ポスターセッション

gatherというプラットフォーム内に会場が設営され、ポスター発表に参加しました。 萌芽的な内容が多いYANSの特性を考慮し、個別の発表の具体的な内容については言及しませんが、さまざまな研究のアイディアに触れる刺激的な2日間でした。

個人的には、誤り訂正に関する話題が多かったのが印象的でした。 日本経済新聞社でも誤り訂正に関する研究を進めており[3]、多種多様な取り組みは非常に興味深かったです。

ハッカソン

2日間の開催に先立って、8月16日からはハッカソンも開催されました。 開催期間は2週間で、課題はWikipediaからの属性値抽出(CompanyとCity)でした。 3、4人で構成される団体戦で、合計5チームが参加しました。

私が参加したチームAの取り組みは、発表資料GitHubで公開しています。 暫定の順位表では全2部門で1位となり、別のデータを用いた最終的な結果は2位でした。

Leaderboard

ハッカソンでは、ニューラルネットワークを用いた固有表現抽出の難しさを感じました。 今回のデータを愚直に扱うと50GBのRAMを持つマシンでも処理できない場合があり、並列化やバッチサイズの調整などの良い練習にもなりました。 日本語版「CANINE」の「SHIBA」を使っていたチームもあり、他チームの取り組み報告を聞くのも楽しかったです。

終わりに

本記事では、参加したNLP若手の会(YANS)第16回シンポジウムの概要を紹介しました。 日本経済新聞社はウェブやメディアに関連する先端技術を探究しつつ、積極的な事業活用に挑戦しています。 メディアの未来を作る仕事に興味のある方は、ぜひお気軽にご連絡ください。

参考文献

[1]: 石原祥太郎 (2020). 新聞記事での共起回数を用いた関連企業の抽出. NLP若手の会 (YANS) 第15回シンポジウム, 2020年9月23日.

[2]: 石原祥太郎, 澤紀彦 (2021). MMRによる文選択とTF-IDFによる文圧縮を用いたニュース記事要約. 2021年度人工知能学会全国大会(第35回)論文集.

[3]: 中島寛人, 山田剛 (2018). 誤り文の自動生成による校正エンジンの学習. 言語処理学会第24回年次大会(NLP2018)発表論文集.

石原祥太郎
DATA SCIENTIST石原祥太郎

Entry

各種エントリーはこちらから

キャリア採用
Entry
新卒採用
Entry
カジュアル面談
Entry