NIKKEI TECHNOLOGY AND CAREER

データマイニングの国際学会「CIKM 2023」とPythonのカンファレンス「PyCon APAC 2023」で発表しました

API/バックエンドチームの馬嶋です。 本記事は、2023 年 10 月にイギリス・バーミンガムで開催されたデータマイニングの国際学会「CIKM 2023」と東京で開催された Python のカンファレンス「PyCon APAC 2023」の参加・発表報告です。

発表テーマ

今回、CIKM 2023、PyCon APAC 2023 の双方で「ニュース用語を用いたヒント付きクロスワードパズル作成」というテーマで発表しました。 日経の所有する日経電子版のデータを用いて、クロスワードパズルとそれぞれの単語のヒントを自動生成するという取り組みで、自然言語処理、最適化などの技術を用いています。 この取り組みの技術面にフォーカスした論文が short paper として CIKM 2023 で、実装面にフォーカスしたプロポーザルが 30 分枠の発表として PyCon APAC 2023 で採択されました。 なお、これらは私が昨年日経イノベーション・ラボで長期インターンをしていた際の成果物をまとめたものとなっています。 詳しい内容につきましては、以下のリンクを参照ください。

CIKM 2023

CIKM はデータマイニングの国際学会で、32 回目となる CIKM 2023 は 10 月 23-25 日(本会議)の日程でイギリス・バーミンガムで開催されました。 採択率は long paper が 24 %、short paper が 27 %で、現地には 750 人の参加者が集いました。

cikm_opening
メインセッションで行われたオープニング

本会議では 8 つのセッションが並行して開かれ、セッション 1(メインセッション)がハイブリッド開催、それ以外のセッションはオフラインのみでの開催でした。 そして、1, 2 日目の昼休み、セッション終了後には short paper のポスター発表が行われ、私は 1 日目に発表しました。 ポスター発表は計 3 時間の長丁場で、特に昼休みのポスター会場は多くの参加者で賑わっていました。

cikm_poster
ポスター発表の様子(学会の公式X (https://x.com/cikm2023/status/1716496618457849957) より引用)

発表は推薦システムや Graph Learning についてのものが多く、応用寄りの研究も多い印象を受けました。 発表者は約 7 割がオフラインであり、セッション間の休憩時間も活発に議論が行われていました。

PyCon APAC 2023

PyCon は Python 言語の年次カンファレンスで、日本では通常 PyConJP として開催されますが、今年は PyCon APAC としてアジアを対象に開催されました1。 PyCon APAC 2023 は 10 月 27-28 日(本会議)の日程で TOC 有明コンベンションホールで開催され、YouTube でも配信されました2。 5 つのセッションが並行して開かれ、約半分のセッションは英語で発表が行われました。

発表内容は Python の機能の紹介やライブラリの活用方法の説明、企業や個人開発における応用事例の紹介など多岐に渡り、Python の機能の多さ、応用領域の広さを体感することができました。 また、多様な業界の企業がスポンサーをしており、スポンサーブースは活気に溢れていました。

印象的だった発表

CIKM 2023、PyCon APAC 2023 で印象的だった発表をまとめます

All about Sample-Size Calculations for A/B Testing: Novel Extensions & Practical Guide

  • https://dl.acm.org/doi/10.1145/3583780.3614779
  • A/B テストにおけるサンプルサイズの計算方法やベストプラクティスについてまとめられた論文
  • 内部相関が存在する場合における新たなサンプルサイズの計算方法を提案し、シミュレーションにより特定のシナリオで検出力、第一種過誤についての頑健さを検証
  • A/B テストのベストプラクティスについても、複数トピックについて陥りやすい落とし穴や対処法を議論

Combating Ad Fatigue via Frequency-Recency Features in Online Advertising Systems

  • https://dl.acm.org/doi/10.1145/3583780.3615461
  • 繰り返し同じ広告が表示されることによる広告疲れの影響を分析
  • 広告疲れの度合いを評価する新たな指標を提案
  • 提案した指標を自社のシステムに組み込むことでユーザーに表示される広告の多様性が増し、収益が向上したことを確認

Scalable Neural Contextual Bandit for Recommender Systems

  • https://dl.acm.org/doi/10.1145/3583780.3615048
  • 深層学習を用いつつ未知のユーザーの嗜好も効率的に探索するニューラル文脈バンディットについて、推薦システムで採用することを前提としたスケーラブルなアルゴリズムを提案
  • Epinet3の構造を参考に、深層学習ベースのトンプソンサンプリングの不確実性推定における計算コストを最小限に
  • ニュースと動画共有サービスのデータセットを用いた実験により、提案手法が計算コストと性能を両立していることを確認

Pythonで一歩踏み出すバイナリの世界

  • https://2023-apac.pycon.jp/timetable?id=QEHREX
  • Python の基本的な組み込み関数を用いてバイナリやバイト列について解説
  • テキストファイルやデータベースファイルの内部の構造を段階を踏みながら説明
  • ただ Python を利用しているだけでは触れることの少ない概念について知ることができる

感想

どちらのカンファレンスでも発表中の質疑応答、発表後の議論、懇親会やスポンサーブースでの交流などから様々な刺激をいただき、オフライン開催のメリットを享受することができました。 そして、機械学習を中心とする研究活動、Python を用いたプログラミングはどちらも日経とは切り離せないものであることを再認識しました。 CIKM からの帰国翌日に PyCon での発表を行うハードスケジュールでしたが、非常に貴重な経験ができました。 カンファレンスの準備、開催に携わった方々に心から感謝申し上げます。

日本経済新聞社では、対外発表を含む研究開発や Python を用いたプロダクト開発を行っています。 少しでも業務内容にご興味のある方はぜひ、採用インターンのページをご覧ください。


  1. https://pyconjp.blogspot.com/2023/04/pyconapac2023-ja.html
  2. 著者の発表はアーカイブとして公開されていません
  3. https://arxiv.org/abs/2107.08924
馬嶋海斗
ENGINEER馬嶋海斗

Entry

各種エントリーはこちらから

キャリア採用
Entry
新卒採用
Entry
カジュアル面談
Entry