NIKKEI TECHNOLOGY AND CAREER

国際学会のワークショップ「The 2021 SIGIR Workshop On eCommerce」で論文採択

研究開発部署「日経イノベーション・ラボ」の石原です。

本記事では、国際学会のワークショップ「The 2021 SIGIR Workshop On eCommerce (SIGIR eCom 2021)」に採択された論文の概要を紹介します。 同ワークショップでは、与えられたデータセット・課題に対する性能を競う「Data Challenge」が開催されました。 筆者は社外の知人2人と共に参加し「Purchase Intent Prediction」部門で3位に入りました。 採択された論文では、このコンペティションでの分析結果について、特に機械学習モデルの検証方法に焦点を当ててまとめています。

Shotaro Ishihara, Shuhei Goda, and Hidehisa Arai. 2021. Adversarial Validation to Select Validation Data for Evaluating Performance in E-commerce Purchase Intent Prediction. In Proceedings of ACM SIGIR Workshop on eCommerce (SIGIR eCom’21). ACM, New York, NY, USA, 5 pages.

PDFはワークショップのウェブサイトで公開されています。

コンペティション概要

「SIGIR eCom」は、情報検索分野の最重要国際学会の一つである「SIGIR」内で、2017年から開催されているワークショップです。 その名の通り、eコマース(電子商取引)領域での話題を中心に取り扱っており、今年は7月15日に開催されました。 先立って4〜6月に開かれていた「Data Challenge」では、実際のeコマースのウェブサイトのアクセスログを解析する課題が提供されました。

同コンペティションには、将来的に購入する商品を予測する「Next Item Prediction / Subsequent Items Prediction」部門と、カートに追加された商品が実際に購入されるか否かを予測する「Purchase Intent Prediction」部門がありました。 筆者らはチームとして両方の部門に参加し、筆者は主に後者を担当しました。

課題の概要を次の図に示します。 入力としてセッションの途中までのアクセスログが与えられ、出力はその後に購入に至るかの予測値(0か1)でした。 興味深かったのは、カート追加後のアクセスログが0〜10個の範囲で与えられていた点です。 たとえば「カート追加後に別の商品を見ている場合は購入を止めるかもしれない」などの仮説が考えられます。

image.png

解法概要

2種類の機械学習モデルを使った解法の概要を、次の図に示します。 図に示す通り、勾配ブースティング決定木の「LightGBM」と、ニューラルネットワークのモデルを利用しました。

image.png

今回の課題の難しさに、データセットが時系列で学習用と評価用に分割されている点や、正解ラベルが不均衡な点などがありました。 論文では、これらの点を考慮した機械学習モデルの検証方法について、具体的に解説しています。

image.png

終わりに

本記事では、国際学会のワークショップに採択された論文の概要を紹介しました。

ワークショップ当日は「Subsequent Items Prediction」部門で優勝したNVIDIAチームらの発表がありました。 詳細はNVIDIAが公開したブログ記事に譲りますが、自分たちが試せていなかった手法の有用性を知ることができ、良い学びの機会となりました。

日本経済新聞社はウェブやメディアに関連する先端技術を探究しつつ、積極的な事業活用に挑戦しています。 メディアの未来を作る仕事に興味のある方は、ぜひお気軽にご連絡ください。

石原祥太郎
DATA SCIENTIST石原祥太郎

Entry

各種エントリーはこちらから

キャリア採用
Entry
新卒採用
Entry
カジュアル面談
Entry