研究開発部署「日経イノベーション・ラボ」の石原です。
本記事では、世界最大規模の旅行代理店サイト「Booking.com」が主催したデータ分析コンペティション「Booking.com WSDM WebTour 2021 Challenge」での取り組みを紹介します。 同コンペティションは、検索やデータマイニングを題材とした国際学会「The 14th ACM International WSDM Conference(WSDM 2021)」のワークショップ「WebTour2021」で開かれました。 私は社外の知人2人とチームを組み、最終的な予測性能を競う順位表で、参加登録者820人のうち6位に入りました。 分析結果をまとめた論文は、同ワークショップ内で採択・公開されています。
コンペティション概要
同コンペティションでは、ユーザや地名が匿名化された実際の宿泊予約に基づくデータセットが与えられ、ユーザの次の目的地を予測する課題に取り組みました。 たとえば「都市A -> 都市B -> 都市C」と宿泊予約した旅程に対して、次に移動する可能性が高い都市を予測します。 この予測が実現すると、ユーザの予約時に追加日程を促す推薦機能が実装できると説明されていました。 性能の評価指標は「Precision@4」(4つの候補を挙げた上での正解率)でした。
開催期間は昨年12月〜今年1月で、約1カ月半にわたってオンラインで作業を進めました。
解法概要
チームメンバと協力し、最終的には4種類の「Long short-term memory(LSTM)」と呼ばれるニューラルネットワークのモデルを実装し、予測値を重み付き平均しました。 詳細は論文に譲りますが、ニューラルネットワークの入力・構造などに工夫を凝らしています。 論文から引用した次の表に示す通り、ベンチマークとして実装したモデルから徐々に改善し、最後に予測値を平均することでスコアを伸ばしました。

振り返り
コロナ禍で在宅の日々が続く中、旅行という身近で興味深い課題に取り組めたのは非常に有意義でした。 上位チームの解法からの学びも多く、優勝したNVIDIAチームの取り組みからは時系列問題におけるニューラルネットワークの奥深さを痛感しました。 「best paper award」も受賞した2位のSyneriseチームはグラフ表現を用いた独創的な解法で、問題の捉え方の多様さを知りました。
今回の題材の「都市」を「ニュース記事」に置き換えると、サイトを回遊するユーザに対する記事推薦問題と捉えられます。 ニュース記事には都市に比べて次のような難しさがあり単純な流用はできませんが、コンペティションを通じて得られた知見は今後の業務への活用を見込んでいます。
- 新規アイテムが頻繁に登場する
- 登場後にアイテムの価値が逓減していく
- アイテムの種類数が多い
終わりに
本記事では、私が参加したデータ分析コンペティションでの取り組みを紹介しました。 日本経済新聞社はウェブやメディアに関連する先端技術を探究しつつ、積極的な事業活用に挑戦しています。 メディアの未来を作る仕事に興味のある方は、ぜひお気軽にご連絡ください。