NIKKEI TECHNOLOGY AND CAREER

日経電子版のデータを用いた機械学習コンペティションをKaggle Days Tokyoで開催しました

日本経済新聞社は2019年12月12日、「Kaggle Days Tokyo」[1]というイベントで、日経電子版[2]のデータを用いた機械学習コンペティションを開催しました。 「日経電子版ユーザの年齢推定」という題材に対し、世界各地から集まった88チーム149人が予測モデルの性能を競いました。

KaggleやKaggle Days Tokyoの概要などは、イベント開催前に公開した「Kaggle Days Tokyoで日経電子版のデータを用いたコンペティションを開催します」[3]をご参照ください。

コンペティションの概要

Competition Page (画像は[4]から引用)

今回のコンペティションの題材は「日経電子版ユーザの年齢推定」でした。

データセット

提供したデータセットは、大きく分けて「ユーザの記事閲覧ログ」と「記事データ」の2種類です。

ユーザの記事閲覧ログ

  • ユーザID
  • 記事ID
  • 記事閲覧時刻
  • 読了率・閲覧時間
  • 閲覧元情報(地域法人IP等)
  • 閲覧デバイス・OS・ブラウザ

記事データ

  • 記事ID
  • 記事の見出し・本文
  • 記事のジャンル・キーワード

参加者は上記のような情報を基に、機械学習を用いてユーザIDに紐づく年齢を予測しました。 正解の年齢を与えた学習用のデータセットは14088人、予測用のデータセットは9399人という規模感のデータセットでした。

出題の背景

今回の題材は、日本経済新聞社の中で実際に取り組まれている課題です。

日経電子版ではユーザに良質な体験を提供するべく、個々人に適した記事の推薦などのパーソナライズ機能の充実を目指しています。 パーソナライズの鍵となる要素の一つは、年齢・性別などの属性情報です。

現在は「日経ID」[5]に登録してもらう形で、ユーザの属性情報を取得しています。 しかし、ユーザに登録の手間を強いてしまう点、日経IDを持たないユーザも存在する点[6]などの問題が存在していました。

ユーザの記事閲覧ログや記事データから年齢を予測するモデルが構築できれば、これらの問題に対応できる可能性があります。

ルール

コンペティションは午前10時半に始まり、午後6時半までの8時間という短期決戦でした。 参加者は最大3人のチームを組むことができ、外部データは日本語の辞書のみを利用可能としていました。 提出回数はチーム全体で30回まででした。

評価

参加者が提出した予測値は事前に公表していた指標で評価し、性能の優劣を決めました。 今回の評価指標には「Root Mean Square Error(RMSE)」[7]を利用しました。 RMSEは、今回のように大小のある数値を予測する場合の代表的な評価指標です[8]。 予測誤差を表すため、数値が小さいほど優れた結果を示します。

コンペティション進行中の8時間は、予測用のデータセットのうち25%のみを用いて計算した暫定のスコアに基づく順位が表示されていました。 参加者の方々は、各チームの提出ごとに変動する順位表を見ながら一喜一憂していました。

最終結果

予測用のデータセットのうち残りの75%で算出されたスコアに基づく最終結果は、次の通りとなりました(上位10チームを抜粋)。

Private Leaderboard (画像は[9]から引用)

上位陣の取り組み

上位陣の取り組みはいずれも、ユーザの記事閲覧ログと記事データからテーブル形式の特徴量を生成し、機械学習アルゴリズムで予測する方針で一致していました。

優勝したのは、DeNAのデータサイエンティスト3人で構成されたチームでした[10]。 ユーザの記事閲覧ログから特徴量を作るだけでなく、自然言語処理技術を活用し記事データから効果的な特徴量を抽出していた点が決め手になったと推察されます。 機械学習アルゴリズムとしては主に「LightGBM」[11]を採用していました。

2位のチームは、大量の特徴量を生成しLightGBMで予測するアプローチでした。 終了後のインタビューでは「恐らく10000以上の特徴量を作った」と話しており、会場からは驚きの声があがっていました。

3位のチームは、暫定の順位表から3つ順位を上げました。 主にユーザの記事閲覧ログを中心に丁寧に取り組んでいた結果ではないかと感じています。 上位3チームの中では唯一日本語話者が存在せず「記事データはあまり有効活用できなかった」と振り返っていました。

おわりに

本記事では、Kaggle Days Tokyoで開催された日経電子版のデータを用いた機械学習コンペティションについて報告しました。

日本経済新聞社はリアルタイムデータ処理基盤 「Atlas」を内製開発[12]するなど、積極的なデータ活用に取り組んでいます。 今回のコンペティションでは、記事データから有効な特徴量を抽出する手法など、優秀な「Kaggler」の取り組みからたくさんの気付きが得られました。 獲得した知見は、ユーザにより良質な体験を提供できるよう、サービスの改善などに活用していきたいと考えています。

このコンペティションに関して、Twitter[13]やブログ[14][15][16][17]などでも多くの言及を頂きました。 参加した方々に少しでも楽しんでいただけたならば、題材やデータセットを提供した立場として嬉しい限りです。

テクノロジー・メディアを目指す日本経済新聞社は、新聞事業を出発点としながら日経電子版などの情報サービスの開発に最新の技術を活用しています。 メディアの未来を作る仕事に興味のある方は、ぜひお気軽にご連絡ください。

https://hack.nikkei.com/jobs

参考文献

[1]: Kaggle Days Tokyo, https://kaggledays.com/tokyo/ (accessed 15 January 2020).

[2]: 日経電子版, https://www.nikkei.com/ (accessed 15 January 2020).

[3]: Kaggle Days Tokyoで日経電子版のデータを用いたコンペティションを開催します — HACK The Nikkei, https://hack.nikkei.com/blog/kaggle_days_tokyo/ (accessed 15 January 2020).

[4]: Kaggle Days Tokyo | Kaggle, https://www.kaggle.com/c/kaggle-days-tokyo (accessed 15 January 2020).

[5]: 日経ID利用案内, https://www.nikkei.com/lounge/help/ (accessed 15 January 2020).

[6]: 日経電子版アプリで有料サービスを利用するには, https://support.nikkei.com/app/answers/detail/a_id/3202/~/日経電子版アプリで有料サービスを利用するには (accessed 15 January 2020).

[7]: Kaggle Days Tokyo | Kaggle, https://www.kaggle.com/c/kaggle-days-tokyo/overview/evaluation (accessed 15 January 2020).

[8]: 『Kaggleで勝つデータ分析の技術』, 技術評論社, p.63, 2019.

[9]: Kaggle Days Tokyo | Kaggle, https://www.kaggle.com/c/kaggle-days-tokyo/leaderboard (accessed 15 January 2020).

[10]: Kaggle Days TokyoにおいてDeNAのデータサイエンティストが2名セッション登壇&オフラインコンペティションにて優勝・準優勝しました, https://dena.ai/news/201912-kaggle-days-tokyo2/ (accessed 15 January 2020).

[11]: LightGBM, Light Gradient Boosting Machine, https://github.com/microsoft/LightGBM (accessed 15 January 2020).

[12]: リアルタイムデータ処理基盤 「Atlas」 のソースコードを公開します — HACK The Nikkei, https://hack.nikkei.com/blog/atlas_opensource_project/ (accessed 15 January 2020).

[13]: Kaggle Days Tokyo Day 2 #kaggledaystokyo - Togetter, https://togetter.com/li/1442146 (accessed 15 January 2020).

[14]: Kaggle Days Tokyoで初対面のテーブルデータコンペ初心者とチームを組んで戦った話, http://py2k4.hatenablog.com/entry/2019/12/13/074204 (accessed 15 January 2020).

[15]: Kaggle Days Tokyo オフラインコンペ参戦記, https://naotaka1128.hatenadiary.jp/entry/kaggle_days_tokyo_2019 (accessed 15 January 2020).

[16]: Kaggle Days Tokyo のオンサイトコンペに参加しました! #kaggledaystokyo, https://nykergoto.hatenablog.jp/entry/2019/12/14/Kaggle_Days_Tokyo_のオンサイトコンペに参加しました!_%23kaggledaystokyo (accessed 15 January 2020).

[17]: Kaggle Days Tokyo Report #2, https://www.wantedly.com/companies/wantedly/post_articles/199502 (accessed 15 January 2020).

石原祥太郎
DATA SCIENTIST石原祥太郎

Entry

各種エントリーはこちらから

キャリア採用
Entry
新卒採用
Entry
短期インターン
Entry