日本経済新聞社でデータサイエンティストとしてサービス開発に関わっている石原です。 2月19日にオンライン開催された国際シンポジウム「Computation + Journalism 2021」に参加し、口頭発表しました。 本記事では、シンポジウムの概要と口頭発表の内容、個人的に気になった発表を紹介します。
開催概要
「Computation + Journalism」は、ニュースメディアにおける情報技術の活用を題材としたシンポジウムです。 複数の大学や企業などがスポンサーになるなど、産学連携の色合いが強い印象があります。 2019年までは会場に集まる形で開催されていましたが、コロナ禍の2020年は開催直前で中止になり、今年は史上初のオンライン開催になりました。
プラットフォームとしては「ohyay」を使用しました。 運営によると、約900人以上が参加登録し、一度でも接続したのは879人、最大の同時接続数は415だったそうです。 なお開催時間は日本時間の23時45分〜翌8時で、オンライン開催の弊害を感じつつ参加していました。
プログラムは、基調講演・パネルディスカッション・口頭発表・ポスター発表で構成されていました。 今年のテーマが「Data Journalism in an Expanded Field」と掲げられていたこともあり、発表でもデータジャーナリズム関連の話題が多かったです。COVID-19に関する内容も目立ちました。 基調講演では、ニューヨーク・タイムズでData Editorとして働くAmanda Coxさんらが発表しました。 発表動画は、Twitterのハッシュタグ #cplusj21 で随時公開されています。
抽出型要約技術と編集現場での活用
発表の公募も実施され、日本経済新聞社からは「Proposal for Extractive Summarization Method of News Articles and Collaboration with Editors in Newsroom」と題した私の投稿が採択されました。 なお中止となった2020年にも、2件の論文が採択されています。
- Shotaro Ishihara and Norihiko Sawa, Age Prediction of News Subscribers Using Machine Learning.
- Norihiko Sawa, Test headlines on News Media by Multi-Armed Bandit: Case Study of Multi-Armed Bandit to raise CTR of Articles.
私の発表では、新聞記事の抽出型要約技術について編集現場での活用方法を議論しました。 具体的には、記事の本文テキストから「3行のまとめ」を作成する方法を提案し、編集者の業務の中にどのように組み込んでいくかも提言しました。 質疑応答や発表後には、多くの参加者と文抽出のロジックや活用方法などについて活発な議論を交わすことができ、有意義な時間となりました。 技術的な詳細については、6月開催の「人工知能学会全国大会」のオーガナイズドセッション「ニュースメディアのデータサイエンス」で口頭発表する予定です。

気になった発表
気になった発表をいくつか取り上げ、概要をまとめます。
Data Journalism and Metrics: Data Visualization Performance from the Perspective of Web Analytics (PDF)
- データジャーナリズムに該当するようなインタラクティブな記事と、同トピックを扱う静的な記事の閲覧数などの各種指標を比較分析
- 前者の方が平均滞在時間が長く、再訪問率も高いという分析結果をまとめています
Disarming Loaded Words: Addressing Gender Bias in Political Reporting (PDF)
- ジェンダーバイアスを含む可能性のある文章を検知するツールの提案
- 先行研究に倣い、Word2Vecで単語の埋め込み表現を獲得し、対象の文章内から性別に関する単語の出現を検知しています
- キーワードリストによる手法と組み合わせて、ツール全体としての完成度を高めているのが印象的でした
Predicting Elections using Live Data at The Washington Post (PDF)
- ワシントン・ポストから、一部の選挙区の投票結果からリアルタイムに当確を予測する仕組みについての発表
- 2019年のバージニア州の選挙で初めて使ったモデルと結果を考察
- 「一部の選挙区での大勝は、必ずしも他の選挙区の結果と相関しない」「開票作業の都合で小さめの選挙区での結果から判明していく傾向にあり、結果が覆される可能性がある」などの難しさがあるそうです
- 結果が判明している選挙区の情報を活用して、判明していない選挙区を予測しにいく設計になっています
終わりに
本記事では「Computation + Journalism 2021」の概要と口頭発表の内容、個人的に気になった発表を紹介しました。 日本経済新聞社は社長直轄の研究開発組織「日経イノベーション・ラボ」を2017年に設立するなど、ウェブやメディアに関連する先端技術に積極的に取り組んでいます。 メディアの未来を作る仕事に興味のある方は、ぜひお気軽にご連絡ください。