この記事はNikkei Advent Calendar 2021の9日目の記事です。 日経イノベーション・ラボの澤です。ふだんは事業戦略の立案と研究開発を行っています。
本投稿では、既存OCRを超える精度の文字領域の検出と、それに基づくiOS版「紙面ビューアーアプリ」のUXの向上について紹介します。
紙面ビューアーアプリ内で、紙面上の任意の箇所をハイライト指定する機能の提供を開始しました。以下は当該機能の解説動画です。
後述しますが紙面イメージはただの画像ですが、この画像のように文字ごとの領域を特定しフロントエンドに渡すことで、文字単位でハイライトを引ける機能を実現しています。

紙面イメージとは
新聞紙面の印刷に使うCMYKデータをRGBに自動変換しデジタルサービスとして提供する画像のことを、「紙面イメージ」と呼んでいます。 組版時にはテキストやレイアウト情報を保持していますが、紙面イメージはPNGやWEBPなのでただの画像です。サービス提供時の最大解像度は 1ページ 4,000 x 5,392 px です。
紙面ビューアーとは
上述の紙面イメージを PC、スマホ、タブレットで見やすくしたアプリを紙面ビューアーと呼んでいます。 紙の紙面がそのまま閲覧できるだけでなく、以下のようなデジタルならではの機能を提供しています。
- 横書きテキストの呼び出し
- 記事保存
- 登録キーワードによる記事単位のハイライト
- 記事検索
- 印刷
紙面ビューアーメモ機能
iOS版の紙面ビューアーアプリを Apple Pencil ® に対応させ、メモ機能を搭載することにしました。 手描きのメモ機能を付加するだけでは他社のメモ・ペイントアプリに対する優位性に乏しいと考え、独自のハイライト機能を開発することにしました。
オミクロン株対策は11/30から。今日の朝刊1面。 #日経紙面ビューアーメモ pic.twitter.com/pAtuaHX7SW
— 日経電子版広報部 (@webkanpr) November 30, 2021
手描きでは ①まっすぐ、②狙った場所に 線を引くのは困難です。これに対処するため、ユーザーの入力を受けて描画すべき座標を特定する際のガイドとなる文字領域の座標情報の事前抽出アルゴリズムの検討を始めました。
紙面イメージ上の文字領域の抽出
既存のOCRは、ただの画像からテキスト情報を取得する機能として優れていますが、文字領域取得の観点では精度が十分ではありません。余白の大きな文字や離れた画のある文字では領域の同定が上手くいきません。新聞紙面上にある連数字と呼んでいる横並びの二桁の数字も精度を下げる一因となっていそうです。

新聞の文字レイアウトの特徴的なレイアウトに特化した手法を独自に生み出せば、文字領域抽出精度では既存手法を凌駕できると考えました。 下記の3段階に分けて処理を構築し、それぞれに新聞レイアウトの知識を活用しました。
- 段落の検出
- 行の検出
- 文字の検出
今後
高精度な文字領域の検出には成功したので、この情報を用いたテキストマッチングアルゴリズムの開発を行っています。
日経電子版では、朝刊・夕刊などの紙面コンテンツの本文をテキストとしても提供しています。1文字単位でかつ日経紙面で使用しているフォントを使ってもなおサービス提供に足る精度を実現することは困難ですが、このテキストを組み合わせることでのテキストマッチの精度向上を図ります。 「㍀」などの組文字や「11」などの連数字は紙面上では1文字扱いですがテキスト上は複数文字扱いであるためズレが生じます。また、似た形の文字と誤って判定してしまうこともあります。このような文字数のズレや誤判定の訂正を行うため、動的計画法を用いて曖昧性も加味したテキストマッチングを実装しています。この結果、高精度で文字認識結果の誤り訂正が可能になりました。
テキストマッチが実現できれば、この図のように任意の箇所のコピー機能を提供できるようになります。
最後に
画像全体に対していきなり既存のOCR技術を適応するのではなく、組版された文書画像に内在する構造を考慮した結果、文字領域の検出アプローチとして満足いく精度を実現することができました。
日本経済新聞社は先日創刊145周年を迎えましたが、今後も情報収集や経済活動を支援するためのイノベーションを続けていきます。
今なら Apple Pencil をお渡しするモニター募集中です。
https://s.nikkei.com/viewermemo
iOS版紙面ビューアーでのメモ・ハイライト機能のお試しと合わせて是非ご応募ください。
参考文献
[1]: Apple Pencil は、米国およびその他の国で登録されたApple Inc.の商標です。 https://developer.apple.com/jp/app-store/marketing/guidelines/ (accessed 4 December 2021).