NIKKEI TECHNOLOGY AND CAREER

【インターン体験記】小中学生向けコンテンツ開発を目指して

【編注】この記事は、日本経済新聞社のインターンシップに参加した石月由紀子さんによる寄稿です。 自身の大学での経験も活かして、記事の平易化に関する課題の整理や Web アプリの開発に取り組んでいただきました。


みなさん、こんにちは。長期インターンの石月と申します。 現在大学院修士課程 2 年に在籍しており、大学院では教育学を専攻しつつ、自然言語処理(NLP)に関する研究をしています。 私は 2022 年 10 月から約半年間、日本経済新聞社で長期インターンとして勤務しました。 本稿では、長期インターンって何をするの?ということや、インターンを経験したからこそ知ることができた日本経済新聞社の魅力について紹介します。

長期インターンをするまでの経緯

日経新聞のインターンに興味を持った理由

日経新聞に出会うきっかけは、父が日経電子版を購読していたことでした。その影響もあり、私は高校時代から日経電子版や紙面ビューアーを愛読していました。 また、大学で NLP を研究していることもあり、日本経済新聞社が NLP に関するさまざまな取り組みを行っていることは以前から知っていました。 夏の短期インターンの募集があることを知り、新聞というメディアそのものへの関心と、日本経済新聞社が有するクリーンかつ膨大なデータで何かを作ってみたいという気持ちから、まずは短期インターンに応募しました。

短期インターンから長期インターンへ

短期インターンでは、2 人ペアでの分析・開発を行いました。私たちのチームは読み手の年代を想定した記事タイトル推薦のための分析を行いました。3 日間という短い期間のなかではありましたが、より良いサービス提供のためのアイデアが溢れてきて、とてもワクワクしたのを覚えています。 短期インターン後、長期インターンのお誘いをいただきました。愛読してきた日経新聞に携われるまたとない機会だと思い、長期インターンとして勤務することに決めました。

インターンの内容

テーマ決め

私は教育学専攻というバックグラウンドを持っているため、新聞を教材として活用することに関心を抱いていました。そこで、小中学生向けサービスを作ることを最終目的とし、そのために必要な記事の平易化に取り組むことになりました。

新聞というメディアを教育のための手段に使う

日経新聞の記事は、一般的な書籍や新聞と比較して経済用語などが含まれる傾向があることから、小中学生にとっては難解な語彙が多く、そのままでは読みづらいという現状があります。そこで、NLP における文章平易化タスクの先行研究を踏まえ、記事の平易化には語彙自体の平易化と、文章全体の読みづらさの解消の 2 つの観点が必要であると分析しました。 また、新聞を学習に役立てるためには、学習者にとって既知の知識と未知の知識を区別し、後者を新しい知識として身につけられるようにすることが必要です。このような観点から、学習者の年齢を想定したうえで、記事を平易化することを目標としました。

記事平易化のための Web アプリ

まず、文章全体の読みづらさの解消に着目し、語彙以外の部分で日経記事の読みにくさを助長してしまっている要因として、漢字にふりがなが振られていないことと、会社名をはじめとする固有名詞が頻出し、未知の経済・政治用語との区別がつかず混乱が生じることの 2 点が挙げられると考えました。これらの解消に取り組むべく、読みづらさを解消した状態で記事を表示できるような Web アプリを設計し、デモの作成まで実施しました。

今回作成したデモで何ができるか

上述した読みづらさの要因を解消するため、今回のデモでは次の 3 つの機能を実装しました。

  • 学習者の学年に応じて未修漢字にふりがなを振る
  • 語尾を会話調に変化させる
  • 会社名や人名などの固有表現をハイライトする

デモサイトの開発にあたり、今回はフレームワークとして Streamlit を使用しました。 なお本稿では「日本経済新聞記事オープンコーパス」に含まれる記事を例として表示しています。

表示形式を選択し、語尾を変えられる

デモ画面上で学習者の学年を選択することで、対象学年の未修漢字にふりがなを振るようにしました。今回、ルビ振りには Yahoo!デベロッパーネットワークの API を利用しました。

対象学年の未修漢字にルビを振る

小学校の教科書では敬体(ですます調)での表記が取り入れられていることから、本デモでは語尾を変えられるようにしました。デモ画面上で表示設定が切り替えられるようになっており、「ふりがな+語尾をかえる」という設定を選択することで、文末の表現を敬体に変化させることができます。この機能は、社内で提供されている API を活用して実装しました。

ルビを振り、固有名詞に着色する

固有表現の色付けには日本語の自然言語処理ライブラリである GiNZA を使用し、固有表現抽出とその可視化を行いました。今回のデモでは、固有表現として組織名、地名、人名を抽出し、それぞれの名詞に色付けを行いました。また、デモ画面上では GiNZA のモデルを GiNZA+従来型モデルと GiNZA+Transformer モデルの 2 種類で比較できるようにしています。今後は日本経済新聞社が保有する社名等の情報を活用し、タスクに特化した辞書の設計などを行うことにより、可視化精度を改善できればと思います。

今後の展望

今回は簡易的なデモの作成にとどまりましたが、今後は実応用に向けた改善ができればと考えています。具体的には、語彙平易化の実現や、今回着手できなかった観点からのリーダビリティ向上に取り組めればと思います。今回のデモ作成の経験が、教育現場で活用されるようなコンテンツ・アプリの開発に繋がることを期待しています。

勤務環境

私は首都圏在住ではないため、今回のインターンは完全リモートワークでの勤務となりました。メンター社員さんとのコミュニケーションは Slack や Zoom を活用しました。少しでも疑問点があれば Zoom などを使ってすぐに疑問を解決できるような環境があり、リモートワークでも安心して取り組むことができました。また、大学院の講義や研究で忙しいなかではありましたが、勤務日程は柔軟に対応していただくことができたため、学業とうまくバランスをとりながら稼働することができました。

インターンをやってみて

完全リモートワークということもあり、当初は不安もありましたが、自分の興味を形にしていく過程で、常にワクワクしながら勤務することができました。日本経済新聞社の社風や、社員さんの人柄を知ることができたのも貴重な経験になりました。また、自分が今取り組んでいることだけでなく、社内で他にどのような取り組みがなされているのかということにも関心を持てるようになり、視野がぐっと広がりました。 大学の中だけで研究活動を行っていると、自分の研究が実社会の中でどのように応用できそうかを考える機会がなかなか持てなかったりしますが、今回のインターンは自分のアイデアを使って社会にどのような形で貢献できるだろう?ということを考えるきっかけとなりました。

謝辞

短期インターン、長期インターンともに社員のみなさんの手厚いサポートのおかげで、大変充実した時間を過ごすことができました。特に、データサイエンティストの石原さんには様々なアドバイスをいただき、また、業務を円滑に行うための多岐にわたるご支援をいただきました。ありがとうございました。

石原祥太郎
DATA SCIENTIST石原祥太郎

Entry

各種エントリーはこちらから

キャリア採用
Entry
新卒採用
Entry
短期インターン
Entry
カジュアル面談
Entry