6 月 6〜9 日に開催される2023 年度人工知能学会全国大会(JSAI2023)で、2 件の研究発表を実施します。 2023 年 4 月に入社した馬嶋海斗も、大学院修士課程での 研究成果 を発表予定です。
日本経済新聞社ではさまざまな形で、データサイエンスの業務活用や研究発表に取り組んでいます。 学生向けインターン や キャリア採用 に関する情報もお話しできるので、ぜひお気軽にお声がけください。 多くの皆さまと交流できる機会を楽しみにしています。
[2H1-OS-3a-01] 政治資金収支報告書のOCRによる政治資金データベースへの試み
- オーガナイズドセッション » OS-3 計算社会科学
- 2023 年 6 月 7 日(水)09:00〜10:40 H 会場(中会議室 B1)
- 〇山田健太、青田雅輝、並木亮、横山源太朗
- https://confit.atlas.jp/guide/event/jsai2023/subject/2H1-OS-3a-01/advanced
政治資金収支報告書は政治団体によって提出され、政治資金規正法により公表が義務付けられています。 しかし、これらの報告書は多くが手書き文字を含む紙媒体であり、機械判読に適さず、オープンデータの定義を満たしません。 そのため、これらのデータをデータベース化することで透明性が向上し市民による政治的な意思決定への参加が促進されると考えられます。 本研究では、政治資金収支報告書の「(その 2) 収支の状況」に限定し、光学式文字認識(OCR)技術を用いてデータの抽出と整備を行いました。 具体的には、2019 年に提出された政治資金収支報告書に対し収支の状況ページからデータを抽出し、データセットを構築しました。 また、作成したデータセットを元に分析例を示しました。 本研究は政治資金データベースの作成に向けた第一歩であり、今後も政治資金報告書の形式やデータの改善に取り組むことが求められます。 政治資金データベースの構築はより透明で民主的な社会を実現するための重要な一歩であると考えられます。 今後は政治資金の流れをグラフ DB などの形で整備・分析することを予定しております。 共同研究などご興味をお持ちいただけましたら、ぜひお気軽にご連絡ください。
[3Xin4-58] マルチモーダル機械学習によるニュース記事の閲覧時間予測
- 一般セッション » ポスターセッション
- 2023 年 6 月 8 日(木)13:30〜15:10 X 会場(展示ホール B)
- 〇石原祥太郎、中間康文
- https://confit.atlas.jp/guide/event/jsai2023/subject/3Xin4-58/advanced
ウェブページの閲覧数は記事や広告といったコンテンツの定量評価に広く利用されていますが、より詳細にユーザの嗜好を把握する指標として閲覧時間があります。 閲覧時間からはユーザが熟読度合いを確認できるため、コンテンツの推薦や分析などへの応用が期待できます。 本研究では、ニュースメディアにおける閲覧時間の重要性を強調し、予測のための実装方法を検討しました。 最も単純な実装として「閲覧時間は本文の長さと相関する」という仮説に基づく方法があります。 しかし日本語の経済ニュースを題材に実際のユーザを分析した結果、閲覧時間は本文の長さと強い相関がありませんでした。 さらに記事の見出し・本文やサムネイル画像、ユーザの過去の閲覧時間など複数のモダリティの情報を用いることで、より正確な機械学習モデルが構築できると分かりました。 欠損モダリティによる性能劣化も議論し、実運用に向けた課題を確認しています。 なお本稿は、IEEE BigData 2022 I&G に採択された論文に追加の分析を加えて改訂することで構成しました。