【全国初】静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを地元企業と共同開発

静岡県

静岡県立中央図書館(静岡県静岡市)は後世に引き継ぐ地域資料収集の一環として、静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを株式会社Geolocation Technology(静岡県三島市)と共同開発しました。
このシステムにより、これまで人手で収集していたPDFを自動で収集することが可能になりました。
公共図書館におけるクローリングシステムの開発は、全国初の取り組みです。
なお、この取り組みは、2021年度から静岡県立中央図書館が行っている「図書館DX実証実験」の一部です。
  • システム概要
●クローリング対象
静岡県内の自治体Webサイトのドメイン内に格納されているPDF。
●収集範囲
ドメイン以下5階層目まで。
※5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば,収集範囲の対象階層外であっても収集する。一方、外部ドメインへのリンクは収集しない。
●保存方法
収集したPDFは、Googleドライブで収集した日付ごと、収集元のドメインと同じディレクトリ構造で保存される。また世代管理も行っている。
●管理方法
1.収集範囲内にあるすべてのPDFを機械的に管理
2.収集したPDFをリネームし管理

  • 成果
収集できたPDFの数 
 455,133件
※初回は収集対象すべてのPDFを収集しています。2回目以降は、前回との差分(含む更新)を収集します。
  • 今後の展望
今回の実証実験で、これまで収集が困難だった、自治体WebサイトにアップロードされたPDFを自動で収集する仕組みを構築できた。今後は、収集したPDFをもととしたサービスの可能性を検証していく。
  • 参考
開発元:株式会社Geolocation Technology
https://www.geolocation.co.jp/
  • 図書館DX実証実験について
第1弾
https://prtimes.jp/main/html/rd/p/000000051.000079445.html
第2弾及び第3弾
https://current.ndl.go.jp/node/44874
  • 静岡県立中央図書館Webサイト
https://www.tosyokan.pref.shizuoka.jp

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


ビジネスカテゴリ
政治・官公庁・地方自治体
ダウンロード
プレスリリース素材

このプレスリリース内で使われている画像ファイルがダウンロードできます

会社概要

静岡県

12フォロワー

RSS
URL
https://www.pref.shizuoka.jp/index.html
業種
官公庁・地方自治体
本社所在地
静岡県静岡市葵区追手町9番6号
電話番号
054-221-2976
代表者名
鈴木康友
上場
未上場
資本金
-
設立
-