凸版印刷、AI-OCRでくずし字を解読するスマホアプリ「古文書(こもんじょ)カメラ™」を配信開始
スマートフォンで撮影したくずし字資料を手軽に解読できるiOS版アプリケーションを6月1日より配信開始
また、古文書の一部分だけ範囲を指定して解読する機能や、AI-OCRが提示する複数の解読候補から選択する機能、解読結果を利用者が修正する機能等を搭載することで、より専門的で高度な利用シーンにも対応します。
「古文書カメラ™」のインストールは無料、AI-OCRによる解読機能の利用は、1日ごとに10回まで可能です。App内課金による解読機能の回数制限解除は、2023年夏のアップデートにてご案内を予定しています。
また、Android版のアプリケーションは、2023年秋に配信を予定しています。
■ 開発の背景
古文書は、日本国内に数十億点以上残存すると言われていますが、現代の社会課題にも直結する災害や地域文化の記録など、防災や観光資源の創出・地域の活性化にもつながる貴重な情報が記されています。しかし、古文書のほとんどは「くずし字」で書かれているため現代人にとって判読が困難となってしまい、当時の記録・文献を活用する際の大きな障壁になっています。また、個人が所有している古文書は、内容がわからないために破棄されるケースも多く、解読されないまま災害による損傷や紛失、焼失などのリスクにさらされた状態で全国各地に眠っています。
凸版印刷は、これらの課題を解決する新たな手法として、2015年より大学共同利用機関法人人間文化研究機構 国文学研究資料館との共同研究を開始し、以後、多数の研究機関等とくずし字OCR技術の開発・実証を重ねてきました。2017年にリリースした原本画像と解読テキストを重ねて表示できる「ふみのは®ビューア」、2021年にリリースしたオンラインくずし字解読支援システム「ふみのは®ゼミ」をはじめ、古文書解読とくずし字資料の利活用サービス「ふみのは®」として、様々なくずし字解読ソリューションを提供しています。 (※1)
この度配信を行う「古文書カメラ™」は、凸版印刷が独自に開発したくずし字解読アプリです。2022年9月に開発の発表を行って以降(※2)、京都市歴史資料館(京都府京都市、館長:井上満郎)、公益財団法人三井文庫(東京都中野区、文庫長:武田晴人)、和洋女子大学(千葉県市川市、学長:岸田宏司)の協力のもと実証実験を行い、より使いやすいアプリケーションUIの改善や、AI-OCRの読み取り精度の向上などの改良を行いました。
■ 本アプリケーションの特長
・手書きと木版印刷物それぞれのくずし字資料に対応したAI-OCRエンジンを搭載。幅広い種類のくずし字解読に貢献
くずし字で書かれた資料は、木版を用いて印刷されたもの(版本や錦絵など)と、手書きのもの(書簡や証文、日記などの古文書)があり、それぞれ文字の形や使われている字種が異なります。
本アプリケーションに搭載している古文書対応AI-OCRは解読率90%(※3)の精度を誇っており、手書き、版本のくずし字それぞれに対応した2種類のAI-OCRを搭載し、幅広い資料の解読を支援します。
・AI解読はAIお任せの「フルオートモード」と、さらに高精度な「範囲選択モード」が選択可能
「フルオートモード」は、画像の中にある文字領域を自動で検出し、つなげて書かれた文字の区切り位置も含めてAIがくずし字を解読します。
さらに詳細に解読したい場合は、「範囲選択モード」を利用することで、選択した数文字に対し、AIが候補文字を複数提示します。「フルオートモード」より高精度かつ利用者が文脈に合った文字を選択しながら解読できます。
また、解読モードおよびAI-OCRの切り替えは、わかりやすいUIで、スマートフォンの操作に不慣れな利用者でも手軽な解読が可能です。
・解読結果は修正・書き出しが可能
AIの解読結果が間違っていた場合は、利用者自身が解読した文字を直接入力することができます。修正した内容はAIの再学習へ反映され、段階的にAIの精度が向上します。また、解読結果は画像・テキストでの保存が可能です。
■ 「古文書カメラ™」概要
配信プラットフォーム | Apple App store |
販売開始日 | 2023年6月1日(木) |
価格 | ・アプリダウンロード無料 ・AI-OCRによる解読機能は1日ごとに10回まで無料 ※解読機能の回数制限の解除については、 2023年夏頃のアップデートでご案内予定 |
公式Webサイト | |
サービスに関するお問い合わせ先 | 上記公式Webサイトのお問い合わせフォーム |
※アプリダウンロード用QRコード
※アプリのダウンロードはスマートフォンだけでなくタブレット端末でも可能です。
※撮影条件や古文書の保存状態などにより、解読した「古文書カメラ™」のくずし字認識結果には誤りが含まれることがあります。内容についてはご自身でご確認ください。
■ 今後の展開について
本アプリケーションは、AI-OCRによる解読機能の回数制限を解除可能なアップデート(App内課金版)を2023年夏に予定しています。またAndroid版の配信は2023年秋を予定しています。
AIによる解読精度については、今後さまざまな筆跡の文字を学習させていくことにより、段階的に向上させていきます。
凸版印刷は本サービスをはじめ、全国各地に眠る貴重な歴史的資料の研究・活用の支援に継続して取り組み、様々な史資料のアーカイブ化を通じ、社会・文化に貢献していきます。
■ 「くずし字OCR」技術について
OCR(Optical Character Recognition)とは光学文字認識のことで、文書画像に含まれる文字を読み取り、テキストデータに変換するソフトウェアの総称です。凸版印刷では2013年から高い精度のテキストデータを提供する「高精度全文テキスト化サービス」を展開してきました。凸版印刷が開発するOCR技術は一般的なものと異なり、一つひとつの文字位置を認識できることを特長としています。そのため利用者はくずし字のような難読文字であっても、古文書と照らし合わせながら効果的に解読結果を活用可能です。
(※1)「ふみのは®」サービスの詳しい説明についてはこちらをご覧ください。
公式ホームページ:https://www.toppan.co.jp/biz/fuminoha/
(※2)「凸版印刷、AI-OCRで古文書を解読するスマホアプリを開発」(2022/9/3)
https://www.toppan.co.jp/news/2022/09/newsrelease220913_1.html
(※3)古文書対応AI-OCRは、近世の代表的な書体である御家流で書かれた資料を中心として字形を学習しています。精度90%は御家流で書かれた古文書に対してAI-OCRを使って解読した際の結果です。
*「古文書カメラ」は、凸版印刷株式会社が商標登録出願中です。
*「QRコード」は、(株)デンソーウェーブの登録商標です。
*「Apple」及び「App Store」は、Apple Inc.の商標です。
*「Google Play」及び「Android」は、Google LLCの商標です。
*「IOS」は、Cisco Systems, Inc.またはその関連会社の米国およびその他の国における登録商標または商標であり、ライセンスに基づき使用されています。
* 本ニュースリリースに記載された会社名および商品・サービス名は各社の商標または登録商標です。
* 本ニュースリリースに記載された内容は発表日現在のものです。その後予告なしに変更されることがあります。
以 上
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像