Sansan独自のOCRエンジン「NineOCR」がデータ化範囲を名刺記載の全項目に拡大

Sansan株式会社

働き方を変えるDXサービスを提供するSansan株式会社は、名刺に特化した当社独自のOCR(光学文字認識)エンジン「NineOCR」(旧名称:DSOC OCR)のデータ化範囲を、名刺記載の全項目の情報に拡大したことを発表します。

当社では、営業DXサービス「Sansan」において99.9%の名刺のデータ化精度を担保するために、OCRエンジンと手入力を組み合わせたデータ化フローを構築し、サービスを提供しています。今回、NineOCRのデータ化範囲を従来の氏名とメールアドレスから役職、会社名、住所、URL等名刺全体まで拡大することで、ユーザーが即時に使える一次納品のデータ化精度が向上します。名刺データを活用した営業やマーケティング活動をより効率的かつタイムリーに実施でき、営業DXの推進に貢献します。

NineOCRとは
NineOCRは、当社技術本部が培ってきたデータ化ノウハウをOCRエンジンに展開することにより開発された、名刺に特化した当社独自のOCRエンジンです(※1)。OCRエンジンは、撮影された画像により精度にばらつきが出ますが、NineOCRは、定型・不定形や撮影された環境を問わず、高い精度でデータ化が可能です。今回、これまでデータ化範囲であった氏名とメールアドレスに加え、名刺に記載のその他項目(役職、会社名、住所、URL等)においても、高い精度でのデータ化が可能になりました。
またOCRエンジンは、データ化した情報を即時使用するシーンでの活用が多いことから、正確さだけではなく、スピードも重要です。NineOCRでは、0.3秒の即時デジタル化に対応した、ハイパフォーマンスを実現しています。高速処理が可能なため、ユーザー体験を損なうことなく、サービス内への実装が可能です。

■技術本部のOCRエンジン開発に関する取り組み
営業DXサービス「Sansan」には、名刺をスキャナーやスマートフォンで読み取り、データ化する過程において、画像中の文字列を検出・認識し、文字コードとして出力する技術であるOCRエンジンを使用しています。名刺に記載されている情報をビジネスで活用するためには、限りなく100%に近い精度でデータ化しなくてはいけません。そのため、当社ではデータ化精度を担保するために、OCRエンジンと手入力を組み合わせたデータ化フローを構築し、ユーザー企業にサービスを提供しています。
一方、名刺スキャン後、すぐに名刺データを活用したいユーザーには、OCRエンジンのみを用いた一次納品も実施しており、その精度を向上するため、名刺に特化した独自OCRエンジン「NineOCR」を開発しました。

今回、NineOCRの開発を加速するため、技術本部 研究開発部の体制強化を図り、データ化範囲の拡大に至りました。開発にあたり、文字列検出・文字認識・情報統合を各研究員で分担するとともに、氏名とメールアドレスを読み取る旧バージョンから要件の見直しを行っています。具体的には、文字列検出器のマルチクラス化・文字認識器の複数行認識対応を行っており、特に文字列認識器では、自然言語処理分野で発展したTransformer(※2)ベースのモデルを採用しています。最先端のモデルを取り込むことで、高性能かつ柔軟な認識を可能にし、名刺記載の全項目の情報について高い精度でのデータ化を実現しました。

当社は、今後もNineOCRをさらに高精度のOCRエンジンにするため、学習データ収集の効率化・継続的な性能監視を含めたMLOps(Machine Learning Operations:機械学習オペレーション)を推進し、開発を加速してまいります。

※1:Sansan株式会社「データ統括部門『DSOC』が 独自のOCRエンジン『DSOC OCR』を開発」(2020年11月27日発表)
https://jp.corp-sansan.com/news/2020/dsoc_ocr.html
※2:A. Vaswani et al., "Attention is All you Need," in Advances in Neural Information Processing Systems, 2017, vol. 30, pp. 5998–6008.

(以上)

Sansan株式会社 会社概要
「出会いからイノベーションを生み出す」をミッションとして掲げ、働き方を変えるDXサービスを提供しています。主なサービスとして、営業DXサービス「Sansan」やキャリアプロフィール「Eight」、インボイス管理サービス「Bill One」、契約DXサービス「Contract One」を国内外で提供しています。

設立:2007年6月11日
URL:https://jp.corp-sansan.com
所在地:150-0001 東京都渋谷区神宮前5-52-2 青山オーバルビル13F
資本金:64億50百万円(2022年8月31日時点)
事業内容:働き方を変えるDXサービスの企画・開発・販売
Sansan https://s.sansan.com
Eight https://8card.net
Bill One https://bill-one.com
Contract One https://contract-one.com

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


ダウンロード
プレスリリース素材

このプレスリリース内で使われている画像ファイルがダウンロードできます

会社概要

Sansan株式会社

134フォロワー

RSS
URL
https://jp.corp-sansan.com/
業種
情報通信
本社所在地
東京都渋谷区桜丘町1-1 渋谷サクラステージ 28F
電話番号
03-6758-0033
代表者名
寺田親弘
上場
東証プライム
資本金
-
設立
2007年06月