Top 研究道具(ソフトウェア) 比較2022'【20年使用】OCRソフト26点の性能とおすすめ【日本語・外国語OCR】:資料・名刺・縦書き文書認識、英語日本語混在文書の精度

2022年04月02日

比較2022'【20年使用】OCRソフト26点の性能とおすすめ【日本語・外国語OCR】:資料・名刺・縦書き文書認識、英語日本語混在文書の精度

【今回レビューする製品】2022年 おすすめ日本語対応OCRソフトの認識精度と選び方:製品版・無料版・バンドル版対応:変換精度の違いやおすすめランキング やOCRフリーソフトとの違いについて

【紹介するソフト一覧】ソースネクスト読取革命 ver.16 Panasonic 読取革命 ver.15 メディアドライブe.Typist v.15.0 Adobe Acrobat Standard Pro 透明PDF ソースネクスト本格読取 5 ABBYY FineReader for ScanSnap ファイル管理革命Lite 読んde!!ココ パーソナルVer.4 読取革命Lite やさしく名刺ファイリング PRO v.15.0 DocuWorks 9.1 エプソン エーアイソフト 読んDE!!ココ ver13

今回のお題
変換精度が信頼できる日本語OCRソフトのおすすめはどれ?

 ども、Atlasです。

 今日は、2022年4月現在、最新の日本語OCRソフトを比較します。

 202010101033.jpg

 日本を代表するOCRソフトの「御三家」と(実はOCR性能が高い)Adobe Acrobatについては、その精度を含めて、Atlasの実験結果を公開します。

 スキャナに「おまけ」で付属する無料バンドル版の製品の情報も書きました。

ーー

 Atlasは、(おおよそ)20年程前の大学院生時代にOCRを利用しはじめました。

 そして、ここまで試したソフトは、(バージョンの違いを合わせると)25本を超えます。 

 201806231845.jpg

 なお、今回の記事は、学生や研究者などが、論文・資料を「検索可能な透明PDF」にする目的のほか、会社員の方が会議資料や名刺のスキャニングする場合についても、対応できるようにしました。

ーー

認識精度(日本語)★★★★★
認識精度(英語) ★★★★★
レイアウト認識力 ★★★★★
縦書きの認識力  ★★★★★
文字の見やすさ  ★★★★★
総合評価     ★★★★★

 以下では、いつものように、各社の製品を1つずつ比較していきます。

 そして、最後の「結論」では、上表のようなポイントから、予算別・目的別に、Atlasのおすすめ機種を提案していきます。

ーーー

1・日本語OCRソフトの比較
2・英語OCRソフトの比較
3・
PDF作成ソフトの比較
4・iPhone用のOCRアプリの比較

 なお、今回の記事は、このブログのOCRソフトの比較シリーズの「1回目記事」として書きました。

1・OCRソフトの「御三家」の比較

 201806231850.jpg

 現在、日本語の高性能OCRソフトの「売れ筋」は、いくつかあります。

 有名どころでは、Panasonicの読取革命メディアドライブのe.Typist ソースネクストの本格読取が、和製のOCR専門ソフトとしては「TOP3」になります。

 以下、実験に基づく詳しい精度の話に入る前に、これらの製品の特長を簡単に紹介してみたいと思います。


  202010101029.jpg

 【2020年10月登場】

 【ソフト版】

 1・ソースネクスト 読取革命 Ver.16
  ¥10,987 Amazon.co.jp (4/2執筆時)

 【ダウンロード版】

 1・ソースネクスト 読取革命 Ver.16
  ¥12,980 Amazon.co.jp (4/2執筆時)

 【バージョンUP版】(直販のみ)

 1・ソースネクスト 読取革命 Ver.16
  ¥6,490 ソースネクスト直販 (4/2執筆時)

 【2012年旧製品】

 2・Panasonic 読取革命 Ver.15 製品版
  ¥20,394 Amazon.co.jp (4/2執筆時)

 →メーカーサイト

 読取革命は、ソースネクストが発売するOCRソフトです。

 もともとは、パナソニックの製造する人気OCRソフトでした。

 しかし、2020年10月に開発元がソースネクストに変更になりました。そして、実に8年降りの新製品登場となりました。

1・英語OCRの精度の改善
2・インターフェースの改良
3・起動時のパスワード設定
4・クラウド保存対応
5・Google翻訳対応
6・認識結果表示フォントの追加 

 現在のバージョンは、16です。

 パナソニック時代の旧バージョンと比較すると、日本語の認識精度の向上に関わる部分は、加算減算もなく、「ノータッチ」でした。

 なお、バージョンアップ版は、直販のみですが、(当たり前ですが)パナソニック版からでOKです。

 英語の認識精度は、エンジン提供元の米国のABBYYが、2012年以降、数回の更新をしているため、特に状態の悪い原稿については、多少の改善は見込めそうです。

 202010101050.jpg

 その他の部分は、マイナーチェンジです。あえて言えば、クラウド対応(Google Drive, One Drive, Dropbox Google翻訳)の部分でやや進化が見られます。

 201806231858.jpg

 一方、パナソニック時代と引き続いて、JIS第2水準の「難しい漢字」に辞書対応し、そ基本辞書も踏襲されました。

 取り消し線付きの文字など、印刷状態の悪い文字の認識など、認識に関わる部分の機能省略はない状況です。

 動作するOSは、Windowsのみです。

 個人用としては、Window 8.1以上に対応します。

 一方、Macについては、旧製品は、読取革命Lite for Macという機能限定版がバンドルされていましたが、それは「省略」になりました。

 読取革命Liteについては、後ほど別に紹介します。

 etypistfafs-1.png

 対応する言語は、日本語と英語、一部のギリシャ文字です。

 英語については、認識エンジンを米国で、FineReaderというOCRを販売するABBYY社の変換エンジンを利用します。

 こちらについては、【英語OCRソフトの比較】で紹介しました。

 ただし、本家が収録する「専門辞書」が未搭載であるため、英語専門のソフトに比べると精度は劣ります。なお、日英混在文書の精度は、この記事で後ほど比較実験しています。

 201806231856.jpg 

 認識できる文字数は、日本語の認識対象文字数はJISの第2水準の全てを含めた約6800字です。

 格安なOCRソフトと比べるとこの部分は重要なポイントです。姓名などの旧字体のデータを取り込もうと考えている場合、かなりの効果があると言えます。

 201806231901.jpg

 用語辞書は、変換を補助するためのものです。

 この場合、単語辞書(文字パターン辞書)は18万ワード、日本語の専門用語辞書の単語登録(多いほど、単語としての認識精度が上がる)は、61万ワードが収録されます。

 用語辞書は、OCRの精度を上げるための絶対条件です。無料版や製品同梱番のOCRソフトの場合、導入されていない場合が多く、有料版と大きな差が付く部分と言えます。


 202001181259.jpg

 【パッケージ版】

 3・e.Typist (アジア言語対応)v.15.0
  ¥15,180 Amazon.co.jp (4/2執筆時)

 【ダウンロード版】

 3・e.Typist (アジア言語対応)v.15.0
  ¥13,366 Amazon.co.jp (4/2執筆時)

 →メーカーサイト

 e.Typistは、メディアドライブが発売するOCRソフトです。OCRソフトとしては「老舗」で信頼性の高い製品です。

 201806231903.jpg

 現在のバージョンは、「15」です。

  14と比べると、OCR精度に関わる性能がアップグレードした点が見所です。

 具体的には日本語の斜体文字(イタリック)体の認識と、良く論文などでみかける縦書きの日本語の文章中に横書きの英語文字が混在する文章の認識とに対応しました。

 これらは過去バージョンにおける読取革命ではすでに対応していたものです。あとで実際に検証しますが、実際の精度はイマイチでした

 動作するOSは、Windowsのみです。

 fgrgkgudu-5.png

 対応する言語は、英語の欧州言語とアジア言語(韓国語・中国語)なども対応です。とくに、アジア言語には定評があります。

 201806231856.jpg 

 認識できる文字数は、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字ということになります。

 こちらは、読取革命と同レベルで、住所録など旧字体の姓名の読み取りなどには向いていると言えます。

 用語辞書は、OCRの文字種のバリエーションの変化に対応する単語辞書(文字パターン辞書)は、読取革命に及ばない6万語です。

 専門用語の単語登録(多いほど、単語としての認識精度が上がる)は、そちらより多い150万ワードです。

---

 結論的にいえば、e.Typistは、専門用語の単語登録が多いため、状態の良い原稿の認識精度が高いと言えます。

 一方、単語辞書(文字パターン辞書)が少ないので、コピーした論文のような状態の悪い原稿の精度は読取革命に及ばないと言えます。

ーーー

 202001181300.jpg

 4・e.Typist NEO(日・英のみ) v.15.0
  ¥---- Amazon.co.jp (4/2執筆時)

 なお、2021年まで、本機を日本語と英語のみ対応にした廉価版がありました。

 ただ、後継版が出ないまま、生産終了となりました。


 

 【パッケージ版】

 5・ソースネクスト本格読取 5
  ¥2,799 Amazon.co.jp (4/2執筆時)

 【ダウンロード版】

 5・ソースネクスト本格読取 5
  ¥3,828 ソースネクスト直販 (4/2執筆時)

 本格読取は、ソースネクストが販売する製品です。

 201806231907.jpg

 先述のように、同社はパナソニックから読取革命を引き継ぎましたが、このシリーズも廉価版として継続です。

 動作するOSは、Windowsのみです。

 対応する言語は、日本語と英語です。

 認識できる文字数は、読取革命と比して、JIS第2水準などに対応せず4000字です。

 用語辞書も、専門辞書は75万ワードと機能が限定されます。

 単語辞書も14万語ですから、差を付けています。

 また、使い勝手の部分でも注意が必要です。こちらは、出力がワード・エクセル・テキストファイルのみで、PDF出力・透明テキスト化ができない仕様です。PDFは入力も不可です。

2・バンドル版の無料のOCRソフト

 続いて、スキャナにバンドルされているOCRソフト(フリーソフト)について簡単に紹介してみましょう。


 202001181307.jpg

 6・ScanSnap FI-IX500A

 ABBYY FineReader for ScanSnapは、富士通のScanSnapシリーズに、「以前」、無料添付(バンドル)されていたOCRソフトです。

 ScanSnapで読み取ったPDFのみOCRを欠けることができるという機能制限があります。

  201806231909.jpg

 OCRエンジンは、後ほど紹介するABBYY FineReader という米国製ソフトを元としています。

 多言語の1つとして「日本語」ごをフォローしているレベルですので、日本語の変換は「不得意」です。

 対応する言語は、日本語と英語です。

 認識できる文字数は、非公表です。さらにイタリック文字や太字についても原稿通りに再現できません

 用語辞書も、単語辞書(文字パターン辞書)は、非搭載であり、字形のみからの判断のため再現率は低いです。

 こうした点で、日本語ないし、日英混在文書の変換には適さないと言えます。

 動作するOSは、Windowsのほか、Macにも対応です。


 202001181303.jpg

 7・Canon imageFORMULA DR-C225W
  ¥39,778 Amazon.co.jp (4/2執筆時)

 ファイル管理革命Liteは、キヤノンのDR-C225Wなどのドキュメントスキャナで利用できたOCR対応ソフトです。

 ただし、2019年より配布終了です。

 201806231907.jpg

 OCRエンジンは「読取革命」のパナソニックが作っています。

 対応する言語は、日本語と英語です。しかし、基本的にテキストファイルとして抽出のみ対応し、PDF書類の作成は不可能です。

 用語辞書も、非搭載となります。

 なお、製品版の「ファイル管理革命」についても、OCRの部分は、別売の「読取革命」と連携させる方式です。パナソニック製とはいえ、ファイル管理革命Liteは、その精度は期待できません。

 動作するOSは、Windowsのみです。


  202001181304.jpg

 8・EPSON スキャナー DS-530

 読んde!!ココ パーソナルVer.4は、エプソンのスキャナに(かつて)付属していたOCRソフトです。

 2020年の新機種からは搭載しなくなっていますが、お持ちの方はまだいるでしょう。

 OCRエンジンは、AISOFTというエプソン系列の会社の「読んde!!ココ」というソフトのエンジンがベースです。このエンジンは、Adobe系のソフトのOCRとして利用されています。

 対応する言語は、日本語と英語です。

 用語辞書は「非搭載」です。しかし、日本語としての変換精度はバンドル版としては良い部類です。

 なお、PDFの作成は可能ですが、透明PDFはできません

 無料ソフトとしては、本格的な部類ですが、本家の「読んde!!ココ」が残念ながら「生産終了」となっているため、「消えゆく製品」ではあります。

 動作するOSは、Windowsのほか、Macにも対応です。


 202001181305.jpg

 9・Canon CanoScan LiDE400

 読取革命Liteは、キヤノンのフラッドベッド型スキャナの多くにバンドルされていたOCRソフトです。

 現在は契約終了ですが、お持ちの方はまだいるかと思います。

 201806231907.jpg

 OCRエンジンは、パナソニックの読取革命を元としたものを利用します。

 対応する言語は、日本語と英語です。

 用語辞書も、こちらも「非搭載」です。ただ、字形認識機能は、正規品とほぼ同水準のものを利用しているため、「つぶれ文字」「傾いた文字」などの認識力は高いです。無料版としては、性能は上々です。

 ただし、出力はWordなどのみで、PDF化は、透明PDFを含めて未対応です。

 動作するOSは、Windowsのほか、Macにも対応です。

ーーー

 201806231842.jpg

 以上、4種類の「フリーバンドル版」のOCRソフトを確認しました。

 結論的に言えば、これらは、OCRソフトとしては「お試し用」です。「御三家」の製品版ソフトより大幅に能力が劣ります

 製品版との大きな違いは「用語辞書の有無」であり、これが認識精度の大きな違いを生みます。いずれにしても、正確な変換精度が欲しければ、単体の製品版ソフトを購入する必要がある でしょう。

3・OCR機能が付属する専門ソフトの比較

 つづいて、OCR専門ソフトではないが、専門特化した高度なOCRソフトが「機能の1つ」として付属するソフトを紹介します。

 特に、Adbobe Acrobat DCシリーズは、使い方によっては「御三家に匹敵する利便性」を得られるため、注目するべきです。


 202104131223.jpg

 【Windows用 3年版】 

 10・Acrobat Standard DC
  ¥36,882 Amazon.co.jp (4/2執筆時)

 【Windows/Mac用 3年版】

 11・Acrobat Pro DC
  ¥45,099 Amazon.co.jp (4/2執筆時)

 Adobe Acrobat DCは、アドビ社のPDF作成ソフトの製品版です。

 現在は「時限ライセンス版」となっています。

・Acrobat Pro DC 2017
 ¥72,200(税別)

・Acrobat Standard DC 2017
 ¥45,770(税別)

 正確には、「Acrobat Pro DC 2017」という「永久ライセンス版」が過去にはありました。

 しかし、2018年当時の値上げでお得感がなくなった後に、現在は、完全に販売終了となっています。

 ライセンス契約の現状については、詳しくは【Acrobatのライセンスとお得な購入法】で書きましたので、今回は、あくまでOCR機能の説明に集中します。

 201806231917.jpg

 このソフトの基本用途は「PDF作成」です。

 しかし、付属する便利機能の1つとして、OCR機能が付属します。

 後ほど実験するように、日本語の縦書きの対応能力などに限界がありますが、PDFファイルのOCR化に使う分にはかなり高性能です。


 201806231922.jpg

 とくに、「検索できるPDF」を作る場合、【PDF作成ソフトの比較記事】で紹介したように、書類の文字の「画像」を、ベクターデータ化できるため、テキスト検索できるようになるだけでなく、画面での文字の見かけも綺麗にできます。

 拡大ズームをかけても「歪まない」よう「疑似的なフォント化する」という意味です。

 対応する言語は、この製品の場合、日本語・英語のほか、ヨーロッパ言語・アジア系言語を含む多言語のOCRに対応します。

 201712091646.jpg

 認識できる文字は、情報が非開示です。

 ただ、おそらく、Epson(AiSoft)の読んDE!!ココ から提供された性能の良いエンジンを発展させたものだと思います。精度については、後ほど実験してみたいと思います。

 用語辞書は、こちらも情報非開示です。

 しかし、Atlasのユーザーとしての経験上、単語辞書、専門用語辞書ともにかなり貧弱であると結論できます。この点は専門のOCRソフトではないために割り引いて評価しないといけません。

 202104131223.jpg

 なお、Windows用には、スタンダード版とプロ版があります。

 OCR機能についていえば、両方とも搭載します。ただ、透明PDFを作る場合、(画像としての文字の鮮明さ)は、カスタムフォント機能とClearScanのできないスタンダード版は、実用度・完成度において劣ります。

 性能の詳しい違いについては、このブログの【PDF作成ソフトの比較記事】の後半で書きました。ご覧ください。

 また、学生版などお得な買い方については、【Acrobatのライセンスとお得な購入法】でフォローしています。


 202201141654.jpg

 【2021年】

 12・DocuWorks 9.1 ライセンス認証版
  ¥12,800 Amazon.co.jp (4/2執筆時)

 DocuWorks 9.1は、富士ゼロックスが販売する、オフィス用パブリケーションソフトです。

 「Adobeのライバル」的なソフトで、複数のファイルを1つの規格のファイルにパッケージングすることがメインの製品です。

 同社の販売するコピー機と一緒に利用すると便利です。こちらも、Adobe社と同じで、「おまけ機能」として、OCR機能が付属します。

 対応する言語は、日本語・英語・中国語(繁体字・簡体字)ほか、アジア言語(韓国語・タイ語、ベトナム語、インドネシア語、マレー語、タガログ語)で10言語です。

 202004291334.jpg

 認識できる文字数は、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字です。

 こちらは、e.Typistを販売するメディアドライブの販売用エンジン(活字文書OCRライブラリ v.9.5をベースとしたもの) の提供を受けているため、専門版と水準は同等です。

 用語辞書は、非搭載です。

 この部分で、専門機と決定的な差はあります。

 こうした点から言えば、オフィス用パブリケーションソフトとしてはたいへん優秀なソフトですが、本格的なOCRソフトとしては、機能は貧弱です。


 202001181302.jpg

 13・やさしく名刺ファイリング PRO v.15.0
  ¥7,491 Amazon.co.jp (4/2執筆時)

 やさしく名刺ファイリング PROは、名刺整理ソフトの草分けで、それに専門特化したソフトです。「御三家」であるe.Typistを発売するメディアドライブが取り扱う、名刺に特化した製品です。

 スキャナなどで一括して取り込んだデータを、名刺管理データベース化することができる点で、ビジネスマンに人気です。

 対応する言語は、日本語・英語です。名刺の裏表の両面スキャンにも対応します。

 認識できる文字数用語辞書は、しかしながら情報が非開示です。辞書は、未搭載だと思います。

  201712091732.jpg

 ただ、名刺については、「名字の入れ間違いが致命的」になる類のものです。

 この製品の面白い部分は、スキャンしたデータにOCRをかけるだけではなく、同社の「THE 名刺管理」というクラウドサービスで、500枚までの名刺データを目視チェック・訂正してくれる点です。

 最近多い、漢字圏のアジアの国へ「アウトソーシング」する名刺サービスの一環ですが、精度の高さは確実にOCRを超えます。

---

 以上、やさしく名刺ファイリング PROの紹介でした。

 名刺取り込みについては、正直なところ、OCRだけでは手に負えず、「人の目のチェック」が必要です。こうしたサービスを利用するのが良いでしょう。


 202112041335.jpg

 【ビジネス・技術専門辞書パック

 14・コリャ英和 一発翻訳 2021 for win  
  ¥18,318 Amazon.co.jp (4/2執筆時)

 【 医歯薬南山堂パック

 15・コリャ英和 一発翻訳 2021 for win  
  ¥39,967 Amazon.co.jp (4/2執筆時)

 【マルチリンガル翻訳】(10言語)

 16・コリャ英和! 一発翻訳 2021 for win
  ¥20,736 Amazon.co.jp (4/2執筆時)

 【中国語

 17・コリャ英和!中国語 2019 for Win
  ¥7,836 Amazon.co.jp (4/2執筆時)

 【ベーシック版】

 18・LogoVista PRO 2022 ベーシック
  ¥39,555 Amazon.co.jp (4/2執筆時)

 【フルパッケージ版

 19・LogoVista PRO 2022 フルパック
  ¥71,346 Amazon.co.jp (4/2執筆時)

 ロゴヴィスタのコリャ英和シリーズは、PC用の翻訳ソフトとして、信頼性がある製品です。

 最近はウェブ翻訳が全盛ですが、単語辞書の精度はやはり専門辞書も優秀で、Officeソフトへのアドイン機能など利便性も高いです。

 なお、LogoVista PROは、672万語レベルの翻訳辞書をもつ上位版でです。フルパッケージだとさらに489万語の専門辞書を搭載しており、おもに業務翻訳の精度が上がります。

 202204021355.jpg

 また、LogoVista PRO系のみ「OCRから翻訳まで同じ画面でシームレスな操作が可能です。

 202001181238.jpg

 これらの辞書については、OCRソフトであるReadiris PRO for LogoVistaが付属します。

 Readiris PROは、アメリカの多言語OCRソフトの草分けであり、信頼性がある製品です。


 202004291338.jpg

 ただ、Readiris PRO for LogoVistaは、2011年段階のReadiris PRO 11相当です。

 英語版の現行バージョンより相当古いです。

 202001181241.jpg

 出力は、Wordを含むリッチテキストなので、透明PDFを作る用途には使えず、簡易的です。

 対応できる言語は、日本語・英語・中国語(繁体字・簡体字)・韓国語ほか、ヨーロッパ系各言語を含めて31言語です。

 認識できる文字数用語辞書も、情報が非開示です。

---

 以上、ロゴヴィスタコリャ英和シリーズの紹介でした。

 翻訳ソフトとしては優秀です。2021年モデル以降は、OCRを書けつつ翻訳処理できるようになり、利便性も増しています。

 ただ、OCRの性能自体は、そのソフトに読み込ませるための「おまけ」的な要素に止まります。

4・多言語対応のOCRソフト

 最後に多言語対応OCRソフトについて、紹介します。


  202206171043.jpg

 ※1年間ライセンス料(月額も可)

 (Standard版)

 20・ABBYY Fine Reader 15
  ¥9,471 Abbyy直販 (4/2執筆時)

 (Corporate版)(作業自動化対応)

 21・ABBYY Fine Reader 15
  ¥13,321 Abbyy直販 (4/2執筆時)

 202001181138.jpg

 【Windows】

 【標準版】

 22・Omnipage Standard 18.0
  ¥16,999 Kofax直販 (4/2執筆時)

 【上位版】

 23・Omnipage Ultimate 19.2
  ¥56,899 Kofax直販 (4/2執筆時)

  202112041347.jpg

 【Windows】【Mac】

 【1ライセンス 永久版】

 24・Readiris PDF Standard
  $129 irislink.com (4/2執筆時)

 【5ライセンス 1年版】

 25・Readiris PDF 365
  $ 149  irislink.com (4/2執筆時)

 【企業向け 永久版】

 26・Readiris PDF Business
  $ 199  irislink.com (4/2執筆時)

 OmnipageReadiris PDFAbbyy Fine Readerは、多言語対応のOCRソフトとなります。

 基本的に英語圏で売られているものを、並行輸入したり、代理店が販売している形式です。

 201806231934.jpg

 対応する言語は、日本語・英語を含めた世界の100以上の言語です。

 202001181251.jpg

 用語辞書は、アジア圏の言語について重要な部分ですが、いずれも未搭載です。

 日本語については、後ほど専門ソフトの認識精度を詳しく説明します。

 上図は、その際に利用する元データの1つをReadiris Proにかけた結果です。

 「量」の字が誤認識していたり、字間の認識や誤字脱字は、やはりイマイチです。

 一方、縦書きの日本語も割と効率よく認識はしていましたが、レイアウト認識があまい印象です。

---

 結論的にいえば、英語などヨーロッパ言語専用として考える場合を除けば、利用しないのが無難でしょう。

 201809190819.jpg

2・英語OCRソフトの比較

 なお、英語専用OCRの精度については、別に【おすすめ英語OCRソフトの比較記事】があります。翻訳用として考えている方は、そちらをご覧ください。

ーー

 以上、ここまでは、日本語に対応するOCRソフトを紹介しました。

 結論的に言えば、制度の注目する場合、「読取革命」と「e.typist」が、搭載される用語辞書などの点で群を抜いていると言えます。

 一方、統合ソフトとしては、PDF書類の見かけも綺麗にできるAdobe DCの使い勝手も捨てがたいと言えます。

 そこで、以下では、これら3つのソフトについて、より詳しい実験をおこなっていくことにしたいと思います。

5・レイアウト認識に関する実験

 では、実際に文章を取り込みながら認識精度を比較していきましょう。

 状態の良い文章、悪い文章などいろいろな素材を使って試してみました。なお、以下の文章の素材は、特に断りのない場合、A4サイズ、グレースケール(ないしカラー)、400dpiの精度で取り込んだものです。


 資料や本を取り込む場合、複雑なレイアウトなもの、写真と文章が混在しているものがあります。

 これを「写真は写真」、「文章は文章」と、しっかりきちんと「切り分けられる」かを実験します。

 etypist-8.png

 元のデータはこれです。

 わりと複雑なレイアウトですが、各OCRソフトはどのように認識するでしょうか?


 A・読取革命の場合

 etypist-9.png

 第1に、「読取革命」です。

 文字の精度はここでは観点とせず、あくまでレイアウト認識の話なります。

 複雑なレイアウトをきちんと認識できているように見えますが、問題が1カ所あります。

 つまり、右上の「朝食に」から始まる文章、実は「画像」と認識されており、OCR処理がかかっていません。元データを見て欲しいのですが、この部分だけ緑がかった文字色です。コントラストの違いから「画像と誤認識」されてしまったようです。

 なお、画像に枠線がついていますが、これはソフト上の表示で、アウトプットの段階では表示されないので安心してください。


 B・e.Typistの場合

 etypist-10.png

 第2に、メディアドライブのe.Typistの場合です。

 こちらは、右上の「朝食に」の部分を含めて、綺麗にレイアウトを認識できています

 さらに、文字の間隔もスクリーン上、見やすく配置されていますね。

 なかなか優秀だと思います。


 C・Adobe Acrobatの場合

 etypist-32.png   

 第3に、Acrobatです。Acrobatについては、編集機能が無いので、OCR化したあとで、認識結果をWordファイルに変換したものを表示しています。

 レイアウトについてはほぼ問題ありません。専門のOCRソフト並みの健闘を見せています。

 結論的に言えば、日本語横書きの認識がメインならば、(有料版の)Adobe Acrobatでも十分です。

 201806231922.jpg

 先述のように、Acrobatで検索可能なPDFを作る場合、PCの画面に表示される文字も「ベクター化」してスクリーン上で見やすくしてくれる(ClearScan)機能を搭載します。

 この点からも、閲覧/検索兼用のPDF作成には、Adobe Acerobat はかなり向いています。(なおアクロバット最新版では、「Clearscan」は、日本語訳されて「編集可能なテキストや画像」と名称変更されています。

6・横書き文字の変換精度の検証実験

 続いて「横書きの文章」について実験しましょう。

 ビジネス書類に多いパターンですので、研究者以外に、ビジネスマンにも重要です。

 etypist-13.png

 検証する元データ(画像)は、上記のです。

 画像は粗く、レイアウトも複雑ですが、OCRソフトはどのように認識するでしょうか?


 A・読取革命の場合

 etypist-14.png

 第1に、読取革命です。

 表示しているのは「読み取り結果」の画面です。

 問題なくきちんと認識されていると言えるでしょう。100%認識できているといえます。優秀です。


 B・e.Typistの場合

 etypist-15.png

 第2に、e.typistです。

 こちらも健闘しています。惜しいのは、「1」の数字だけ「且」に文字化けしている点です。

 もしかすると、近辺の「具」という文字との類推を考えたのかもしれませんね。

 ただ、これは誤差レベルであり、読取とほぼ互角の性能といえます。


 C・Acrobatの場合

 etypist-33.png

 第3にAcrobatの場合です。

 このように、横書きの文章は問題なく認識できます。優秀と言えるでしょう。

 繰り返しますが、「横書きの認識性能」については、Acrobatはかなり優秀です。

ーー

 実は、これには事情があります。2015年頃から、自力でOCRエンジンを開発できる日本の「ソフトメーカー」が、総じて、OCRソフトの年次更新(新バージョンの発売)を止めてしまいました。(だから「ver15」なのです)

 Adobeは、せっせと機能革新をしているため、今後も差が開きかねない状況です。実際、英語圏のOCRソフトは、リッチテキスト認識に移行して久しく、「明朝体」「ゴシック体」など字体の判別もできます。

 一方で、日本のOCRはその水準にいくまでに「進化を止めて」います。「読んDEココ」などが実質撤退したことをふまえると、既存メーカーを責めることはできません。

 どちらかといえば、国が助成金をつけてやるべき仕事でしょうね。

7・縦書き文章の変換精度の検証実験

 続いて縦書き文章について、2段組の縦書き文章にOCRをかけてみました。


     etypist-16.png

 元のデータはこちらです。

 実験のポイントは、段組をきちんと把握しているか、と認識精度です。


 A・読取革命の場合

     etypist-17.png

 第2に、読取革命です。

 上図のように、段組をきちんと把握できています

 2段目の最後の「時ノ容姿」が「吟ノ容姿」になってしまっている以外は、ほぼ完全に認識できています。


 B・e.Typistの場合

     etypist-18.png

 第2に、e.typistです。

 ほぼ完璧に認識できていますね。状態の良い文章についてはe.typistの健闘が光ります。


 C・Adobe Acrobatの場合

   

 第3に、Acrobatです。

 残念ながら、このフィールドを文字であると認識できず、画像として認識しました

 実は(ここまで激賞してきた)Adobe Acrobatですが、日本語の縦書きについては「壊滅的な状況」にあります。

8・横書き文字の変換精度の検証

 続いて、縦書き文章について。混在する横書きの英語文字を認識するかです。


     etypist-19.png

 元原稿はこれです。

 実験のポイントは、collégeをきちんと把握しているかと、認識精度です。ちなみに原文のeはフランス語綴りでéです。少し意地悪をしてみました。


 A・読取革命の場合

    etypist-20.png     

 第1に、読取革命です。

 「é」は認識できていません。しかし、きちんと文字を認識しています

 なお、縦書きになってしまっていますが、これは、透明テキストとしてOCR処理する分には通常のどうさで、むしろこのようになっていないと困る類のものです。


 B・e.Typistの場合

    201311062111.jpg

 第2に、e.typistです。

 残念ですが、全く英語の部分を単語として認識していません

 今回のバージョンから「対応」とメーカーは表明していましたが。しかし、実際の所は「からっきし」でした。

 一応他の部分もためしたけれど、うまく変換されませんでした・・・。学術論文の脚注の英語論文表記は基本このような形式なので、研究者には致命的でしょう。


 C・Adobe Acrobatの場合

    14B561E5-9FC9-4A7E-8439-B8C13928940B.png

 Acrobatですが、先ほど書いたように、日本語の縦書きについては、ほぼ認識は不可能です。

9・和英混在文書の検証実験

 では横書きで英語と日本語が混在する場合はどうでしょうか?

 etypist-23.png

 実験に使った元画像はこちらです。

 ポイントは、英語の部分の認識と日本語部分との境界の把握です。


 A・読取革命の場合、

 etypist-25.png

 第1に、読取革命です。

 英語の単と単語の間の字間はきちんと認識できており、日本語との区分もついています。しかし、主にイタリック体の部分を中心に英語認識が「壊滅的」です。

 なお、手動でこの部分を「英語」と指定してから処理すれば少しは「まし」です。

 しかし、日本語と混在している場合は「語」としていすると、日本語部分が文字化けしてしまいます。

 なお、読取革命は、2020年10月下旬に英語エンジンを提供するAbbyyの認識精度のオンラインアップデートがあります。

 上表の出力データはそれ以前の精度のものですが、この部分は日本語OCRの精度に関わる部分なので、大きくは改善しないでしょう。


 B・e.Typistの場合、

 etypistfafs.png

 第2に、e.typistです。

 イタリックの部分がほぼ壊滅です。さらに英単語と英単語の間の半角スペースの認識がほぼ欠如している様子です。

 単語が単語と認識できていない点で、読取革命より劣ると言わざるを得ないでしょう。


 C・Adobe Acrobatの場合

40B0B23C-2BD9-4392-8E97-90F9E4F8B6C2.png

 第3に、Acrobatです。

 日本語モードで認識した場合は、英語の部分が横書きでも認識ができないようです。画像として認識され、OCRがかかりませんでした。英語としてOCRにかければ、英語の部分はかかります。

10・状態の悪い文章の検証実験

 続いて、かなり状態の悪い文章の認識について検証します。

 etypist-27.png

 実験に使った元画像はこちらです。

 「電話帳サイズ」の本から、コピー機でコピーした原稿をスキャニングしたデータです。

 なおこれは、元データは白黒2値。見た感じ分かるようにかなり状態が悪い原稿です。

    etypist-26.png

 この論文の上記の部分の認識精度をみてみます。


 A・読取革命の場合 

 yomitori-3.png

 第1に、読取革命です。

 英語の部分はご愛敬として、日本語の部分はかなり健闘していると言えます。英語の部分は基本的に諦めるしかない状況ですね。


 B・e.Typistの場合

 etypist-29.png

 第2に、e.typistです。

 レイアウト認識を含めてかなり壊滅的です

 e.Typistは状態の悪い原稿は昔から苦手で、このようになることが多いです。

 そのため、コピー論文などのOCR化については全く期待できない状況なんですね。日本語だけの文章でも、状態の悪い物は読取革命のほうが性能がかなり良いと言えます。


C・Acrobat


 DC4F28F3-DA18-4A40-B579-F7052BBB9E11.png

 第3に、Adobe Acrobatです。

 やはり状態の悪い原稿は無理でした。横書きで状態の悪いものについても壊滅的な状況でした。

11・作成されるファイルサイズと品質

 最後に、作成されるファイルサイズとクオリティについて書き加えておきます。

 今回の実験では縦書きの日本語のハードカバーのPDF(グレースケール600dpi)を30ページを透明PDFにしました。なお、元の画像PDFファイルは1.8MBでした。

読取革命
  通常圧縮=15.7MB
  高圧縮=3.9MB
e.typist
 通常圧縮= 2.4MB
  高圧縮=1.7MB
Acrobat
 通常圧縮= 7.4MB
  Clearscan=2.2MB

 ファイル圧縮率は、上表の通りです。

 第1に、透明PDFを高圧縮で作成した場合、ファイルサイズの点で優秀なのは、1.7MBまで圧縮できるe.typistでした。

 作成されたファイルのクオリティもなかなかです。


 201604231259.jpg
 こちらは、e.typistの認識結果を400%に拡大表示したものです。圧縮後の表示画質の点でも、及第点だと思います。

 201604231302.jpg

 こちらは、読取革命の認識結果を400%に拡大表示したものです。ファイルは3.9MBと2倍ほどのサイズですが、クオリティは変わらず高レベルと言えます。


 201604231306.jpg
 画像の階調
も、両機種ともさほど変わりませんでした。



 第2に、高圧縮を選択せず、通常圧縮にした場合の結果は以下の通りです。


  201604231308.jpg

 e.typistは、通常圧縮でも2.4MBと高圧縮でした。しかし、視認性はさほど高くないです。

 e.typistの場合、中間域の色を排除した高圧縮率ファイルのほうが文字については視認性が良いです。これは、驚きの結果でした。

 201604231307.jpg

 読取革命は、通常圧縮の方が「文字のカクカク」が少なく解像度が高いです。

 ただファイルサイズは15.7MBと大きめです。



 201604231317.jpg

 AcrobatClearscanをかけた場合、画像としての文字についてもベクター化(=疑似フォント化)されます。

 そのため、視認性は、拡大した場合もかなり整っており、見やすさでは群を抜きます。ファイルサイズも2.2MBと小さくなります。

ーーーーーー
 以上をまとめれば、読取革命とe,typistを使って、高圧縮PDFを作る場合は、視認性はほぼ互角です。

 ファイルサイズの点では、e.typistが多少有利でしょう。ただ、その代わり、e.typistは、圧縮率の少ないPDFを作るのは不得意ですね。

 AcrobatClearscanは、視認性やファイルサイズの点では群を抜いて良いです。

 この点でも、状態の良い原稿を透明PDFにするならば、このソフトが最高と言えます。バックグラウンドのテキストを編集しないならば、こちらが良いでしょう。

 なお、読取革命e.typistも、ソフトへのPDF入力時に400dpiまでダウンスケーリングされます。なお、読取革命は標準では300dpiですが、今回の実験では、400dpiに設定変更して比較しました。

今回の結論
信頼できる日本語OCRソフトは結論的にこれ!

 というわけでOCRソフトをいくつかの観点から比較してみました。

 最後に、いつものように、目的別におすすめのOCRソフトを提案していきたいと思います。


 第1に、ワープロ打ちした会議資料など、状態が良い原稿からの日本語の横書きと縦書き文章のOCR化を考えている方ですが、

 202001181259.jpg

 【パッケージ版】

 3・e.Typist (アジア言語対応)v.15.0
  ¥15,180 Amazon.co.jp (4/2執筆時)

 【ダウンロード版】

 3・e.Typist (アジア言語対応)v.15.0
  ¥13,366 Amazon.co.jp (4/2執筆時)

認識精度(日本語)★★★★★★
認識精度(英語) ★★★☆☆
レイアウト認識力 ★★★★☆
縦書きの認識力  ★★★★☆
文字の見やすさ  ★★★★☆
総合評価     ★★★★★

 会議資料など、比較的新しく状態の良いものの認識させる場合、e.Typistが良いでしょう。

 文章認識の性能は、読取革命と較べた場合、僅かな差ですがこちらに認識性能の軍配が上がると思います。

 e.typistが150万の専門用語辞書、読取革命が60万の用語辞書ですからそのあたりの差が出たのかもしれません。

 ただし、上で紹介したように、縦書きの日本語に英語文字が入る場合や、小説や雑誌などの2段組の文章などは、読取革命に軍配があがります。その点で、英語が混在する研究論文を扱う方には読取革命の方が良いかもしれません。


 第2に、雑誌や本などレイアウトが複雑なものや、新聞や古い原稿など状態が良くない日本語文章のOCR化も考えている方ですが、

  202010101029.jpg

 【2020年10月登場】

 【ソフト版】

 1・ソースネクスト 読取革命 Ver.16
  ¥10,987 Amazon.co.jp (4/2執筆時)

 【ダウンロード版】

 1・ソースネクスト 読取革命 Ver.16
  ¥12,980 Amazon.co.jp (4/2執筆時)

 【バージョンUP版】(直販のみ)

 1・ソースネクスト 読取革命 Ver.16
  ¥6,490 ソースネクスト直販 (4/2執筆時)

認識精度(日本語)★★★★★
認識精度(英語) ★★★☆☆
レイアウト認識力 ★★★★★
縦書きの認識力  ★★★★★
文字の見やすさ  ★★★★☆
総合評価     ★★★★★

 読取革命がおすすめです。

 レイアウト認識機能は、e.Typistより優れているため、雑誌や本など、レイアウトが複雑なものへの対応力があります。

 また、英語/日本語の混在文書などにも完全ではないですが、対応しています。これに加えて、横書きの英語混在文書の場合も読取革命の方がいいですから、おそらく研究者には読取革命の方が利便性が高いです。

 また、状態の悪い古い原稿への対応力も高いです。文字パターン辞書がe.Typistにくらべて12万字多く、潰れ文字の認識性能が高いためです。

 新聞など若干色味が付いた紙もこちらが良いでしょう。縦書き対応力も高いため、新聞の取り込みには良いです。

 e.Typist NEOより価格が高いですが、通常の会議資料などに限定せず、色々な取り込みに使うのならば読取革命が良いでしょう。

ーーー

 なお、格安のバージョンアップ版については、過去のあらゆるバージョンの読取革命、および無償版の読取革命Liteを持っていれば導入できます。

 現在PCにインストールされていない場合は、シリアル番号が必要になります。


 第3に、テキストが検索できる画像PDF(透明PDF)を作る方で、ディスプレイ表示の「みやすさ」を重視したい方に最適なのは、

 202104131223.jpg

 【Windows/Mac用 3年版】

 11・Acrobat Pro DC
  ¥45,099 Amazon.co.jp (4/2執筆時)

認識精度(日本語)★★★★☆
認識精度(英語) ★★★★☆
レイアウト認識力 ★★★☆☆
縦書きの認識力  ★★☆☆☆
文字の見やすさ  ★★★★★★
総合評価     ★★★★★

 元原稿の状態が良く、かつ横書きの英語か日本語限定、という制約は付きますが、Acrobat DC Proが良いです。

 というのも、AcrobatのClear Scan機能を使うと、ディスプレイ上に表示される「画像としての文字」が(見かけがかわらないまま)「疑似フォント化(ベクター化)」され、文字のギザギザが取れ格段に読みやすくなるからです。

 また、「疑似フォント化」されることでPDFファイルのサイズも格段に小さくなります。

 なお、この機能については【おすすめPDF作成ソフトの比較記事】で、格安購入法については、【Adobe Acrobat DCのライセンス数と割引購入法】で、それぞれ記事化しています。

 興味のある方はご覧ください。

 なお、Acrobatで作成した透明PDFは、後から認識ミスを変更できません

 認識後に手動で直すなどしたい方は、読取革命などを選ばれた方が良いと思います。また、OCR専用ソフトではないため、詳しい説明書などもありません。

 そのため、OCR初心者の方は、(慣れるまで)最初は読取革命などを選ばれることをおすすめします。

 Atlasも、場合によって両者を使い分けています。

補足・本の自炊関連記事の紹介

 というわけで、今回は日本語OCRの話でした。

 なお、このブログ「モノマニア」では、最新モデルの自炊に関係する機材について、以下のような記事があります。

 201810151908.jpg

1・ドキュメントスキャナーの比較
2・ブックスキャナーの比較
3・裁断機の比較
4・ディスクカッターの比較

5・本の自炊の手順と必要機材まとめ】

 OCRをするために、機材も一緒にお探しの方ご参考になさって下さい。なお、機材を選ぶ場合の、「おすすめ」の詳しい手順については、5番の「まとめ記事」で紹介しました。

 最後になりましたが、記事がもしお役に立ったようならば、以下のTwitter Facebook はてなブックマークボタンなどから記事を共有していただければうれしいです!!(↓)

posted by Atlas at 13:58 | 研究道具(ソフトウェア)

 このブログ家電批評モノマニアには「家電やモノの比較記事」が約350本あります!

 よろしければ、下部のリンク集をご覧ください。

 家電批評モノマニアは、「家電ブログランキング」に参戦中です。右のリンクから「クリックで応援」お願いします!  201302192014.jpg

<広告>

          

Googleなどの検索エンジンでは

「家電批評モノマニア」「家電ジャンル」or「型番」

の単語入力で、このブログの個別記事検索ができます!





          




 今後の記事は、【Twitter アカウント】でツイートしています。お題も募集中!

monomani31.png