比較2018'【使用歴15年】OCRソフト15点の性能とおすすめ【日本語・外国語OCR】:資料・名刺・縦書き文書認識、英語日本語混在文書の精度

2018年10月19日

比較2018'【使用歴15年】OCRソフト15点の性能とおすすめ【日本語・外国語OCR】:資料・名刺・縦書き文書認識、英語日本語混在文書の精度

【今回レビューする製品】2018年 おすすめ日本語対応OCRソフトの認識精度と選び方:製品版・無料版・バンドル版対応:変換精度の違いやおすすめランキング やOCRフリーソフトとの違いについて

【紹介するソフト一覧】Panasonic 読取革命 ver.15、エプソン・エーアイソフト 読んDE!!ココ ver13、メディアドライブ e.Typist v.14.0 Adobe Acrobat Standard Pro DC 2018 2017 透明PDF ソースネクスト 本格読取 ABBYY FineReader for ScanSnap ファイル管理革命Lite 読んde!!ココ パーソナルVer.4 読取革命Lite やさしく名刺ファイリング PRO v.15.0

今回のお題
変換精度が信頼できる日本語OCRソフトのおすすめはどれ?

 ども、Atlasです。

 今日は日本語OCRソフトを比較します。

 201806231839.jpg

 日本を代表するOCRソフトの「御三家」と(実はOCR性能が高い)Adobe Acrobatについては、その精度を含めて、Atlasの実験結果を公開します。

201806231842.jpg

 また、スキャナに「おまけ」で付属する無料バンドル版の製品の情報も書きました。

ーー

 201806231844.jpg

 Atlasは、(おおよそ)15年程前の大学院生時代にOCRを利用しはじめました。

 そして、ここまで試したソフトは、(バージョンの違いを合わせると)25本を超えます。 

 201806231845.jpg

 なお、今回の記事は、学生や研究者などが、論文・資料を「検索可能な透明PDF」にする目的のほか、会社員の方が会議資料や名刺のスキャニングする場合についても、対応できるようにしました。

 いつものように、製品を比較した後で、「おすすめのOCRソフト」を選ぶ形式で書いていきます。

ーーー

1・日本語OCRソフトの比較
2・英語OCRソフトの比較
3・
PDF作成ソフトの比較
4・iPhone用のOCRアプリの比較

 なお、今回の記事は、このブログのOCRソフトの比較シリーズの「1回目記事」として書きました。

1・OCRソフトの「御三家」の比較

 201806231850.jpg

 現在、日本語の高性能OCRソフトの「売れ筋」は、いくつかあります。

 有名どころでは、Panasonicの読取革命メディアドライブのe.Typist ソースネクストの本格読取が、和製のOCR専門ソフトとしては「TOP3」になります。

 以下、実験に基づく詳しい精度の話に入る前に、これらの製品の特長を簡単に紹介してみたいと思います。


 

 1・Panasonic・読取革命 Ver.15 製品版
  ¥9,335 Amazon.co.jp (10/19執筆時)  

 1・Panasonic・読取革命 Ver.15 UPG版
  ¥4,369 Amazon.co.jp (10/19執筆時)  

 →メーカーサイト

 読取革命は、パナソニックが発売するOCRソフトです。

 どちらかといえば後発でしたが、エプソンがこの分野から撤退した現在、大手では唯一OCRを展開します。

 現在のバージョンは、15です。

 201806231858.jpg

 以下で書くように、今回のバージョンでJIS第2水準の「難しい漢字」に辞書対応し、その上で、基本辞書も拡充されました。

 また、取り消し線付きの文字など、印刷状態の悪い文字の認識も強化されました。

 基本変換性能に関わるメジャーアップデートですから、旧バージョンユーザーには新バージョンへのアップグレードをおすすめできます

 動作するOSは、Windowsのみです。

 ただし、Macについても読取革命Lite for Macという機能限定版がバンドルされており、簡易的利用が可能です。読取革命Liteについては、後ほど別に紹介します。

 etypistfafs-1.png

 対応する言語は、日本語と英語、一部のギリシャ文字です。

 ただし、英語については、専門辞書が未搭載であるため【英語OCRソフトの比較】で紹介したような英語専門のソフトに比べると精度は劣ります。なお、日英混在文書の精度は、この記事で後ほど比較実験しています。

 201806231856.jpg 

 認識できる文字数は、日本語の認識対象文字数はJISの第2水準の全てを含めた約6800字です。

 1つ前のバージョンでは第2水準の漢字の半分が非対応でした。そのため、今回のバージョンアップで大幅な改善が見られたと言えます。姓名などの旧字体のデータを取り込もうと考えている場合にかなりの改善があると言えます。

 201806231901.jpg

 用語辞書は、変換を補助するためのものです。

 この場合、単語辞書(文字パターン辞書)は18万ワード、日本語の専門用語辞書の単語登録(多いほど、単語としての認識精度が上がる)は、61万ワードが収録されます。

 用語辞書は、OCRの精度を上げるための絶対条件です。無料版や製品同梱番のOCRソフトの場合、導入されていない場合が多く、有料版と大きな差が付く部分と言えます。


 

 2・e.Typist (アジア言語対応)v.15.0
  ¥15,305 Amazon.co.jp (10/19執筆時)  

 →メーカーサイト

 e.Typistは、メディアドライブが発売するOCRソフトです。OCRソフトとしては「老舗」で信頼性の高い製品です。

 201806231903.jpg

 現在のバージョンは、「15」です。

  14と比べると、OCR精度に関わる性能がアップグレードした点が見所です。

 具体的には日本語の斜体文字(イタリック)体の認識と、良く論文などでみかける縦書きの日本語の文章中に横書きの英語文字が混在する文章の認識とに対応しました。

 これらは過去バージョンにおける読取革命ではすでに対応していたものです。あとで実際に検証しますが、実際の精度はイマイチでした

 動作するOSは、Windowsのみです。

 fgrgkgudu-5.png

 対応する言語は、英語の欧州言語とアジア言語(韓国語・中国語)なども対応です。とくに、アジア言語には定評があります。

 201806231856.jpg 

 認識できる文字数は、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字ということになります。こちらは読取革命と同レベルで、住所録など旧字体の姓名の読み取りなどには向いていると言えます。

 用語辞書は、OCRの文字種のバリエーションの変化に対応する単語辞書(文字パターン辞書)は、読取革命に及ばない6万語です。専門用語の単語登録(多いほど、単語としての認識精度が上がる)は、そちらより多い150万ワードです。

 結論的にいえば、e.Typistは、専門用語の単語登録が多いため、状態の良い原稿の認識精度が高いと言えます。

 一方、単語辞書(文字パターン辞書)が少ないので、コピーした論文のような状態の悪い原稿の精度は読取革命に及ばないと言えます。


 3・e.Typist NEO(日・英のみ) v.15.0
  ¥7,907 Amazon.co.jp (10/19執筆時)  

 e.Typist NEOは、メディアドライブのe.Typistの廉価版です。

 動作するOSは、Windowsのみです。

 対応する言語は、日本語と英語のみに省略された製品です。機能面では、e.Typistに準じますが、対応言語が限定された廉価版という扱いです。

 201806231856.jpg 

 認識できる文字数は、したがって、同様で、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字ということになります。

 用語辞書も、単語辞書(文字パターン辞書)は6万語、日本語の専門用語の単語登録150万ワードと上位製品と同様です。

 いずれにしても、こちらの製品は、アジア言語や、英語以外のヨーロッパ言語が不要ならば、価格的にこちらはお買得です。


 

 4・ソースネクスト本格読取 5
   ¥3,002 Amazon.co.jp (10/19執筆時)  

 本格読取は、ソースネクストが販売する、価格の安さが見所の製品です。

 動作するOSは、Windowsのみです。

 対応する言語は、日本語と英語です。

 201806231907.jpg

 認識できる文字数は、情報が非開示です。エンジンは「読取革命」を出すパナソニック製を搭載していますが、最新のフルバージョンの提供ではありません

 用語辞書も、したがって、パナソニック製ですが、専門辞書は75万ワードと機能が限定されます。

 また、使い勝手の部分でも注意が必要で、こちらは、出力もワード・エクセル・テキストファイルのみで、PDF出力/透明テキスト化ができない仕様です。

2・バンドル版の無料のOCRソフト

 続いて、スキャナにバンドルされているOCRソフト(フリーソフト)について簡単に紹介してみましょう。


 201712091627.jpg

 

 5・富士通 ScanSnap FI-IX500A
  ¥39,050 Amazon.co.jp (10/19執筆時)

 ABBYY FineReader for ScanSnapは、富士通のScanSnapシリーズに無料添付(バンドル)されるOCRソフトです。

 ScanSnapで読み取ったPDFのみOCRを欠けることができるという機能制限があります。

 201806231909.jpg

 OCRエンジンは、後ほど紹介するABBYY FineReader という米国製ソフトを元としており、多言語の1つとして「日本語」ごをフォローしているレベルですので、日本語の変換は「不得意」です。

 対応する言語は、日本語と英語です。

 認識できる文字数は、非公表です。さらにイタリック文字や太字についても原稿通りに再現できません

 用語辞書も、単語辞書(文字パターン辞書)は、非搭載であり、字形のみからの判断のため再現率は低いです。

 こうした点で、日本語ないし、日英混在文書の変換には適さないと言えます。

 動作するOSは、Windowsのほか、Macにも対応です。


 171209-0007-30%.png

 

 6・Canon imageFORMULA DR-C225W
  ¥32,299 Amazon.co.jp
(10/19執筆時)

 ファイル管理革命Liteは、キヤノンのDR-C225Wなどのドキュメントスキャナに同梱されるOCR対応ソフトです。

 201806231907.jpg

 OCRエンジンは「読取革命」のパナソニックが作っています。

 対応する言語は、日本語と英語です。しかし、基本的にテキストファイルとして抽出のみ対応し、PDF書類の作成は不可能です。

 用語辞書も、非搭載となります。

 なお、製品版の「ファイル管理革命」についても、OCRの部分は、別売の「読取革命」と連携させる方式です。パナソニック製とはいえ、ファイル管理革命Liteは、その精度は期待できません。

 動作するOSは、Windowsのみです。


  201712091646.jpg

  

 7・EPSON スキャナー DS-530
  ¥35,348 Amazon.co.jp (10/19執筆時)

 読んde!!ココ パーソナルVer.4は、エプソンのスキャナに付属するOCRソフトです。

 OCRエンジンは、AISOFTというエプソン系列の会社の「読んde!!ココ」というソフトのエンジンがベースです。このエンジンは、Adobe系のソフトのOCRとして利用されています。

 対応する言語は、日本語と英語です

 用語辞書は「非搭載」です。しかし、日本語としての変換精度はバンドル版としては良い部類です。

 なお、PDFの作成は可能ですが、透明PDFはできません

 無料ソフトとしては、本格的な部類ですが、本家の「読んde!!ココ」が残念ながら「生産終了」となっているため、「消えゆく製品」ではあります。

 動作するOSは、Windowsのほか、Macにも対応です。


 201712091655.jpg

 

 8・Canon CanoScan LiDE220
  ¥9,655 Amazon.co.jp   (10/19執筆時)

 読取革命Liteは、キヤノンのフラッドベッド型スキャナの多くにバンドルされていたOCRソフトです。現在は契約終了ですが、お持ちの方はまだいるかと思います。

 201806231907.jpg

 OCRエンジンは、パナソニックの読取革命を元としたものを利用します。

 対応する言語は、日本語と英語です。

 用語辞書も、こちらも「非搭載」です。ただ、字形認識機能は、正規品とほぼ同水準のものを利用しているため、「つぶれ文字」「傾いた文字」などの認識力は高いです。無料版としては、性能は上々です。

 ただし、出力はWordなどのみで、PDF化は、透明PDFを含めて未対応です。

 動作するOSは、Windowsのほか、Macにも対応です。

ーーー

 201806231842.jpg

 以上、4種類の「フリーバンドル版」のOCRソフトを確認しました。

 結論的に言えば、これらは、OCRソフトとしては「お試し用」です。「御三家」の製品版ソフトより大幅に能力が劣ります

 製品版との大きな違いは「用語辞書の有無」であり、これが認識精度の大きな違いを生みます。いずれにしても、正確な変換精度が欲しければ、単体の製品版ソフトを購入する必要がある でしょう。

3・OCR機能が付属する専門ソフトの比較

 つづいて、OCR専門ソフトではないが、専門特化した高度なOCRソフトが「機能の1つ」として付属するソフトを紹介します。

 特に、Adbobe Acrobat DCシリーズは、使い方によっては「御三家に匹敵する利便性」を得られるため、注目するべきです。


 201803021811.jpg

 【Windows用 3年版】 

 9・Acrobat Standard DC 2018
  ¥37,260 Amazon.co.jp
(10/19執筆時)

 【Windows/Mac用 3年版】

 10・Acrobat Pro DC 2018
  ¥45,560 Amazon.co.jp (10/19執筆時)

 Adobe Acrobat DCは、アドビ社のPDF作成ソフトの製品版です。

 現在は「時限ライセンス版」となっています。

・Acrobat Pro DC 2017
 
¥62,800→¥72,800

・Acrobat Standard DC 2017
 ¥39,800→¥45,770

 正確には、「Acrobat Pro DC 2017」という「永久ライセンス版」もありますが、2018年の値上げで「時限ライセンスに比べてのお得感が全くない状況」になっています。

 この点については、詳しくは【Acrobatのライセンスとお得な購入法】で書きましたので、今回は、あくまでOCR機能の説明に集中します。

 201806231917.jpg

 このソフトの基本用途は「PDF作成」です。

 しかし、付属する便利機能の1つとして、OCR機能が付属します。後ほど実験するように、日本語の縦書きの対応能力などに限界がありますが、PDFファイルのOCR化に使う分にはかなり高性能です。


 201806231922.jpg

 とくに、「検索できるPDF」を作る場合、【PDF作成ソフトの比較記事】で紹介したように、書類の文字の「画像」を、ベクターデータ化できるため、テキスト検索できるようになるだけでなく、画面での文字の見かけも綺麗にできます。拡大ズームをかけても「歪まない」よう「疑似的なフォント化する」という意味です。

 対応する言語は、この製品の場合、日本語・英語のほか、ヨーロッパ言語・アジア系言語を含む多言語のOCRに対応します。

 201712091646.jpg

 認識できる文字は、情報が非開示です。

 ただ、おそらく、Epson(AiSoft)の読んDE!!ココ から提供された性能の良いエンジンを発展させたものだと思います。精度については、後ほど実験してみたいと思います。

 用語辞書は、こちらも情報非開示です。しかし、Atlasのユーザーとしての経験上、単語辞書、専門用語辞書ともにかなり貧弱であると結論できます。この点は専門のOCRソフトではないために割り引いて評価しないといけません。

 201803021811.jpg

 なお、 Windows用には、スタンダード版とプロ版がありますが、OCRの部分の性能は両者とも同じです。

 加えて、

 その他の性能の詳しい違いについては、このブログの【PDF作成ソフトの比較記事】をご覧ください。

 また、学生版などお得な買い方については、【Acrobatのライセンスとお得な購入法】でフォローしています。


  

 11・DocuWorks8 日本語版
  ¥14,146 Amazon.co.jp (10/19執筆時)

 DocuWorks8は、富士ゼロックスが販売する、オフィス用パブリケーションソフトです。

 「Adobeのライバル」的なソフトで、複数のファイルを1つの規格のファイルにパッケージングすることがメインの製品です。

 同社の販売するコピー機と一緒に利用すると便利ですね。こちらも、Adobe社と同じで、「おまけ機能」として、OCR機能が付属します。

 対応する言語は、日本語・英語です。

 201806231928.jpg

 認識できる文字数は、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字です。こちらは、e.Typistを販売するメディアドライブの旧式のエンジン(活字文書OCRライブラリ v.6.0 ) の提供を受けているため、専門版と水準は同等です。

 用語辞書は、しかしながら情報が非開示です。おそらく、辞書は未搭載だと思います。

 こうした点から言えば、オフィス用パブリケーションソフトとしてはたいへん優秀なソフトですが、本格的なOCRソフトとしては、機能は貧弱です。


 

 12・やさしく名刺ファイリング PRO v.15.0
  ¥7,470 Amazon.co.jp (10/19執筆時)

 やさしく名刺ファイリング PROは、名刺整理ソフトの草分けで、それに専門特化したソフトです。「御三家」であるe.Typistを発売するメディアドライブが取り扱う、名刺に特化した製品です。

 スキャナなどで一括して取り込んだデータを、名刺管理データベース化することができる点で、ビジネスマンに人気です。

 対応する言語は、日本語・英語です。名刺の裏表の両面スキャンにも対応します。

 認識できる文字数用語辞書は、しかしながら情報が非開示です。辞書は、未搭載だと思います。

  201712091732.jpg

 ただ、名刺については、「名字の入れ間違いが致命的」になる類のものです。

 この製品の面白い部分は、スキャンしたデータにOCRをかけるだけではなく、同社の「THE 名刺管理」というクラウドサービスで、500枚までの名刺データを目視チェック・訂正してくれる点です。

 最近多い、漢字圏のアジアの国へ「アウトソーシング」する名刺サービスの一環ですが、精度の高さは確実にOCRを超えます。

 以上、やさしく名刺ファイリング PROの紹介でした。名刺取り込みについては、正直なところ、OCRだけでは手に負えず、「人の目のチェック」が必要です。こうしたサービスを利用するのが良いでしょう。

4・多言語対応のOCRソフト

 最後に多言語対応OCRソフトについて、紹介します。


  201702281443.jpg

 13・Fine Reader 14プロフェッショナル版
  ¥21,600 VECTORシェアレジ (10/19執筆時)

  

 14・OMNIPAGE Ultimate 英語版
  ¥ 59,184 Amazon co.jp (10/19執筆時)

   
 15・Readiris Pro 14
  ¥ 6,087 Amazon co.jp (10/19執筆時)

 これらのソフトは、多言語対応のOCRソフトとなります。

 基本的に英語圏で売られているものを、並行輸入したり、代理店が販売している形式です。

 201806231934.jpg

 対応する言語は、日本語・英語を含めた世界の100以上の言語です。

 用語辞書は、アジア圏の言語について重要な部分ですが、いずれも未搭載です。

 英語などヨーロッパ言語専用として考える場合を除けば、利用しないのが無難でしょう。

 201809190819.jpg

2・英語OCRソフトの比較

 なお、英語専用OCRの精度については、別に【おすすめ英語OCRソフトの比較記事】があります。翻訳用として考えている方は、そちらをご覧ください。

ーー

 以上、ここまでは、日本語に対応するOCRソフトを16製品紹介しました。

 結論的に言えば、制度の注目する場合、「読取革命」と「e.typist」が、搭載される用語辞書などの点で群を抜いていると言えます。一方、統合ソフトとしては、PDF書類の見かけも綺麗にできるAdobe DCの使い勝手も捨てがたいと言えます。

 そこで、以下では、これら3つのソフトについて、より詳しい実験をおこなっていくことにしたいと思います。

5・レイアウト認識に関する実験

 では、実際に文章を取り込みながら認識精度を比較していきましょう。

 状態の良い文章、悪い文章などいろいろな素材を使って試してみました。なお、以下の文章の素材は、特に断りのない場合、A4サイズ、グレースケール(ないしカラー)、400dpiの精度で取り込んだものです。


 資料や本を取り込む場合、複雑なレイアウトなもの、写真と文章が混在しているものがあります。

 これを「写真は写真」、「文章は文章」と、しっかりきちんと「切り分けられる」かを実験します。

 etypist-8.png

 元のデータはこれです。

 わりと複雑なレイアウトですが、各OCRソフトはどのように認識するでしょうか?


 A・読取革命の場合

 etypist-9.png

 第1に、パナソニックの「読取革命」です。

 文字の精度はここでは観点とせず、あくまでレイアウト認識の話なります。

 複雑なレイアウトをきちんと認識できているように見えますが、問題が1カ所あります。

 つまり、右上の「朝食に」から始まる文章、実は「画像」と認識されており、OCR処理がかかっていません。元データを見て欲しいのですが、この部分だけ緑がかった文字色です。コントラストの違いから「画像と誤認識」されてしまったようです。

 なお、画像に枠線がついていますが、これはソフト上の表示で、アウトプットの段階では表示されないので安心してください。


 B・e.Typistの場合

 etypist-10.png

 第2に、メディアドライブのe.Typistの場合です。

 こちらは、右上の「朝食に」の部分を含めて、綺麗にレイアウトを認識できています

 さらに、文字の間隔もスクリーン上、見やすく配置されていますね。

 なかなか優秀だと思います。


 C・Adobe Acrobatの場合

 etypist-32.png   

 第3に、Acrobatです。Acrobatについては、編集機能が無いので、OCR化したあとで、認識結果をWordファイルに変換したものを表示しています。

 レイアウトについてはほぼ問題ありません。専門のOCRソフト並みの健闘を見せています。

 結論的に言えば、日本語横書きの認識がメインならば、(有料版の)Adobe Acrobatでも十分です。

 201806231922.jpg

 先述のように、Acrobatで検索可能なPDFを作る場合、PCの画面に表示される文字も「ベクター化」してスクリーン上で見やすくしてくれる(ClearScan)機能を搭載します。

 この点からも、閲覧/検索兼用のPDF作成には、Adobe Acerobat はかなり向いています。(なおアクロバット最新版では、「Clearscan」は、日本語訳されて「編集可能なテキストや画像」と名称変更されています。

6・横書き文字の変換精度の検証実験

 続いて「横書きの文章」について実験しましょう。

 ビジネス書類に多いパターンですので、研究者以外に、ビジネスマンにも重要です。

 etypist-13.png

 検証する元データ(画像)は、上記のです。

 画像は粗く、レイアウトも複雑ですが、OCRソフトはどのように認識するでしょうか?


 A・読取革命の場合

 etypist-14.png

 第1に、読取革命です。

 表示しているのは「読み取り結果」の画面です。

 問題なくきちんと認識されていると言えるでしょう。100%認識できているといえます。優秀です。


 B・e.Typistの場合

 etypist-15.png

 第2に、e.typistです。

 こちらも健闘しています。惜しいのは、「1」の数字だけ「且」に文字化けしている点です。

 もしかすると、近辺の「具」という文字との類推を考えたのかもしれませんね。

 ただ、これは誤差レベルであり、読取とほぼ互角の性能といえます。


 C・Acrobatの場合

 etypist-33.png

 第3にAcrobatの場合です。

 このように、横書きの文章は問題なく認識できます。優秀と言えるでしょう。

 繰り返しますが、「横書きの認識性能」については、Acrobatはかなり優秀です。

ーー

 実は、これには事情があります。2015年頃から、自力でOCRエンジンを開発できる日本の「ソフトメーカー」が、総じて、OCRソフトの年次更新(新バージョンの発売)を止めてしまいました。(だから「ver15」なのです)

 Adobeは、せっせと機能革新をしているため、今後も差が開きかねない状況です。実際、英語圏のOCRソフトは、リッチテキスト認識に移行して久しく、「明朝体」「ゴシック体」など字体の判別もできます。

 一方で、日本のOCRはその水準にいくまでに「進化を止めて」います。「読んDEココ」などが実質撤退したことをふまえると、既存メーカーを責めることはできません。

 どちらかといえば、国が助成金をつけてやるべき仕事でしょうね。

7・縦書き文章の変換精度の検証実験

 続いて縦書き文章について、2段組の縦書き文章にOCRをかけてみました。


     etypist-16.png

 元のデータはこちらです。

 実験のポイントは、段組をきちんと把握しているか、と認識精度です。


 A・読取革命の場合

     etypist-17.png

 第2に、読取革命です。

 上図のように、段組をきちんと把握できています

 2段目の最後の「時ノ容姿」が「吟ノ容姿」になってしまっている以外は、ほぼ完全に認識できています。


 B・e.Typistの場合

     etypist-18.png

 第2に、e.typistです。

 ほぼ完璧に認識できていますね。状態の良い文章についてはe.typistの健闘が光ります。


 C・Adobe Acrobatの場合

   ECAA19D2-EA9C-4BD9-884B-7FF284C99A5C.png

 第3に、Acrobatです。

 残念ながら、このフィールドを文字であると認識できず、画像として認識しました

 実は(ここまで激賞してきた)Adobe Acrobatですが、日本語の縦書きについては「壊滅的な状況」にあります。

8・横書き文字の変換精度の検証

 続いて、縦書き文章について。混在する横書きの英語文字を認識するかです。


     etypist-19.png

 元原稿はこれです。

 実験のポイントは、collégeをきちんと把握しているかと、認識精度です。ちなみに原文のeはフランス語綴りでéです。少し意地悪をしてみました。


 A・読取革命の場合

    etypist-20.png     

 第1に、読取革命です。

 「é」は認識できていません。しかし、きちんと文字を認識しています

 なお、縦書きになってしまっていますが、これは、透明テキストとしてOCR処理する分には通常のどうさで、むしろこのようになっていないと困る類のものです。


 B・e.Typistの場合

    201311062111.jpg

 第2に、e.typistです。

 残念ですが、全く英語の部分を単語として認識していません

 今回のバージョンから「対応」とメーカーは表明していましたが。しかし、実際の所は「からっきし」でした。

 一応他の部分もためしたけれど、うまく変換されませんでした・・・。学術論文の脚注の英語論文表記は基本このような形式なので、研究者には致命的でしょう。


 C・Adobe Acrobatの場合

    14B561E5-9FC9-4A7E-8439-B8C13928940B.png

 Acrobatですが、先ほど書いたように、日本語の縦書きについては、ほぼ認識は不可能です。

9・和英混在文書の検証実験

 では横書きで英語と日本語が混在する場合はどうでしょうか?

 etypist-23.png

 実験に使った元画像はこちらです。

 ポイントは、英語の部分の認識と日本語部分との境界の把握です。


 A・読取革命の場合、

 etypist-25.png

 第1に、読取革命です。

 英語の単と単語の間の字間はきちんと認識できており、日本語との区分もついています。しかし、主にイタリック体の部分を中心に英語認識が「壊滅的」です。

 なお、手動でこの部分を「英語」と指定してから処理すれば少しは「まし」です。

 しかし、日本語と混在している場合は「語」としていすると、日本語部分が文字化けしてしまいます。

 読取革命は英語の部分はFine Readerという英語圏では最も信頼性が高いOCRを採用していますが、エンジンを上手く生かし切れていません。


 B・e.Typistの場合、

 etypistfafs.png

 第2に、e.typistです。

 イタリックの部分がほぼ壊滅です。さらに英単語と英単語の間の半角スペースの認識がほぼ欠如している様子です。

 単語が単語と認識できていない点で、読取革命より劣ると言わざるを得ないでしょう。


 C・Adobe Acrobatの場合

40B0B23C-2BD9-4392-8E97-90F9E4F8B6C2.png

 第3に、Acrobatです。

 日本語モードで認識した場合は、英語の部分が横書きでも認識ができないようです。画像として認識され、OCRがかかりませんでした。英語としてOCRにかければ、英語の部分はかかります。

10・状態の悪い文章の検証実験

 続いて、かなり状態の悪い文章の認識について検証します。

 etypist-27.png

 実験に使った元画像はこちらです。

 「電話帳サイズ」の本から、コピー機でコピーした原稿をスキャニングしたデータです。

 なおこれは、元データは白黒2値。見た感じ分かるようにかなり状態が悪い原稿です。

    etypist-26.png

 この論文の上記の部分の認識精度をみてみます。


 A・読取革命の場合 

 yomitori-3.png

 第1に、読取革命です。

 英語の部分はご愛敬として、日本語の部分はかなり健闘していると言えます。英語の部分は基本的に諦めるしかない状況ですね。


 B・e.Typistの場合

 etypist-29.png

 第2に、e.typistです。

 レイアウト認識を含めてかなり壊滅的です

 e.Typistは状態の悪い原稿は昔から苦手で、このようになることが多いです。

 そのため、コピー論文などのOCR化については全く期待できない状況なんですね。日本語だけの文章でも、状態の悪い物は読取革命のほうが性能がかなり良いと言えます。


C・Acrobat


 DC4F28F3-DA18-4A40-B579-F7052BBB9E11.png

 第3に、Adobe Acrobatです。

 やはり状態の悪い原稿は無理でした。横書きで状態の悪いものについても壊滅的な状況でした。

1・作成されるファイルサイズと品質

 最後に、作成されるファイルサイズとクオリティについて書き加えておきます。

 今回の実験では縦書きの日本語のハードカバーのPDF(グレースケール600dpi)を30ページを透明PDFにしました。なお、元の画像PDFファイルは1.8MBでした。

読取革命
  通常圧縮=15.7MB
  高圧縮=3.9MB
e.typist
 通常圧縮= 2.4MB
  高圧縮=1.7MB
Acrobat
 通常圧縮= 7.4MB
  Clearscan=2.2MB

 ファイル圧縮率は、上表の通りです。

 第1に、透明PDFを高圧縮で作成した場合、ファイルサイズの点で優秀なのは、1.7MBまで圧縮できるe.typistでした。

 作成されたファイルのクオリティもなかなかです。


 201604231259.jpg
 こちらは、e.typistの認識結果を400%に拡大表示したものです。圧縮後の表示画質の点でも、及第点だと思います。

 201604231302.jpg

 こちらは、読取革命の認識結果を400%に拡大表示したものです。ファイルは3.9MBと2倍ほどのサイズですが、クオリティは変わらず高レベルと言えます。


 201604231306.jpg
 画像の階調も、両機種ともさほど変わりませんでした。



 第2に、高圧縮を選択せず、通常圧縮にした場合の結果は以下の通りです。


  201604231308.jpg

 e.typistは、通常圧縮でも2.4MBと高圧縮でした。しかし、視認性はさほど高くないです。

 e.typistの場合、中間域の色を排除した高圧縮率ファイルのほうが文字については視認性が良いです。これは、驚きの結果でした。

 201604231307.jpg

 読取革命は、通常圧縮の方が「文字のカクカク」が少なく解像度が高いです。

 ただファイルサイズは15.7MBと大きめです。



 201604231317.jpg

 AcrobatClearscanをかけた場合、画像としての文字についてもベクター化(=疑似フォント化)されます。

 そのため、視認性は、拡大した場合もかなり整っており、見やすさでは群を抜きます。ファイルサイズも2.2MBと小さくなります。

ーーーーーー
 以上をまとめれば、読取革命とe,typistを使って、高圧縮PDFを作る場合は、視認性はほぼ互角です。

 ファイルサイズの点では、e.typistが多少有利でしょう。ただ、その代わり、e.typistは、圧縮率の少ないPDFを作るのは不得意ですね。

 AcrobatClearscanは、視認性やファイルサイズの点では群を抜いて良いです。

 この点でも、状態の良い原稿を透明PDFにするならば、このソフトが最高と言えます。バックグラウンドのテキストを編集しないならば、こちらが良いでしょう。

 なお、読取革命e.typistも、ソフトへのPDF入力時に400dpiまでダウンスケーリングされます。なお、読取革命は標準では300dpiですが、今回の実験では、400dpiに設定変更して比較しました。

今回の結論
信頼できる日本語OCRソフトは結論的にこれ!

 というわけでOCRソフトをいくつかの観点から比較してみました。

 最後に、いつものように、目的別におすすめのOCRソフトを提案していきたいと思います。


第1に、ワープロ打ちした会議資料など、状態が良い原稿からの日本語の横書きと縦書き文章のOCR化を考えている方ですが、

 201806232012.jpg

 3・e.Typist NEO(日・英のみ) v.15.0
  ¥7,907 Amazon.co.jp (10/19執筆時)   

 2・e.Typist (アジア言語対応)v.15.0
  ¥15,305 Amazon.co.jp (10/19執筆時)  

 会議資料など、比較的新しく状態の良いものの認識させる場合、e.Typistが良いでしょう。

 文章認識の性能は、読取革命と較べた場合、僅かな差ですがこちらに認識性能の軍配が上がると思います。e.typistが150万の専門用語辞書、読取革命が60万の用語辞書ですからそのあたりの差が出たのかもしれません。

 ただし、上で紹介したように、縦書きの日本語に英語文字が入る場合や、小説や雑誌などの2段組の文章などは、読取革命に軍配があがります。その点で、英語が混在する研究論文を扱う方には読取革命の方が良いかもしれません。

 アジア言語が必要でない方は、英・日変換のみのe.Typist NEO(日・英のみ) v.14.0が最も安いです。


第2に、雑誌や本などレイアウトが複雑なものや、新聞や古い原稿など状態が良くない日本語文章のOCR化も考えている方ですが、

 

 1・Panasonic・読取革命 Ver.15 製品版
  ¥9,335 Amazon.co.jp (10/19執筆時)  

 1・Panasonic・読取革命 Ver.15 UPG版
  ¥4,369 Amazon.co.jp (10/19執筆時)  

 読取革命がおすすめです。

 レイアウト認識機能は、e.Typistより優れているため、雑誌や本など、レイアウトが複雑なものへの対応力があります。

 また、英語/日本語の混在文書などにも完全ではないですが、対応しています。これに加えて、横書きの英語混在文書の場合も読取革命の方がいいですから、おそらく研究者には読取革命の方が利便性が高いです。

 また、状態の悪い古い原稿への対応力も高いです。文字パターン辞書がe.Typistにくらべて12万字多く、潰れ文字の認識性能が高いためです。新聞など若干色味が付いた紙もこちらが良いでしょう。縦書き対応力も高いため、新聞の取り込みには良いです。

 e.Typist NEOより価格が高いですが、通常の会議資料などに限定せず、色々な取り込みに使うのならば読取革命が良いでしょう。

ーーー

 なお、格安のバージョンアップ版については、過去のあらゆるバージョンの読取革命、および無償版の読取革命Liteを持っていれば導入できます。現在PCにインストールされていない場合は、シリアル番号が必要になります。


第3に、テキストが検索できる画像PDF(透明PDF)を作る方で、ディスプレイ表示の「みやすさ」を重視したい方に最適なのは、

 201803021811.jpg

 【Windows用 3年版】 

 9・Acrobat Standard DC 2018
  ¥37,260 Amazon.co.jp
(10/19執筆時)

 【Windows/Mac用 3年版】

 10・Acrobat Pro DC 2018
  ¥45,560 Amazon.co.jp (10/19執筆時)

 元原稿の状態が良く、かつ横書きの英語か日本語限定、という制約は付きますが、Acrobat DCが良いです。

 というのも、AcrobatのClear Scan機能を使うと、ディスプレイ上に表示される「画像としての文字」が(見かけがかわらないまま)「疑似フォント化(ベクター化)」され、文字のギザギザが取れ格段に読みやすくなるからです。

 また、「疑似フォント化」されることでPDFファイルのサイズも格段に小さくなります。

 なお、この機能については【おすすめPDF作成ソフトの比較記事】で、格安購入法については、【Adobe Acrobat DCの利センス数と割引購入法】で、それぞれ記事化しています。

 興味のある方はご覧ください。

 なお、Acrobatで作成した透明PDFは、後から認識ミスを変更できません

 認識後に手動で直すなどしたい方は、読取革命などを選ばれた方が良いと思います。また、OCR専用ソフトではないため、詳しい説明書などもありません。

 そのため、OCR初心者の方は、(慣れるまで)最初は読取革命などを選ばれることをおすすめします。

 Atlasも、場合によって両者を使い分けています。

補足・本の自炊関連記事の紹介

 というわけで、今回は日本語OCRの話でした。

 なお、このブログ「モノマニア」では、最新モデルの自炊に関係する機材について、以下のような記事があります。

 201810151908.jpg

1・ドキュメントスキャナーの比較
2・ブックスキャナーの比較

3・裁断機の比較

4・ディスクカッターの比較

5・本の自炊の手順と必要機材【まとめ】

 OCRをするために、機材も一緒にお探しの方ご参考になさって下さい。なお、機材を選ぶ場合の、「おすすめ」の詳しい手順については、5番の「まとめ記事」で紹介しました。

 最後になりましたが、記事がもしお役に立ったようならば、以下のTwitter Facebook はてなブックマークボタンなどから記事を共有していただければうれしいです!!(↓)

posted by Atlas at 13:06 | 研究上の道具(ソフトウェア)

今回の記事はいかがだったでしょうか?

モノマニアには「家電やモノの比較記事」が約350本あります!

よろしければ、下部のリンク集もご覧ください。

<広告>

 この記事がお役に立てたようならば、右のリンクから「家電ブログランキング」にクリック投票お願いします。  201302192014.jpg
          

Googleなどの検索エンジンでは

「モノマニア」「家電ジャンル」or「型番」

の単語入力で、このブログの個別記事検索ができます!

<PR>

約350記事の完全なリンク集は、【トップページ】の下部にあります。

今後の
記事は【Twitter アカウント】でツイートしています。お題も募集中!

monomani31.png