比較2017' 現行の日本語OCRソフト16点の性能とおすすめ:資料・名刺・縦書き文書認識、英語日本語混在文書の精度

2017年12月09日

比較2017' 現行の日本語OCRソフト16点の性能とおすすめ:資料・名刺・縦書き文書認識、英語日本語混在文書の精度

今回レビューする製品:2017年 おすすめ日本語対応OCRソフト16製品の性能と選び方:製品版・無料版・バンドル版対応:Panasonic 読取革命 ver.15、エプソン・エー・アイ・ソフト :読んDE!!ココ ver13、メディアドライブ:e.Typist v.14.0 Adobe Acrobat DC2017 透明PDF ソースネクスト 本格読取 4 機種の違いやおすすめランキング ABBYY FineReader for ScanSnap ファイル管理革命Lite 読んde!!ココ パーソナルVer.4 読取革命Lite やさしく名刺ファイリング PRO v.15.0 OCRフリーソフトとの違い

今回のお題
変換精度が信頼できる日本語OCRソフトのおすすめはどれ?

 ども、Atlasです。

 今日は日本語OCRソフトを比較します。

 各社の製品版のほか、スキャナなどに不蔵する無料版バンドル版の製品も比較をします。また、主要ソフトについては、Atlasによる変換精度についての詳しい比較実験の結果についても公開します。

 201712091722.jpg

 今回の記事は、研究者などが、論文・資料を「検索可能な透明PDF」にする目的のほか、会社員の方が、会議資料や名刺のスキャニングする場合についても、対応できるように書いています。

 このブログ「モノマニア」では、OCR・PDF関連ソフトについて、以下のような記事があります。

1・日本語OCRソフトの比較
2・英語OCRソフトの比較
3・
PDF作成ソフトの比較
4・iPhone用のOCRアプリの比較

 今回は、1番の記事です。

 主に、縦書き・横書きの日本語変換に強いOCRソフトについて比較していきます。

 いつものように、製品を比較した後で、「おすすめのOCRソフト」を選ぶ形式で書いていきます。

1・OCRソフトの「御三家」の紹介

 現在、日本語の高性能OCRソフトの「売れ筋」は、いくつかあります。

 有名どころでは、Panasonicの読取革命メディアドライブのe.Typist ソースネクストの本格読取が、和製のOCR専門ソフトとしては「御三家」になります。

 以下、実験に基づく詳しい精度の話に入る前に、これらの製品の特長を簡単に紹介してみたいと思います。


 

 1・Panasonic・読取革命 Ver.15 製品版
  ¥9,513 Amazon.co.jp
(6/23執筆時)  
 1・Panasonic・読取革命 Ver.15 UPG版
  ¥4,368 Amazon.co.jp
(6/23執筆時)  

 →メーカーサイト

 読取革命は、パナソニックが発売するOCRソフトです。どちらかといえば後発でしたが、エプソンがこの分野から撤退した現在、大手では唯一OCRを展開します。

 現在のバージョンは、15です。下で書くように、今回のバージョンでJIS第2水準の漢字に辞書対応した上で、基本辞書が拡充されました。また、状態の悪い文字への対応も強化されました。基本変換性能に関わるメジャーアップデートですから、旧バージョンユーザーには新バージョンへのアップグレードをおすすめできます

 動作するOSは、Windowsのみです。ただし、Macについても読取革命Lite for Macという機能限定版がバンドルされており、簡易的利用が可能です。読取革命Liteについては、後ほど別に紹介します。

 etypistfafs-1.png

 対応する言語は、日本語と英語、一部のギリシャ文字です。ただし、英語については、専門辞書が未搭載であるため英語OCRソフトの比較】で紹介したような英語専門のソフトに比べると精度は劣ります。なお、日英混在文書の精度は、この記事で後ほど比較実験しています。

 認識できる文字数は、日本語の認識対象文字数はJISの第2水準の全てを含めた約6800字です。1つ前のバージョンでは第2水準の漢字の半分が非対応でした。そのため、今回のバージョンアップで大幅な改善が見られたと言えます。姓名などの旧字体のデータを取り込もうと考えている場合にかなりの改善があると言えます。

 用語辞書は、変換を補助するためのものですが、単語辞書(文字パターン辞書)は18万ワード、日本語の専門用語辞書の単語登録(多いほど、単語としての認識精度が上がる)は、上のような専門領域の61万ワード収録されます。

 なお、用語辞書は、OCRの精度を上げるための絶対条件ですが、無料版や製品同梱番のOCRソフトの場合、導入されていない場合が多く、有料版と大きな差が付く部分と言えます。


 

 2・e.Typist (アジア言語対応)v.15.0
  ¥11,967 Amazon.co.jp
(6/23執筆時)  

 →メーカーサイト

 e.Typistは、メディアドライブが発売するOCRソフトです。OCRソフトとしては「老舗」で信頼性の高い製品です。

 現在のバージョンは、こちらも15です。14と比べると、OCR精度に関わる性能がアップグレードした点が見所です。具体的には日本語の斜体文字(イタリック)体の認識と、良く論文などでみかける縦書きの日本語の文章中に横書きの英語文字が混在する文章の認識に対応しました。

 ただし、これらは過去バージョンにおける読取革命ではすでに対応していたものです。後で実際に検証しますが、実際の精度は?でした

 動作するOSは、Windowsのみです。

 fgrgkgudu-5.png

 対応する言語は、英語の欧州言語とアジア言語(韓国語・中国語)なども対応です。とくに、アジア言語には定評があります。

 認識できる文字数は、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字ということになります。こちらは読取革命と同レベルです。

 用語辞書は、OCRの文字種のバリエーションの変化に対応する単語辞書(文字パターン辞書)は6万語、日本語の専門用語の単語登録(多いほど、単語としての認識精度が上がる)は、上のような専門領域の150万ワードです。住所録など旧字体の姓名の読み取りなどには向いていると言えます。

 なお、スペックだけみると、読取革命は単語辞書(文字パターン辞書)が多いためコピーした論文のような状態の悪い原稿に強く、e.Typistは、専門用語の単語登録が多いため、状態の良い原稿の認識精度が高いとまとめることができます。


 

 3・e.Typist NEO(日・英のみ) v.15.0
  ¥7,972 Amazon.co.jp
(6/23執筆時)  

 e.Typist NEOは、メディアドライブのe.Typistの廉価版です。

 動作するOSは、Windowsのみです。

 対応する言語は、日本語と英語のみに省略された製品です。機能面では、e.Typistに準じますが、対応言語が限定された廉価版という扱いです。

 認識できる文字数は、したがって、同様で、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字ということになります。

 用語辞書も、単語辞書(文字パターン辞書)は6万語、日本語の専門用語の単語登録150万ワードと上位製品と同様です。

 いずれにしても、こちらの製品は、アジア言語や、英語以外のヨーロッパ言語が不要ならば、価格的にこちらはお買得です。


 

 4・ソースネクスト本格読取 5
   ¥3,03 Amazon.co.jp (12/9執筆時)  

 本格読取は、ソースネクストが販売する、価格の安さが見所の製品です。

 動作するOSは、Windowsのみです。

 対応する言語は、日本語と英語です。

 認識できる文字数は、情報が非開示です。エンジンは「読取革命」を出すパナソニック製を搭載していますが、最新のフルバージョンの提供ではありません

 用語辞書も、したがって、パナソニック製ですが、専門辞書は75万ワードと機能が限定されます。

 また、使い勝手の部分でも注意が必要で、こちらは、出力もワード・エクセル・テキストファイルのみで、PDF出力/透明テキスト化ができない仕様です。

2・バンドル版の無料のOCRソフト

 続いて、スキャナにバンドルされているOCRソフト(フリーソフト)について簡単に紹介してみましょう。


 201712091627.jpg

 5・富士通 ScanSnap FI-IX500A
  ¥34,055 Amazon.co.jp (12/9執筆時)

 ABBYY FineReader for ScanSnapは、富士通のScanSnapシリーズに無料添付(バンドル)されるOCRソフトです。ScanSnapで読み取ったPDFのみOCRを欠けることができるという機能制限があります。

 OCRエンジンは、、後ほど紹介するABBYY FineReader という米国製ソフトを元としており、多言語の1つとして「日本語」ごをフォローしているレベルですので、日本語の変換は「不得意」です。

 対応する言語は、日本語と英語です。

 認識できる文字数は、非公表です。さらにイタリック文字や太字についても原稿通りに再現できません

 用語辞書も、単語辞書(文字パターン辞書)は、非搭載であり、字形のみからの判断のため再現率は低いです。

 こうした点で、日本語ないし、日英混在文書の変換には適さないと言えます。

 動作するOSは、Windowsのほか、Macにも対応です。


 171209-0007-30%.png

 6・Canon imageFORMULA DR-C225W
  ¥34,055 Amazon.co.jp
(12/9執筆時)

 ファイル管理革命Liteは、キヤノンのDR-C225Wなどのドキュメントスキャナに同梱されるOCR対応ソフトです。

 OCRエンジンは「読取革命」のパナソニックが作っています。

 対応する言語は、日本語と英語です。しかし、基本的にテキストファイルとして抽出のみ対応し、PDF書類の作成は不可能です。

 用語辞書も、非搭載となります。

 なお、製品版の「ファイル管理革命」についても、OCRの部分は、別売の「読取革命」と連携させる方式です。パナソニック製とはいえ、ファイル管理革命Liteは、その精度は期待できません。

 動作するOSは、Windowsのみです。


  201712091646.jpg

 7・EPSON スキャナー DS-530
  ¥36,146 Amazon.co.jp (12/9執筆時)

 読んde!!ココ パーソナルVer.4は、エプソンのスキャナに付属するOCRソフトです。

 OCRエンジンは、AISOFTというエプソン系列の会社の「読んde!!ココ」というソフトのエンジンがベースです。このエンジンは、Adobe系のソフトのOCRとして利用されています。

 対応する言語は、日本語と英語です

 用語辞書は「非搭載」ですが、日本語としての変換精度はバンドル版としては良い部類です。

 なお、PDFの作成は可能ですが、透明PDFはできません

 無料ソフトとしては、本格的な部類ですが、本家の「読んde!!ココ」が残念ながら「生産終了」となっているため、「消えゆく製品」ではあります。

 動作するOSは、Windowsのほか、Macにも対応です。


 201712091655.jpg

 8・Canon CanoScan LiDE220
 ¥9,702 Amazon.co.jp  
(12/9執筆時)

 読取革命Liteは、キヤノンのフラッドベッド型スキャナの多くにバンドルされているOCRソフトです。

 OCRエンジンは、パナソニックの読取革命を元としたものを利用します。

 対応する言語は、日本語と英語です。

 用語辞書も、こちらも「非搭載」です。ただ、字形認識機能は、正規品とほぼ同水準のものを利用しているため、「つぶれ文字」「傾いた文字」などの認識力は高いです。無料版としては、性能は上々です。

 ただし、出力はWordなどのみで、PDF化は、透明PDFを含めて未対応です。

 動作するOSは、Windowsのほか、Macにも対応です。

ーーー

 以上、4種類の「フリーバンドル版」のOCRソフトを確認しました。

 OCRソフトとしては「お試し用」です。「御三家」の製品版ソフトより大幅に能力が劣ります

 製品版との大きな違いは「用語辞書の有無」であり、これが認識精度の大きな違いを生みます。いずれにしても、正確な変換精度が欲しければ、単体の製品版ソフトを購入する必要がある でしょう。

9・OCR機能が付属した専門ソフト

 つづいて、OCR専門ソフトではないが、専門特化した高度なOCRソフトが付属したソフトを紹介します。

 特に、Acrobatシリーズは、使い方によっては「御三家に匹敵する利便性」を得られるため、注目するべきです。


 

 【Windows用 通常版】 

 9・Acrobat Standard DC 2017
  ¥38,650 Amazon.co.jp
(12/9執筆時)

 【Windows用 通常版】

 10・Acrobat Pro DC 2017
  ¥58,991 Amazon.co.jp
(12/9執筆時)

 【Mac用 通常版】

 11・Acrobat Pro DC 2017   
  ¥61,641 Amazon.co.jp
(12/9執筆時)

  Adobe Acrobat DCは、アドビ社のPDF作成ソフトの製品版です。

 このソフトはPDF作成ソフトですが、付属する便利機能の1つとして、OCR機能が付属します。後ほど実験するように、縦書きの対応能力などに限界がありますが、PDFファイルのOCR化に使う分にはかなり高性能です。

 とくに、「検索できるPDF」を作る場合、PDF作成ソフトの比較記事】で紹介したように、書類の文字の「画像」を、ベクターデータ化できるため、テキスト検索できるようになるだけでなく、画面での文字の見かけも綺麗にできます。

 対応する言語は、この製品の場合、日本語・英語のほか、ヨーロッパ言語・アジア系言語を含む多言語のOCRに対応します。

 認識できる文字は、情報が非開示です。ただ、おそらく、Epson(AiSoft)の読んDE!!ココ から提供された性能の良いエンジンを発展させたものだと思います。精度については、後ほど実験してみたいと思います。

 用語辞書は、こちらも情報非開示です。しかし、Atlasのユーザーとしての経験上、単語辞書、専門用語辞書ともにかなり貧弱であると結論できます。この点は専門のOCRソフトではないために割り引いて評価しないといけません。

 なお、 Windows用には、スタンダード版とプロ版がありますが、OCRの部分の性能は両者とも同じです。

 その他の性能の詳しい違いについては、このブログの【PDF作成ソフトの比較記事】をご覧ください。また、学生版などお得な買い方についても、【Acrobatの激安購入法の記事】でフォローしています。


  

 12・DocuWorks8 日本語版
  ¥11,790 Amazon.co.jp (12/9執筆時)

 DocuWorks8は、富士ゼロックスが販売する、オフィス用パブリケーションソフトです。「Adobeのライバル」的なソフトで、複数のファイルを1つの規格のファイルにパッケージングすることがメインの製品です。同社の販売するコピー機と一緒に利用すると便利ですね。こちらも、Adobe社と同じで、「おまけ機能」として、OCR機能が付属します。

 対応する言語は、日本語・英語です。

 認識できる文字数は、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字です。こちらは、e.Typistを販売するメディアドライブの旧式のエンジン(活字文書OCRライブラリ v.6.0 ) の提供を受けているため、専門版と水準は同等です。

 用語辞書は、しかしながら情報が非開示です。おそらく、辞書は未搭載だと思います。

 こうした点から言えば、オフィス用パブリケーションソフトとしてはたいへん優秀なソフトですが、本格的なOCRソフトとしては、機能は貧弱です。


 

 13・やさしく名刺ファイリング PRO v.15.0
  ¥10,800 Amazon.co.jp (12/9執筆時)

 やさしく名刺ファイリング PROは、名刺整理ソフトの草分けで、それに専門特化したソフトです。「御三家」であるe.Typistを発売するメディアドライブが取り扱う、名刺に特化した製品です。

 スキャナなどで一括して取り込んだデータを、名刺管理データベース化することができる点で、ビジネスマンに人気です。

 対応する言語は、日本語・英語です。名刺の裏表の両面スキャンにも対応します。

 認識できる文字数用語辞書は、しかしながら情報が非開示です。辞書は、未搭載だと思います。

  201712091732.jpg

 ただ、名刺については、「名字の入れ間違いが致命的」になる類のものです。この製品の面白い部分は、スキャンしたデータにOCRをかけるだけではなく、同社の「THE 名刺管理」というクラウドサービスで、500枚までの名刺データを目視チェック・訂正してくれる点です。

 最近多い、漢字圏のアジアの国へ「アウトソーシング」する名刺サービスの一環ですが、精度の高さは確実にOCRを超えます。

 以上、やさしく名刺ファイリング PROの紹介でした。名刺取り込みについては、正直なところ、OCRだけでは手に負えず、「人の目のチェック」が必要です。こうしたサービスを利用するのが良いでしょう。

4・多言語対応OCRソフト

 最後に多言語対応OCRソフトについて、紹介します。

  201702281443.jpg

 14・Fine Reader 14プロフェッショナル版
  ¥21,600 VECTORシェアレジ (11/23執筆時)

  

 15・OMNIPAGE Ultimate 英語版
  ¥ 59,184 Amazon co.jp (11/23執筆時)

   

 16・Readiris Pro 14
  ¥ 5,338 Amazon co.jp
(11/23執筆時)

 これらのソフトは、多言語対応のOCRソフトとなります。

 基本的に英語圏で売られているものを、並行輸入したり、代理店が販売している形式です。

 対応する言語は、日本語・英語を含めた世界の100以上の言語です。

 用語辞書は、アジア圏の言語について重要な部分ですが、いずれも未搭載です。

 英語などヨーロッパ言語専用として考える場合を除けば、利用しないのが無難でしょう。

 なお、英語専用OCRの精度については、別に【おすすめ英語OCRソフトの比較記事】があります。翻訳用として考えている方は、そちらをご覧ください。

ーー

 以上、ここまでは、日本語に対応するOCRソフトを16製品紹介しました。

 結論的に言えば、制度の注目する場合、「読取革命」と「e.typist」が、搭載される用語辞書などの点で群を抜いていると言えます。一方、統合ソフトとしては、PDF書類の見かけも綺麗にできるAdobe DCの使い勝手も捨てがたいと言えます。

 そこで、以下では、これら3つのソフトについて、より詳しい実験をおこなっていくことにしたいと思います。

レイアウト認識についての実験

 では、実際に文章を取り込みながら認識精度を比較していきましょう。状態の良い文章、悪い文章などいろいろな素材を使って試してみました。なお、以下の文章の素材は、特に断りのない場合、A4サイズ、グレースケール(ないしカラー)、400dpiの精度で取り込んだものです。


  資料や本を取り込む場合、複雑なレイアウトなもの、写真と文章が混在しているものがあります。これを写真は写真、文章は文章と各OCRソフトはきちんと切り分けられるのかを実験します。

 元のデータはこれです。

 etypist-8.png

 わりと複雑なレイアウトですが、各OCRソフトはどのように認識するでしょうか?


A・読取革命
 etypist-9.png

 まずは読取革命です。文字の精度はここでは観点とせず、あくまでレイアウト認識の話なります。複雑なレイアウトをきちんと認識できているように見えますが、問題が1カ所。右上の「朝食に」から始まる文章、実は「画像」と認識されており、OCR処理がかかっていません。元データを見て欲しいのですが、この部分だけ緑がかった文字色です。コントラストの違いから画像と認識されてしまったようです。

 なお、画像に枠線がついていますが、これはソフト上の表示で、アウトプットの段階では表示されないので安心してください。


B・e.Typist

 etypist-10.png

 こちらは右上の部分を含めて、綺麗にレイアウトを認識できています。つけたせば、文字の間隔もスクリーン上、見やすく配置されていますね。


C・Acrobat

 etypist-32.png   

 つづいて、Acrobatです。Acrobatについては、編集機能が無いのでOCR化したあとで、認識結果をWordファイルにしたものを表示しています。

 レイアウトについてはほぼ問題なく、専門のOCRソフト並みの健闘を見せています。後でも書きますが、日本語横書きの認識がメインならば、アクロバット11でも実は十分なのです。また、アクロバット11でPDFを作った場合、表示の文字をベクター化してスクリーン上で見やすくしてくれる(ClearScan)機能を搭載しているので、閲覧用のPDF作成にもアクロバット11は向いています。(なおアクロバット最新版では、「Clearscan」は、日本語訳されて「編集可能なテキストや画像」と名称変更されています)

横書き文章の変換精度の検証実験

 続いて横書きの文章の考察。元のデータはこれです。

 etypist-13.png

わりと複雑なレイアウトですが、各OCRソフトはどのように認識するでしょうか?


A・読取革命


 etypist-14.png

 まずは読取革命です。問題なくきちんと認識されていると言えるでしょう。100%認識できているといえます。


B・e.Typist

 etypist-15.png

 e.typistについても健闘していますが、「1」の数字だけ「且」に文字化けが見られます。まあ、これは誤差レベルで読取とほぼ互角の性能といえます。


C・Acrobat

 etypist-33.png

 Acrobatも横書きの文章は問題なく認識できます。優秀と言えるでしょう。

縦書き文章の変換精度の検証実験

 続いて縦書き文章について、2段組の縦書き文章にOCRをかけてみました。


     etypist-16.png

 ポイントは、段組をきちんと把握しているか、と認識精度です。


A・読取革命

     etypist-17.png

 まずは読取革命です。段組をきちんと把握できています。2段目の最後の「時ノ容姿」が「吟ノ容姿」になってしまっている以外ほぼ完全に認識できています。


B・e.Typist

     etypist-18.png

 e.typistはほぼ完璧に認識できていますね。状態の良い文章についてはe.typistの健闘が光ります。


C・Acrobat

   ECAA19D2-EA9C-4BD9-884B-7FF284C99A5C.png

 Acrobatですが、このフィールドを文字であると認識できず、画像として認識しました。実はAcrobatは日本語の縦書きについては壊滅的な状況にあります。

「横書き」文字の変換精度の検証実験

 続いても縦書き文章について。混在する横書きの英語文字を認識するかです。元原稿はこれ。


     etypist-19.png

 ポイントは、collégeをきちんと把握しているかと、認識精度です。ちなみに原文のeはフランス語綴りでéです。少し意地悪をしてみました。


A・読取革命
 

    etypist-20.png     

 読取革命ですが、「é」は認識できていませんが、きちんと文字を認識しています。なお、縦書きになってしまっていますが、これは、透明テキストとしてOCR処理する分には通常のどうさで、むしろこのようになっていないと困る類のものです。


B・e.Typist

    201311062111.jpg

 e.typistは、全く英語の部分を単語として認識していません。今回のバージョンから対応とメーカーは表明していましたが、実際の所は「からっきし」でした。一応他の部分もためしたけれど、うまく変換されませんでした・・・。学術論文の脚注の英語論文表記は基本このような形式なので、研究者には致命的かな。


C・Acrobat

    14B561E5-9FC9-4A7E-8439-B8C13928940B.png

 Acrobatですが、先ほど書いたように、日本語の縦書きについては、ほぼ認識は不可能です。

英語・日本語混在文書の検証実験

 では横書きで英語と日本語が混在する場合はどうでしょうか?

etypist-23.png

 ポイントは、英語の部分の認識と日本語部分との境界の把握です。


A・読取革命

etypist-25.png

 読取革命ですが、英語の単と単語の間の字間はきちんと認識できており、日本語との区分もついています。しかし、主にイタリック体の部分を中心に英語認識が壊滅的です。

 なお、手動でこの部分を「英語」と指定してから処理すれば少しは「まし」ですが、日本語と混在している場合は「英語」としていすると、日本語部分が文字化けしてしまいます。読取革命は英語の部分はFine Readerという英語圏では最も信頼性が高いOCRを採用していますが、エンジンを上手く生かし切れていません。


B・e.Typist

etypistfafs.png

 e.typistも、イタリックの部分がほぼ壊滅です。さらに英単語と英単語の間の半角スペースの認識がほぼ欠如している様子。単語が単語と認識できていない点で、読取革命より劣ると言わざるを得ないかな。


C・ Acrobat

40B0B23C-2BD9-4392-8E97-90F9E4F8B6C2.png

 Acrobatですが、日本語モードで認識した場合は、英語の部分が横書きでも認識ができないようです。画像として認識され、OCRがかかりませんでした。英語としてOCRにかければ、英語の部分はかかります。

状態の悪い文章の検証実験

 最後に、かなり状態の悪い文章の認識について検証します。

etypist-27.png

 元々、電話帳サイズの本から、コピー機でコピーした原稿をスキャニングしたデータです。なおこれは、元データは白黒2値。見た感じ分かるようにかなり状態が悪い原稿です。

    etypist-26.png

 この論文の上記の部分の認識精度をみてみます。


A・読取革命 

 yomitori-3.png

 読取革命ですが、英語の部分はご愛敬として、日本語の部分はかなり健闘していると言えます。英語の部分は基本的に諦めるしかない状況ですね。


B・e.Typist

 etypist-29.png

 e.typistは、レイアウト認識を含めてかなり壊滅的です。e.Typistは状態の悪い原稿は昔から苦手で、このようになることが多いです。そのため、コピー論文などのOCR化については全く期待できない状況なんですね。日本語だけの文章でも、状態の悪い物は読取革命のほうが性能がかなり良いと言えます。


C・Acrobat


 DC4F28F3-DA18-4A40-B579-F7052BBB9E11.png

 Acrobatは、やはり状態の悪い原稿は無理でした。横書きで状態の悪いものについても壊滅的な状況でした。

作成されるファイルサイズとクオリティ

 最後に、作成されるファイルサイズとクオリティについて書き加えておきます。

 今回の実験では縦書きの日本語のハードカバーのPDF(グレースケール600dpi)を30ページを透明PDFにしました。なお、元の画像PDFファイルは1.8MBでした。

・読取革命:通常圧縮=15.7MB、高圧縮=3.9MB
・e.typist :通常圧縮= 2.4MB、高圧縮=1.7MB
・Acrobat :通常圧縮= 7.4MB、Clearscan=2.2MB

 ファイル圧縮率は、上表の通りです。

 第1に、透明PDFを高圧縮で作成した場合、ファイルサイズの点で優秀なのは、1.7MBまで圧縮できるe.typistでした。
 作成されたファイルのクオリティもなかなかです。

 201604231259.jpg
 こちらは、e.typistの認識結果を400%に拡大表示したものです。圧縮後の表示画質の点でも、及第点だと思います。

 201604231302.jpg

 こちらは、読取革命の認識結果を400%に拡大表示したものです。ファイルは3.9MBと2倍ほどのサイズですが、クオリティは変わらず高レベルと言えます。


 201604231306.jpg
 画像の階調も、両機種ともさほど変わりませんでした。



 第2に、高圧縮を選択せず、通常圧縮にした場合の結果は以下の通りです。


  201604231308.jpg

 e.typistは、通常圧縮でも2.4MBと高圧縮でした。しかし、視認性はさほど高くないです。e.typistの場合、中間域の色を排除した高圧縮率ファイルのほうが文字については視認性が良いです。これは、驚きの結果でした。

 201604231307.jpg

 読取革命は、通常圧縮の方が「文字のカクカク」が少なく解像度が高いです。ただファイルサイズは15.7MBと大きめです。



 201604231317.jpg

 AcrobatClearscanをかけた場合、画像としての文字についてもベクター化(=疑似フォント化)されます。そのため、視認性は、拡大した場合もかなり整っており、見やすさでは群を抜きます。ファイルサイズも2.2MBと小さくなります。

ーーーーーー
 以上をまとめれば、読取革命とe,typistを使って、高圧縮PDFを作る場合は、視認性はほぼ互角です。ファイルサイズの点では、e.typistが多少有利でしょう。ただ、その代わり、e.typistは、圧縮率の少ないPDFを作るのは不得意ですね。

 AcrobatClearscanは、視認性やファイルサイズの点では群を抜いて良いです。この点でも、状態の良い原稿を透明PDFにするならば、このソフトが最高と言えます。バックグラウンドのテキストを編集しないならば、こちらが良いでしょう。

 なお、読取革命e.typistも、ソフトへのPDF入力時に400dpiまでダウンスケーリングされます。なお、読取革命は標準では300dpiですが、今回は400dpiに設定変更して比較しました。

今回の結論
信頼できる日本語OCRソフトは結論的にこれ!

 というわけでOCRソフトをいくつかの観点から比較してみました。

 最後に、いつものように、目的別におすすめのOCRソフトを提案していきたいと思います。


第1に、ワープロ打ちした会議資料など、状態が良い原稿からの日本語の横書きと縦書き文章のOCR化を考えている方ですが、

 

 e.Typist NEO(日・英のみ) v.15.0
  ¥7,667 Amazon.co.jp
(12/9執筆時)  

 

 e.Typist (アジア言語対応)v.15.0
  ¥11,613 Amazon.co.jp
(12/9執筆時)  

 会議資料など、比較的新しく状態の良いものの認識させる場合、e.Typistが良いでしょう。文章認識の性能は、読取革命と較べた場合、僅かな差ですがこちらに認識性能の軍配が上がると思います。e.typistが150万の専門用語辞書、読取革命が60万の用語辞書ですからそのあたりの差が出たのかもしれません。


 ただし、上で紹介したように、縦書きの日本語に英語文字が入る場合や、小説や雑誌などの2段組の文章などは、読取革命に軍配があがります。その点で、英語が混在する研究論文を扱う方には読取革命の方が良いかもしれません。

 アジア言語が必要でない方は、英・日変換のみのe.Typist NEO(日・英のみ) v.14.0が最も安いです。


第2に、雑誌や本などレイアウトが複雑なものや、新聞や古い原稿など状態が良くない日本語文章のOCR化も考えている方ですが、

 

 Panasonic・読取革命 Ver.15 製品版
  ¥9,510 Amazon.co.jp
(12/9執筆時)  
 Panasonic・読取革命 Ver.15 UPG版
  ¥4,368 Amazon.co.jp
(12/9執筆時)  

 読取革命がおすすめです。レイアウト認識機能は、e.Typistより優れているため、雑誌や本など、レイアウトが複雑なものへの対応力があります。また、英語/日本語の混在文書などにも完全ではないですが、対応しています。これに加えて、横書きの英語混在文書の場合も読取革命の方がいいですから、おそらく研究者には読取革命の方が利便性が高いです。

 また、状態の悪い古い原稿への対応力も高いです。文字パターン辞書がe.Typistにくらべて12万字多く、潰れ文字の認識性能が高いためです。新聞など若干色味が付いた紙もこちらが良いでしょう。縦書き対応力も高いため、新聞の取り込みには良いです。。

 e.Typist NEOより価格が高いですが、通常の会議資料などに限定せず、色々な取り込みに使うのならば読取革命が良いでしょう。

 なお、格安のバージョンアップ版については、過去のあらゆるバージョンの読取革命、および無償版の読取革命Liteを持っていれば導入できます。それらが現在PCにインストールされていない場合は、シリアル番号が必要になります。

 なお、CANONのフラットベッドスキャナや複合機をお持ちの方、、もしくは、その購入を考えている場合は、読取革命Liteというアプリケーションがついています。

 

 Canon CanoScan LiDE220
  ¥9,522 Amazon.co.jp (12/9執筆時)    

 CANONのフラットベッドスキャナの新製品であるLIDE220にも読取革命LITEがついています。→このスキャナについては【フラッドベッドスキャナの比較記事】でも紹介しました。

 読取革命の正規版とバージョンアップ版の差額は約3,000円です。そして、読取革命Lite(正規品のお試し版)が付属しているこのフラットベッドスキャナは約9,000円です。

 資料の取り込みなどのために、もしスキャナーが欲しいと思われているなら、このスキャナと読取革命バージョンアップ版を一緒に買えば、実質5,000円あまりで最新スキャナも手に入る計算になります。ちなみにこのフラットベッドスキャナ、電源ケーブルなしでUSB給電で動くので一台あると便利です。


第3に、テキストが検索できる画像PDF(透明PDF)を作る方で、ディスプレイ表示の「みやすさ」を重視したい方に最適なのは、

 

 【Windows用 通常版】 

 9・Acrobat Standard DC 2017
  ¥38,650 Amazon.co.jp
(12/9執筆時)

 【Mac用 通常版】

 11・Acrobat Pro DC 2017   
  ¥61,641 Amazon.co.jp
(12/9執筆時)

 元原稿の状態が良く、かつ横書きの英語か日本語限定、という制約は付きますが、Acrobat DCが良いです。

 というのも、AcrobatのClear Scan機能を使うと、ディスプレイ上に表示される「画像としての文字」が(見かけがかわらないまま)「疑似フォント化(ベクター化)」され、文字のギザギザが取れ格段に読みやすくなるからです。また、「疑似フォント化」されることでPDFファイルのサイズも格段に小さくなります。

 なお、この機能については【こちら】で別に詳しく紹介しています。興味のある方はご覧ください。

 ただ、Acrobatで作成した透明PDFは、後から認識ミスを変更できません。認識後に手動で直すなどしたい方は、読取革命などを選ばれた方が良いと思います。また、OCR専用ソフトではないため、詳しい説明書などもないため、OCR初心者の方は、最初は読取革命などを選ばれることをおすすめします。(Atlasは、場合によって両者を使い分けています。)

ーーーー

 というわけで、今回は日本語OCRの話でした。記事がもしお役に立ったようならば、以下のTwitter Facebook はてなブックマークボタンなどから記事を共有していただければうれしいです!!(↓)

今回のモノマニアはいかがだったでしょうか?

このブログモノマニアでは家電や「モノ」を比較した記事が他に300ほどあります。

よろしけば、下部のリンク集もご覧ください。

<広告>

 この記事がお役に立てたようならば、右のリンクから「家電ブログランキング」にクリック投票お願いします。  201302192014.jpg
          

Googleなどの検索エンジンでは

「モノマニア」「家電ジャンル」or「型番」

の単語入力で、このブログの個別記事検索ができます!

<PR>

約350記事の完全なリンク集は、【トップページ】の下部にあります。

今後の
記事は【Twitter アカウント】でツイートしています。お題も募集中!

monomani31.png