比較2017' 現行の日本語OCRソフト3機種の性能とおすすめ:縦書き文章の論文、英語日本語混在論文における性能や価格:Panasonic:読取革命 ver.15、エプソン・メディアドライブ:e.Typist v.15.0 Adobe Acrobat pro 11.0 ソースネクスト 本格読取4 フリー(無料)版との違い

2017年04月02日

比較2017' 現行の日本語OCRソフト3機種の性能とおすすめ:縦書き文章の論文、英語日本語混在論文における性能や価格:Panasonic:読取革命 ver.15、エプソン・メディアドライブ:e.Typist v.15.0 Adobe Acrobat pro 11.0 ソースネクスト 本格読取4 フリー(無料)版との違い

今回レビューする製品群:2017年 日本語OCRソフトの評判やレビュー:Panasonic:読取革命 ver.15、エプソン・エー・アイ・ソフト :読んDE!!ココ ver13、メディアドライブ:e.Typist v.14.0 Adobe Acrobat pro XI 透明PDF ソースネクスト 本格読取 4

今回のお題
変換精度が信頼できる日本語OCRソフトはどれ?

 ども、Atlasです。今日は日本語OCRソフトを紹介します。

 OCRソフトというのは、簡単に言えば、スキャナで取り込んだ画像ファイルをテキスト化してパソコンで検索できるようにするためのソフトです。検索可能なPDFファイル(透明PDF)を作るのに使用するソフトウェアです。

 なお、本ブログ「モノマニア」ではOCR・PDF関連ソフトについて、以下のような記事があります。

1・日本語OCRソフトの比較 →この記事!
2・英語OCRソフトの比較
3・
PDF作成ソフトの比較
4・iPhone用のOCRアプリの比較

 今回は、1番の記事です。

 主に縦書き・横書きの日本語変換に強いOCRソフトについて比較していきます。

 いつものように、製品を比較した後で「おすすめのOCRソフト」を選ぶ形式で書いていきます。

 なお、富士通のスキャンスナップCanonのドキュメントスキャナEpsonやCanonのフラットベッドスキャナにOCRソフトお試し版・ライト版がついているのをご存じの方も多いと思います。

 ただし、そのような付属のソフトは、製品版ソフトより大幅に能力が劣ります。全く高性能とは言えません。「おまけソフト」のレベルを現段階の日本語OCRの水準とみるのは大きな間違いです

 正確な変換精度が欲しければ、単体の製品版ソフトを購入する必要があります

OCRソフトのラインナップの紹介

 現在、日本語の高性能OCRソフトの「売れ筋」は、次の4つのソフトウェアです。


1・パナソニックの読取革命(WIndows)

 51SFQbdeoVL._SL500_AA300_.jpeg

 Panasonic・読取革命 Ver.15 製品版
  ¥6,979 Amazon.co.jp
(4/2執筆時)  
 Panasonic・読取革命 Ver.15 バージョンアップ版
  ¥4,368 Amazon.co.jp
(4/2執筆時)  


2・イー・タイピスト(WIndows) 

 51IRIOIcVVL._SL500_AA300_.jpg

 e.Typist (アジア言語対応)v.15.0
  ¥11,614 Amazon.co.jp
(4/2執筆時)  

 51e3JIhdXH300_.jpg

 e.Typist NEO(日・英のみ) v.15.0
  ¥7,667 Amazon.co.jp
(4/2執筆時)  


3・ソースネクスト社の本格読取

 201502271055.jpg

 ソースネクスト本格読取 5
 ¥3,327 Amazon.co.jp
(4/2執筆時)  


4・Windows/Mac版のアクロバット

 hukurou3g-47.png

 【Windows用スタンダード版】

 Acrobat Standard DC 2015 通常版
  ¥33,238 Amazon.co.jp
(4/2執筆時)  
 Acrobat Standard DC 2015 アップグレード版
  ¥15,944 Amazon.co.jp (4/2執筆時)  
 Acrobat Pro DC 2015 学生・教職員個人版
  ¥16,523 Amazon.co.jp
(4/2執筆時)  

 【Mac用プロ版】

 Acrobat Pro DC 2015 通常版  
  ¥52,699 Amazon.co.jp
(4/2執筆時)  
 Acrobat Pro DC 2015 アップグレード版  
  ¥22,844 Amazon.co.jp
  (4/2執筆時)  
 Acrobat Pro DC 2015 学生・教職員個人版
  ¥16,739 Amazon.co.jp
(4/2執筆時)  


 Panasonicの読取革命と、メディアドライブのe.Typist ソースネクストの本格読取、これに、日本語OCR機能が付与されているAdobe Acrobat DCシリーズ(無料版のAcrobat Readerとは別物)をあわせると、現在選択可能なのは4種類ということになります。

 読取革命は、今回のバージョンでJIS第2水準の漢字に辞書対応した上で、基本辞書が拡充されました。また、状態の悪い文字への対応が強化されました。今回の読取革命のバージョンアップは、基本変換性能に関わるメジャーアップデートですから、旧バージョンユーザーには新バージョンへのアップグレードをおすすめできます

 e.Typist NEOも、OCR精度に関わる性能がアップグレードしました。具体的には日本語の斜体文字(イタリック)体の認識と、良く論文などでみかける縦書きの日本語の文章中に横書きの英語文字が混在する文章の認識に対応しました。ただし、これらは過去バージョンにおける読取革命ではすでに対応していたものです。後で実際に検証しますが、実際の精度は?でした

 本格読取は、格安ですが、今回のバージョンでもOCR機能は限定的です。精度については、パナソニックの読取革命から提供を受けた旧世代のエンジンを使っているために最新モデルの精度より劣ります。また、出力もワード・エクセル・テキストファイルのみでPDF出力/透明テキスト化ができない仕様です。

 Adobe AcrobatDCは、引き続きEpson(AiSoft)の読んDE!!ココ から提供された性能の良いエンジンを使っています。後ほど説明するように、縦書きの対応能力などに限界がありますが、PDFファイルのOCR化に使う分にはかなり高性能です。

 なお、スキャナーなどに無料でついている、評価版、パーソナル版などの無料OCRソフトと、ここで紹介するような製品は根本的に認識力が異なります。仕事としてOCRを使うならば、製品版を利用することをおすすめします。

 とりあえず、以下では、PDF化の対応しない本格読取を除く3つのソフトの比較をしていきたいと思います。

文章の認識精度の比較

 さて、以下に出したのは、これらのソフトの読み取り面でのスペック表です。(なお、本格読取は、PDFファイルを扱えないことから、以下のレビューからは除いています。)


A・読取革命→メーカーサイト


etypistfafs-1.png

 読取革命の場合、日本語の認識対象文字数はJISの第2水準の全てを含めた約6800字です。変換を補助する専門用語辞書は18万ワード搭載されているようです。実は1つ前のバージョンでは第2水準の漢字の半分が非対応でしたから、今回のバージョンアップで大幅な改善が見られたと言えます。姓名などの旧字体のデータを取り込もうと考えている場合にかなりの改善があると言えます。

 OCRの文字種のバリエーションの変化に対応する単語辞書(文字パターン辞書)は18万語、日本語の専門用語辞書の単語登録(多いほど、単語としての認識精度が上がる)は、上のような専門領域の61万ワードです。


B・e.typist→メーカーサイト


fgrgkgudu-5.png

 e.Typist v.15.0 及びe.Typist Neo v.15.0 は、基本性能が優れています。日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字ということになります。こちらは読取革命と同レベルです。

 OCRの文字種のバリエーションの変化に対応する単語辞書(文字パターン辞書)は6万語、日本語の専門用語の単語登録(多いほど、単語としての認識精度が上がる)は、上のような専門領域の150万ワードです。

 認識辞書も公称150万ワードと優れています。なお、英語以外にアジア言語(韓国語・中国語)なども対応しているのはこのソフトだけです。住所録など旧字体の姓名の読み取りなどには向いていると言えます。

 さて、このようなスペックだけみると、読取革命は単語辞書(文字パターン辞書)が多いためコピーした論文のような状態の悪い原稿に強く、e.Typistは、専門用語の単語登録が多いため、状態の良い原稿の認識精度が高いとまとめることができます。


C・アクロバット

 Adobe Acrobat DCについては、スペックデータがないので比較できませんでした。しかし、Atlasのユーザーとしての経験上、単語辞書、専門用語辞書ともにかなり貧弱であると結論できます。この点は専門のOCRソフトではないために割り引いて評価しないといけません。

レイアウト認識についての実験

 では、実際に文章を取り込みながら認識精度を比較していきましょう。状態の良い文章、悪い文章などいろいろな素材を使って試してみました。なお、以下の文章の素材は、特に断りのない場合、A4サイズ、グレースケール(ないしカラー)、400dpiの精度で取り込んだものです。


  資料や本を取り込む場合、複雑なレイアウトなもの、写真と文章が混在しているものがあります。これを写真は写真、文章は文章と各OCRソフトはきちんと切り分けられるのかを実験します。

 元のデータはこれです。

 etypist-8.png

 わりと複雑なレイアウトですが、各OCRソフトはどのように認識するでしょうか?


A・読取革命
 etypist-9.png

 まずは読取革命です。文字の精度はここでは観点とせず、あくまでレイアウト認識の話なります。複雑なレイアウトをきちんと認識できているように見えますが、問題が1カ所。右上の「朝食に」から始まる文章、実は「画像」と認識されており、OCR処理がかかっていません。元データを見て欲しいのですが、この部分だけ緑がかった文字色です。コントラストの違いから画像と認識されてしまったようです。

 なお、画像に枠線がついていますが、これはソフト上の表示で、アウトプットの段階では表示されないので安心してください。


B・e.Typist

 etypist-10.png

 こちらは右上の部分を含めて、綺麗にレイアウトを認識できています。つけたせば、文字の間隔もスクリーン上、見やすく配置されていますね。


C・Acrobat

 etypist-32.png   

 つづいて、Acrobatです。Acrobatについては、編集機能が無いのでOCR化したあとで、認識結果をWordファイルにしたものを表示しています。

 レイアウトについてはほぼ問題なく、専門のOCRソフト並みの健闘を見せています。後でも書きますが、日本語横書きの認識がメインならば、アクロバット11でも実は十分なのです。また、アクロバット11でPDFを作った場合、表示の文字をベクター化してスクリーン上で見やすくしてくれる(ClearScan)機能を搭載しているので、閲覧用のPDF作成にもアクロバット11は向いています。(なおアクロバット最新版では、「Clearscan」は、日本語訳されて「編集可能なテキストや画像」と名称変更されています)

横書き文章の変換精度の検証実験

 続いて横書きの文章の考察。元のデータはこれです。

 etypist-13.png

わりと複雑なレイアウトですが、各OCRソフトはどのように認識するでしょうか?


A・読取革命


 etypist-14.png

 まずは読取革命です。問題なくきちんと認識されていると言えるでしょう。100%認識できているといえます。


B・e.Typist

 etypist-15.png

 e.typistについても健闘していますが、「1」の数字だけ「且」に文字化けが見られます。まあ、これは誤差レベルで読取とほぼ互角の性能といえます。


C・Acrobat

 etypist-33.png

 Acrobatも横書きの文章は問題なく認識できます。優秀と言えるでしょう。

縦書き文章の変換精度の検証実験

 続いて縦書き文章について、2段組の縦書き文章にOCRをかけてみました。


     etypist-16.png

 ポイントは、段組をきちんと把握しているか、と認識精度です。


A・読取革命

     etypist-17.png

 まずは読取革命です。段組をきちんと把握できています。2段目の最後の「時ノ容姿」が「吟ノ容姿」になってしまっている以外ほぼ完全に認識できています。


B・e.Typist

     etypist-18.png

 e.typistはほぼ完璧に認識できていますね。状態の良い文章についてはe.typistの健闘が光ります。


C・Acrobat

   ECAA19D2-EA9C-4BD9-884B-7FF284C99A5C.png

 Acrobatですが、このフィールドを文字であると認識できず、画像として認識しました。実はAcrobatは日本語の縦書きについては壊滅的な状況にあります。

「横書き」文字の変換精度の検証実験

 続いても縦書き文章について。混在する横書きの英語文字を認識するかです。元原稿はこれ。


     etypist-19.png

 ポイントは、collégeをきちんと把握しているかと、認識精度です。ちなみに原文のeはフランス語綴りでéです。少し意地悪をしてみました(笑)


A・読取革命
 

    etypist-20.png     

 読取革命ですが、「é」は認識できていませんが、きちんと文字を認識しています。なお、縦書きになってしまっていますが、これは、透明テキストとしてOCR処理する分には通常のどうさで、むしろこのようになっていないと困る類のものです。


B・e.Typist

    201311062111.jpg

 e.typistは、全く英語の部分を単語として認識していません。今回のバージョンから対応とメーカーは表明していましたが、実際の所は「からっきし」でした。一応他の部分もためしたけれど、うまく変換されませんでした・・・。学術論文の脚注の英語論文表記は基本このような形式なので、研究者には致命的かな。


C・Acrobat

    14B561E5-9FC9-4A7E-8439-B8C13928940B.png

 Acrobatですが、先ほど書いたように、日本語の縦書きについては、ほぼ認識は不可能です。

英語・日本語混在文書の検証実験

 では横書きで英語と日本語が混在する場合はどうでしょうか?

etypist-23.png

 ポイントは、英語の部分の認識と日本語部分との境界の把握です。


A・読取革命

etypist-25.png

 読取革命ですが、英語の単と単語の間の字間はきちんと認識できており、日本語との区分もついています。しかし、主にイタリック体の部分を中心に英語認識が壊滅的です。

 なお、手動でこの部分を「英語」と指定してから処理すれば少しは「まし」ですが、日本語と混在している場合は「英語」としていすると、日本語部分が文字化けしてしまいます。読取革命は英語の部分はFine Readerという英語圏では最も信頼性が高いOCRを採用していますが、エンジンを上手く生かし切れていません。


B・e.Typist

etypistfafs.png

 e.typistも、イタリックの部分がほぼ壊滅です。さらに英単語と英単語の間の半角スペースの認識がほぼ欠如している様子。単語が単語と認識できていない点で、読取革命より劣ると言わざるを得ないかな。


C・ Acrobat

40B0B23C-2BD9-4392-8E97-90F9E4F8B6C2.png

 Acrobatですが、日本語モードで認識した場合は、英語の部分が横書きでも認識ができないようです。画像として認識され、OCRがかかりませんでした。英語としてOCRにかければ、英語の部分はかかります。

状態の悪い文章の検証実験

 最後に、かなり状態の悪い文章の認識について検証します。

etypist-27.png

 元々、電話帳サイズの本から、コピー機でコピーした原稿をスキャニングしたデータです。なおこれは、元データは白黒2値。見た感じ分かるようにかなり状態が悪い原稿です。

    etypist-26.png

 この論文の上記の部分の認識精度をみてみます。


A・読取革命 

 yomitori-3.png

 読取革命ですが、英語の部分はご愛敬として、日本語の部分はかなり健闘していると言えます。英語の部分は基本的に諦めるしかない状況ですね。


B・e.Typist

 etypist-29.png

 e.typistは、レイアウト認識を含めてかなり壊滅的です。e.Typistは状態の悪い原稿は昔から苦手で、このようになることが多いです。そのため、コピー論文などのOCR化については全く期待できない状況なんですね。日本語だけの文章でも、状態の悪い物は読取革命のほうが性能がかなり良いと言えます。


C・Acrobat


 DC4F28F3-DA18-4A40-B579-F7052BBB9E11.png

 Acrobatは、やはり状態の悪い原稿は無理でした。横書きで状態の悪いものについても壊滅的な状況でした。

作成されるファイルサイズとクオリティ

 最後に、作成されるファイルサイズとクオリティについて書き加えておきます。

 今回の実験では縦書きの日本語のハードカバーのPDF(グレースケール600dpi)を30ページを透明PDFにしました。なお、元の画像PDFファイルは1.8MBでした。

・読取革命:通常圧縮=15.7MB、高圧縮=3.9MB
・e.typist :通常圧縮= 2.4MB、高圧縮=1.7MB
・Acrobat :通常圧縮= 7.4MB、Clearscan=2.2MB
 ファイル圧縮率は、上表の通りです。

 第1に、透明PDFを高圧縮で作成した場合、ファイルサイズの点で優秀なのは、1.7MBまで圧縮できるe.typistでした。
 作成されたファイルのクオリティもなかなかです。

 201604231259.jpg
 こちらは、e.typistの認識結果を400%に拡大表示したものです。圧縮後の表示画質の点でも、及第点だと思います。

 201604231302.jpg

 こちらは、読取革命の認識結果を400%に拡大表示したものです。ファイルは3.9MBと2倍ほどのサイズですが、クオリティは変わらず高レベルと言えます。


 201604231306.jpg
 画像の階調も、両機種ともさほど変わりませんでした。



 第2に、高圧縮を選択せず、通常圧縮にした場合の結果は以下の通りです。


  201604231308.jpg

 e.typistは、通常圧縮でも2.4MBと高圧縮でした。しかし、視認性はさほど高くないです。e.typistの場合、中間域の色を排除した高圧縮率ファイルのほうが文字については視認性が良いです。これは、驚きの結果でした。

 201604231307.jpg

 読取革命は、通常圧縮の方が「文字のカクカク」が少なく解像度が高いです。ただファイルサイズは15.7MBと大きめです。

 201604231317.jpg

 AcrobatClearscanをかけた場合、画像としての文字についてもベクター化(=疑似フォント化)されます。そのため、視認性は、拡大した場合もかなり整っており、見やすさでは群を抜きます。ファイルサイズも2.2MBと小さくなります。

ーーーーーー
 以上をまとめれば、読取革命とe,typistを使って、高圧縮PDFを作る場合は、視認性はほぼ互角です。ファイルサイズの点では、e.typistが多少有利でしょう。ただ、その代わり、e.typistは、圧縮率の少ないPDFを作るのは不得意ですね。

 AcrobatClearscanは、視認性やファイルサイズの点では群を抜いて良いです。この点でも、状態の良い原稿を透明PDFにするならば、このソフトが最高と言えます。バックグラウンドのテキストを編集しないならば、こちらが良いでしょう。

 なお、読取革命e.typistも、ソフトへのPDF入力時に400dpiまでダウンスケーリングされます。なお、読取革命は標準では300dpiですが、今回は400dpiに設定変更して比較しました。

今回の結論
変換精度が信頼できる日本語OCRソフトはこのソフト!

 というわけでOCRソフトをいくつかの観点から比較してみました。

 最後に、いつものように、目的別におすすめのOCRソフトを提案していきたいと思います。


第1に、ワープロ打ちした会議資料など、状態が良い原稿からの日本語の横書きと縦書き文章のOCR化を考えている方ですが、

 51e3JIhdXH300_.jpg

 e.Typist NEO(日・英のみ) v.15.0
  ¥7,667 Amazon.co.jp
(4/2執筆時)  

 51IRIOIcVVL._SL500_AA300_.jpg

 e.Typist (アジア言語対応)v.15.0
  ¥11,614 Amazon.co.jp
(4/2執筆時)  

 会議資料など、比較的新しく状態の良いものの認識させる場合、e.Typistが良いでしょう。文章認識の性能は、読取革命と較べた場合、僅かな差ですがこちらに認識性能の軍配が上がると思います。e.typistが150万の専門用語辞書、読取革命が60万の用語辞書ですからそのあたりの差が出たのかもしれません。


 ただし、上で紹介したように、縦書きの日本語に英語文字が入る場合や、小説や雑誌などの2段組の文章などは、読取革命に軍配があがります。その点で、英語が混在する研究論文を扱う方には読取革命の方が良いかもしれません。

 アジア言語が必要でない方は、英・日変換のみのe.Typist NEO(日・英のみ) v.14.0が最も安いです。


第2に、雑誌や本などレイアウトが複雑なものや、新聞や古い原稿など状態が良くない日本語文章のOCR化も考えている方ですが、

 51SFQbdeoVL._SL500_AA300_.jpeg

 Panasonic・読取革命 Ver.15 製品版
  ¥6,979 Amazon.co.jp
(4/2執筆時)  
 Panasonic・読取革命 Ver.15 バージョンアップ版
  ¥4,368 Amazon.co.jp
(4/2執筆時)  

 読取革命がおすすめです。レイアウト認識機能は、e.Typistより優れているため、雑誌や本など、レイアウトが複雑なものへの対応力があります。また、英語/日本語の混在文書などにも完全ではないですが、対応しています。これに加えて、横書きの英語混在文書の場合も読取革命の方がいいですから、おそらく研究者には読取革命の方が利便性が高いです。

 また、状態の悪い古い原稿への対応力も高いです。文字パターン辞書がe.Typistにくらべて12万字多く、潰れ文字の認識性能が高いためです。新聞など若干色味が付いた紙もこちらが良いでしょう。縦書き対応力も高いため、新聞の取り込みには良いです。。

 e.Typist NEOより価格が高いですが、通常の会議資料などに限定せず、色々な取り込みに使うのならば読取革命が良いでしょう。

 なお、格安のバージョンアップ版については、過去のあらゆるバージョンの読取革命、および無償版の読取革命Liteを持っていれば導入できます。それらが現在PCにインストールされていない場合は、シリアル番号が必要になります。

 なお、CANONのフラットベッドスキャナや複合機をお持ちの方、、もしくは、その購入を考えている場合は、読取革命Liteというアプリケーションがついています。

 81gLVt7lvsL._SL1500_.jpg

 Canon A4スキャナー CanoScan LiDE220
  ¥8,681 Amazon.co.jp (4/2執筆時)    

 CANONのフラットベッドスキャナの新製品であるLIDE220にも読取革命LITEがついています。→このスキャナについてはこちらでも紹介しました。

 読取革命の正規版とバージョンアップ版の差額は約3,000円です。そして、読取革命Lite(正規品のお試し版)が付属しているこのフラットベッドスキャナは約9,000円です。

 資料の取り込みなどのために、もしスキャナーが欲しいと思われているなら、このスキャナと読取革命バージョンアップ版を一緒に買えば、実質5,000円あまりで最新スキャナも手に入る計算になります。ちなみにこのフラットベッドスキャナ、電源ケーブルなしでUSB給電で動くので一台あると便利です。


第3に、テキストが検索できる画像PDF(透明PDF)を作る方で、ディスプレイ表示の「みやすさ」を重視したい方に最適なのは、

 hukurou3g-47.png

 【Windows用スタンダード版】

 Acrobat Standard DC 2015 通常版
  ¥33,238 Amazon.co.jp
(4/2執筆時)  
 Acrobat Standard DC 2015 アップグレード版
  ¥15,944 Amazon.co.jp (4/2執筆時)  
 Acrobat Pro DC 2015 学生・教職員個人版
  ¥16,523 Amazon.co.jp
(4/2執筆時)  

 【Mac用プロ版】

 Acrobat Pro DC 2015 通常版  
  ¥52,699 Amazon.co.jp
(4/2執筆時)  
 Acrobat Pro DC 2015 アップグレード版  
  ¥22,844 Amazon.co.jp
   (4/2執筆時)  
 Acrobat Pro DC 2015 学生・教職員個人版
  ¥16,739 Amazon.co.jp
(4/2執筆時)  

 元原稿の状態が良く、かつ横書きの英語か日本語限定、という制約は付きますが、Acrobat DCが良いです。

 というのも、AcrobatのClear Scan機能を使うと、ディスプレイ上に表示される「画像としての文字」が(見かけがかわらないまま)「疑似フォント化(ベクター化)」され、文字のギザギザが取れ格段に読みやすくなるからです。また、「疑似フォント化」されることでPDFファイルのサイズも格段に小さくなります。

 なお、この機能については【こちら】で別に詳しく紹介しています。興味のある方はご覧ください。

 ただ、Acrobatで作成した透明PDFは、後から認識ミスを変更できません。認識後に手動で直すなどしたい方は、読取革命などを選ばれた方が良いと思います。また、OCR専用ソフトではないため、詳しい説明書などもないため、OCR初心者の方は、最初は読取革命などを選ばれることをおすすめします。(Atlasは、場合によって両者を使い分けています。)

ーーーー

 というわけで、今回は日本語OCRの話でした。記事がもしお役に立ったようならば、以下のTwitter Facebook はてなブックマークボタンなどから記事を共有していただければうれしいです!!(↓)

<広告>

 この記事がお役に立てたようならば、右のリンクから「家電ブログランキング」にクリック投票お願いします。  201302192014.jpg

コメント(知人の方)



          
商品名から本ブログの記事検索ができます!

カスタム検索

<PR>

約200記事の完全なリンク集は、【トップページ】の下部にあります。

今後の
記事は【Twitter アカウント】でツイートしています。お題も募集中!
monomani31.png