比較2017' 現行の日本語OCRソフト8製品の性能とおすすめ:縦書き文章の論文、英語日本語混在論文における性能や価格:Panasonic:読取革命 ver.15、エプソン・メディアドライブ:e.Typist v.15.0 Adobe Acrobat DC ソースネクスト 本格読取5 フリー(無料)版との違い

2017年09月05日

比較2017' 現行の日本語OCRソフト8製品の性能とおすすめ:縦書き文章の論文、英語日本語混在論文における性能や価格:Panasonic:読取革命 ver.15、エプソン・メディアドライブ:e.Typist v.15.0 Adobe Acrobat DC ソースネクスト 本格読取5 フリー(無料)版との違い

今回レビューする製品群:2017年 日本語OCRソフトの評判やレビュー:Panasonic:読取革命 ver.15、エプソン・エー・アイ・ソフト :読んDE!!ココ ver13、メディアドライブ:e.Typist v.14.0 Adobe Acrobat DC2017 透明PDF ソースネクスト 本格読取 4 機種の違いやおすすめランキング

今回のお題
変換精度が信頼できる日本語OCRソフトのおすすめはどれ?

 ども、Atlasです。今日は日本語OCRソフトを比較します。

 OCRソフトというのは、簡単に言えば、スキャナで取り込んだ画像ファイルをテキスト化してパソコンで検索できるようにするためのソフトです。検索可能なPDFファイル(透明PDF)を作るのに使用するソフトウェアです。

 なお、本ブログ「モノマニア」ではOCR・PDF関連ソフトについて、以下のような記事があります。

1・日本語OCRソフトの比較 →この記事!
2・英語OCRソフトの比較
3・
PDF作成ソフトの比較
4・iPhone用のOCRアプリの比較

 今回は、1番の記事です。

 主に縦書き・横書きの日本語変換に強いOCRソフトについて比較していきます。

 いつものように、製品を比較した後で「おすすめのOCRソフト」を選ぶ形式で書いていきます。

 なお、富士通のスキャンスナップCanonのドキュメントスキャナEpsonやCanonのフラットベッドスキャナにOCRソフトお試し版・ライト版がついているのをご存じの方も多いと思います。

 ただし、そのような付属のソフトは、製品版ソフトより大幅に能力が劣ります。全く高性能とは言えません。「おまけソフト」のレベルを現段階の日本語OCRの水準とみるのは大きな間違いです正確な変換精度が欲しければ、今回紹介するような、単体の製品版ソフトを購入する必要があります

OCRソフトのラインナップの紹介

 現在、日本語の高性能OCRソフトの「売れ筋」は、いくつかあります。

 有名どころでは、Panasonicの読取革命メディアドライブのe.Typist ソースネクストの本格読取が、和製のOCR専門ソフトとしては「御三家」になります。

 他社にもOCRソフトや、OCR機能を持つ統合オフィス系ソフトはありますが、中身のエンジンは、外国製、ないし、これらのエンジンのOEMとなります。

 代表的なものを挙げれば、日本語OCR機能が付与されているAdobe Acrobat DCシリーズ(無料版のAcrobat Readerとは別物)や、富士ゼロックスのDocuWorksシリーズです。

 なお、スキャナーなどに無料でついている、評価版、パーソナル版などの無料OCRソフトと、ここで紹介するような製品は根本的に認識力が異なります。仕事としてOCRを使うならば、製品版を利用することをおすすめします。

 以下、実験に基づく詳しい精度の話に入る前に、これらの製品の特長を簡単に紹介してみたいと思います。


 

 1・Panasonic・読取革命 Ver.15 製品版
  ¥9,510 Amazon.co.jp
(6/23執筆時)  
 1・Panasonic・読取革命 Ver.15 バージョンアップ版
  ¥4,368 Amazon.co.jp
(6/23執筆時)  

 →メーカーサイト

 読取革命は、パナソニックが発売するOCRソフトです。どちらかといえば後発でしたが、エプソンがこの分野から撤退した現在、大手では唯一OCRを展開します。

 現在のバージョンは、15です。下で書くように、今回のバージョンでJIS第2水準の漢字に辞書対応した上で、基本辞書が拡充されました。また、状態の悪い文字への対応も強化されました。基本変換性能に関わるメジャーアップデートですから、旧バージョンユーザーには新バージョンへのアップグレードをおすすめできます

 etypistfafs-1.png

 対応する言語は、日本語と英語、一部のギリシャ文字です。ただし、英語については、専門辞書が未搭載であるため英語OCRソフトの比較】で紹介したような英語専門のソフトに比べると精度は劣ります。なお、日英混在文書の精度は、この記事で後ほど比較実験しています。

 認識できる文字数は、日本語の認識対象文字数はJISの第2水準の全てを含めた約6800字です。1つ前のバージョンでは第2水準の漢字の半分が非対応でした。そのため、今回のバージョンアップで大幅な改善が見られたと言えます。姓名などの旧字体のデータを取り込もうと考えている場合にかなりの改善があると言えます。

 用語辞書は、変換を補助するためのものですが、単語辞書(文字パターン辞書)は18万ワード、日本語の専門用語辞書の単語登録(多いほど、単語としての認識精度が上がる)は、上のような専門領域の61万ワード収録されます。

 なお、用語辞書は、OCRの精度を上げるための絶対条件ですが、無料版や製品同梱番のOCRソフトの場合、導入されていない場合が多く、有料版と大きな差が付く部分と言えます。


 

 2・e.Typist (アジア言語対応)v.15.0
  ¥11,613 Amazon.co.jp
(6/23執筆時)  

 →メーカーサイト

 e.Typistは、メディアドライブが発売するOCRソフトです。OCRソフトとしては「老舗」で信頼性の高い製品です。

 現在のバージョンは、こちらも15です。14と比べると、OCR精度に関わる性能がアップグレードした点が見所です。具体的には日本語の斜体文字(イタリック)体の認識と、良く論文などでみかける縦書きの日本語の文章中に横書きの英語文字が混在する文章の認識に対応しました。

 ただし、これらは過去バージョンにおける読取革命ではすでに対応していたものです。後で実際に検証しますが、実際の精度は?でした

 fgrgkgudu-5.png

 対応する言語は、英語の欧州言語とアジア言語(韓国語・中国語)なども対応です。とくに、アジア言語には定評があります。

 認識できる文字数は、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字ということになります。こちらは読取革命と同レベルです。

 用語辞書は、OCRの文字種のバリエーションの変化に対応する単語辞書(文字パターン辞書)は6万語、日本語の専門用語の単語登録(多いほど、単語としての認識精度が上がる)は、上のような専門領域の150万ワードです。住所録など旧字体の姓名の読み取りなどには向いていると言えます。

 なお、スペックだけみると、読取革命は単語辞書(文字パターン辞書)が多いためコピーした論文のような状態の悪い原稿に強く、e.Typistは、専門用語の単語登録が多いため、状態の良い原稿の認識精度が高いとまとめることができます。


 

 3・e.Typist NEO(日・英のみ) v.15.0
  ¥7,736 Amazon.co.jp
(6/23執筆時)  

 e.Typist NEOは、メディアドライブのe.Typistの廉価版です。

 対応する言語は、本語と英語のみに省略された製品です。機能面では、e.Typistに準じますが、対応言語が限定された廉価版という扱いです。

 認識できる文字数は、したがって、同様で、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字ということになります。

 用語辞書も、単語辞書(文字パターン辞書)は6万語、日本語の専門用語の単語登録150万ワードと上位製品と同様です。

 いずれにしても、こちらの製品は、アジア言語や、英語以外のヨーロッパ言語が不要ならば、価格的にこちらはお買得です。


 

 4・ソースネクスト本格読取 5
 ¥3,902 Amazon.co.jp
(6/23執筆時)  

 本格読取は、ソースネクストが販売する、価格の安さが見所の製品です。

 対応する言語は、日本語と英語です。

 認識できる文字数は、情報が非開示です。エンジンは「読取革命」を出すパナソニック製を搭載していますが、最新のフルバージョンの提供ではありません

 用語辞書も、したがって、パナソニック製ですが、専門辞書は75万ワードと機能が限定されます。

 また、使い勝手の部分でも注意が必要で、こちらは、出力もワード・エクセル・テキストファイルのみで、PDF出力/透明テキスト化ができない仕様です。


 

 【Windows用スタンダード】 

 5・Acrobat Standard DC 2017 通常版
  ¥39,981 Amazon.co.jp
(6/23執筆時)  
 5・Acrobat Standard DC 2017 アップグレード版
  ¥21,384 Amazon.co.jp
(6/23執筆時)  

   

 【Windows用プロ版

 6・Acrobat Pro DC 2017 通常版
  ¥52,522 Amazon.co.jp
(6/23執筆時)  
 6・Acrobat Pro DC 2017 アップグレード版
  ¥30,240 Amazon.co.jp
(6/23執筆時)  
 6・Acrobat Pro DC 2017 学生・教職員個人版
  ¥20,989 Amazon.co.jp (6/23執筆時)  

 【Mac用プロ版】

 7・Acrobat Pro DC 2017 通常版  
  ¥61,641 Amazon.co.jp
(6/23執筆時)  
 7・Acrobat Pro DC 2017 アップグレード版  
  ¥30,240 Amazon.co.jp
(6/23執筆時)  
 7・Acrobat Pro DC 2017 学生・教職員個人版
  ¥20,989 Amazon.co.jp
(6/23執筆時)  

 Adobe Acrobat DCは、アドビ社のPDF作成ソフトの製品版です。このソフトはPDF作成ソフトですが、付属する便利機能の1つとして、OCR機能が付属します。後ほど実験するように、縦書きの対応能力などに限界がありますが、PDFファイルのOCR化に使う分にはかなり高性能です。

 とくに、「検索できるPDF」を作る場合、PDF作成ソフトの比較記事】で紹介したように、書類の文字の「画像」を、ベクターデータ化できるため、テキスト検索できるようになるだけでなく、画面での文字の見かけも綺麗にできます。

 対応する言語は、この製品の場合、日本語・英語のほか、ヨーロッパ言語・アジア系言語を含む多言語のOCRに対応します。

 認識できる文字は、情報が非開示です。ただ、おそらく、Epson(AiSoft)の読んDE!!ココ から提供された性能の良いエンジンを発展させたものだと思います。精度については、後ほど実験してみたいと思います。

 用語辞書は、こちらも情報非開示です。しかし、Atlasのユーザーとしての経験上、単語辞書、専門用語辞書ともにかなり貧弱であると結論できます。この点は専門のOCRソフトではないために割り引いて評価しないといけません。

 なお、 Windows用には、スタンダード版とプロ版がありますが、OCRの部分の性能は両者とも同じです。その他の性能の詳しい違いについては、このブログの【PDF作成ソフトの比較記事】をご覧ください。


  

 8・DocuWorks8 日本語版/1ライセンス基本パッケージ
  ¥11,790 Amazon.co.jp (6/23執筆時)

 DocuWorks8は、富士ゼロックスが販売する、オフィス用パブリケーションソフトです。「Adobeのライバル」的なソフトで、複数のファイルを1つの規格のファイルにパッケージングすることがメインの製品です。同社の販売するコピー機と一緒に利用すると便利ですね。こちらも、Adobe社と同じで、「おまけ機能」として、OCR機能が付属します。

 対応する言語は、日本語・英語です。

 認識できる文字数は、日本語の認識対象文字数はJISの第二水準のすべてを含んだ6700字です。こちらは、e.Typistを販売するメディアドライブの旧式のエンジン(活字文書OCRライブラリ v.6.0 ) の提供を受けているため、専門版と水準は同等です。

 用語辞書は、しかしながら情報が非開示です。おそらく、辞書は未搭載だと思います。

 こうした点から言えば、オフィス用パブリケーションソフトとしてはたいへん優秀なソフトですが、本格的なOCRソフトとしては、機能は貧弱です。

ーーー

 以上、日本語に対応するOCRソフトを8製品紹介しました。

 結論的に言えば、制度の注目する場合、「読取革命」と「e.typist」が、搭載される用語辞書などの点で群を抜いていると言えます。一方、統合ソフトとしては、PDF書類の見かけも綺麗にできるAdobe DCの使い勝手も捨てがたいと言えます。

 そこで、以下では、これら3つのソフトについて、より詳しい実験をおこなっていくことにしたいと思います。

レイアウト認識についての実験

 では、実際に文章を取り込みながら認識精度を比較していきましょう。状態の良い文章、悪い文章などいろいろな素材を使って試してみました。なお、以下の文章の素材は、特に断りのない場合、A4サイズ、グレースケール(ないしカラー)、400dpiの精度で取り込んだものです。


  資料や本を取り込む場合、複雑なレイアウトなもの、写真と文章が混在しているものがあります。これを写真は写真、文章は文章と各OCRソフトはきちんと切り分けられるのかを実験します。

 元のデータはこれです。

 etypist-8.png

 わりと複雑なレイアウトですが、各OCRソフトはどのように認識するでしょうか?


A・読取革命
 etypist-9.png

 まずは読取革命です。文字の精度はここでは観点とせず、あくまでレイアウト認識の話なります。複雑なレイアウトをきちんと認識できているように見えますが、問題が1カ所。右上の「朝食に」から始まる文章、実は「画像」と認識されており、OCR処理がかかっていません。元データを見て欲しいのですが、この部分だけ緑がかった文字色です。コントラストの違いから画像と認識されてしまったようです。

 なお、画像に枠線がついていますが、これはソフト上の表示で、アウトプットの段階では表示されないので安心してください。


B・e.Typist

 etypist-10.png

 こちらは右上の部分を含めて、綺麗にレイアウトを認識できています。つけたせば、文字の間隔もスクリーン上、見やすく配置されていますね。


C・Acrobat

 etypist-32.png   

 つづいて、Acrobatです。Acrobatについては、編集機能が無いのでOCR化したあとで、認識結果をWordファイルにしたものを表示しています。

 レイアウトについてはほぼ問題なく、専門のOCRソフト並みの健闘を見せています。後でも書きますが、日本語横書きの認識がメインならば、アクロバット11でも実は十分なのです。また、アクロバット11でPDFを作った場合、表示の文字をベクター化してスクリーン上で見やすくしてくれる(ClearScan)機能を搭載しているので、閲覧用のPDF作成にもアクロバット11は向いています。(なおアクロバット最新版では、「Clearscan」は、日本語訳されて「編集可能なテキストや画像」と名称変更されています)

横書き文章の変換精度の検証実験

 続いて横書きの文章の考察。元のデータはこれです。

 etypist-13.png

わりと複雑なレイアウトですが、各OCRソフトはどのように認識するでしょうか?


A・読取革命


 etypist-14.png

 まずは読取革命です。問題なくきちんと認識されていると言えるでしょう。100%認識できているといえます。


B・e.Typist

 etypist-15.png

 e.typistについても健闘していますが、「1」の数字だけ「且」に文字化けが見られます。まあ、これは誤差レベルで読取とほぼ互角の性能といえます。


C・Acrobat

 etypist-33.png

 Acrobatも横書きの文章は問題なく認識できます。優秀と言えるでしょう。

縦書き文章の変換精度の検証実験

 続いて縦書き文章について、2段組の縦書き文章にOCRをかけてみました。


     etypist-16.png

 ポイントは、段組をきちんと把握しているか、と認識精度です。


A・読取革命

     etypist-17.png

 まずは読取革命です。段組をきちんと把握できています。2段目の最後の「時ノ容姿」が「吟ノ容姿」になってしまっている以外ほぼ完全に認識できています。


B・e.Typist

     etypist-18.png

 e.typistはほぼ完璧に認識できていますね。状態の良い文章についてはe.typistの健闘が光ります。


C・Acrobat

   ECAA19D2-EA9C-4BD9-884B-7FF284C99A5C.png

 Acrobatですが、このフィールドを文字であると認識できず、画像として認識しました。実はAcrobatは日本語の縦書きについては壊滅的な状況にあります。

「横書き」文字の変換精度の検証実験

 続いても縦書き文章について。混在する横書きの英語文字を認識するかです。元原稿はこれ。


     etypist-19.png

 ポイントは、collégeをきちんと把握しているかと、認識精度です。ちなみに原文のeはフランス語綴りでéです。少し意地悪をしてみました。


A・読取革命
 

    etypist-20.png     

 読取革命ですが、「é」は認識できていませんが、きちんと文字を認識しています。なお、縦書きになってしまっていますが、これは、透明テキストとしてOCR処理する分には通常のどうさで、むしろこのようになっていないと困る類のものです。


B・e.Typist

    201311062111.jpg

 e.typistは、全く英語の部分を単語として認識していません。今回のバージョンから対応とメーカーは表明していましたが、実際の所は「からっきし」でした。一応他の部分もためしたけれど、うまく変換されませんでした・・・。学術論文の脚注の英語論文表記は基本このような形式なので、研究者には致命的かな。


C・Acrobat

    14B561E5-9FC9-4A7E-8439-B8C13928940B.png

 Acrobatですが、先ほど書いたように、日本語の縦書きについては、ほぼ認識は不可能です。

英語・日本語混在文書の検証実験

 では横書きで英語と日本語が混在する場合はどうでしょうか?

etypist-23.png

 ポイントは、英語の部分の認識と日本語部分との境界の把握です。


A・読取革命

etypist-25.png

 読取革命ですが、英語の単と単語の間の字間はきちんと認識できており、日本語との区分もついています。しかし、主にイタリック体の部分を中心に英語認識が壊滅的です。

 なお、手動でこの部分を「英語」と指定してから処理すれば少しは「まし」ですが、日本語と混在している場合は「英語」としていすると、日本語部分が文字化けしてしまいます。読取革命は英語の部分はFine Readerという英語圏では最も信頼性が高いOCRを採用していますが、エンジンを上手く生かし切れていません。


B・e.Typist

etypistfafs.png

 e.typistも、イタリックの部分がほぼ壊滅です。さらに英単語と英単語の間の半角スペースの認識がほぼ欠如している様子。単語が単語と認識できていない点で、読取革命より劣ると言わざるを得ないかな。


C・ Acrobat

40B0B23C-2BD9-4392-8E97-90F9E4F8B6C2.png

 Acrobatですが、日本語モードで認識した場合は、英語の部分が横書きでも認識ができないようです。画像として認識され、OCRがかかりませんでした。英語としてOCRにかければ、英語の部分はかかります。

状態の悪い文章の検証実験

 最後に、かなり状態の悪い文章の認識について検証します。

etypist-27.png

 元々、電話帳サイズの本から、コピー機でコピーした原稿をスキャニングしたデータです。なおこれは、元データは白黒2値。見た感じ分かるようにかなり状態が悪い原稿です。

    etypist-26.png

 この論文の上記の部分の認識精度をみてみます。


A・読取革命 

 yomitori-3.png

 読取革命ですが、英語の部分はご愛敬として、日本語の部分はかなり健闘していると言えます。英語の部分は基本的に諦めるしかない状況ですね。


B・e.Typist

 etypist-29.png

 e.typistは、レイアウト認識を含めてかなり壊滅的です。e.Typistは状態の悪い原稿は昔から苦手で、このようになることが多いです。そのため、コピー論文などのOCR化については全く期待できない状況なんですね。日本語だけの文章でも、状態の悪い物は読取革命のほうが性能がかなり良いと言えます。


C・Acrobat


 DC4F28F3-DA18-4A40-B579-F7052BBB9E11.png

 Acrobatは、やはり状態の悪い原稿は無理でした。横書きで状態の悪いものについても壊滅的な状況でした。

作成されるファイルサイズとクオリティ

 最後に、作成されるファイルサイズとクオリティについて書き加えておきます。

 今回の実験では縦書きの日本語のハードカバーのPDF(グレースケール600dpi)を30ページを透明PDFにしました。なお、元の画像PDFファイルは1.8MBでした。

・読取革命:通常圧縮=15.7MB、高圧縮=3.9MB
・e.typist :通常圧縮= 2.4MB、高圧縮=1.7MB
・Acrobat :通常圧縮= 7.4MB、Clearscan=2.2MB

 ファイル圧縮率は、上表の通りです。

 第1に、透明PDFを高圧縮で作成した場合、ファイルサイズの点で優秀なのは、1.7MBまで圧縮できるe.typistでした。
 作成されたファイルのクオリティもなかなかです。

 201604231259.jpg
 こちらは、e.typistの認識結果を400%に拡大表示したものです。圧縮後の表示画質の点でも、及第点だと思います。

 201604231302.jpg

 こちらは、読取革命の認識結果を400%に拡大表示したものです。ファイルは3.9MBと2倍ほどのサイズですが、クオリティは変わらず高レベルと言えます。


 201604231306.jpg
 画像の階調も、両機種ともさほど変わりませんでした。



 第2に、高圧縮を選択せず、通常圧縮にした場合の結果は以下の通りです。


  201604231308.jpg

 e.typistは、通常圧縮でも2.4MBと高圧縮でした。しかし、視認性はさほど高くないです。e.typistの場合、中間域の色を排除した高圧縮率ファイルのほうが文字については視認性が良いです。これは、驚きの結果でした。

 201604231307.jpg

 読取革命は、通常圧縮の方が「文字のカクカク」が少なく解像度が高いです。ただファイルサイズは15.7MBと大きめです。



 201604231317.jpg

 AcrobatClearscanをかけた場合、画像としての文字についてもベクター化(=疑似フォント化)されます。そのため、視認性は、拡大した場合もかなり整っており、見やすさでは群を抜きます。ファイルサイズも2.2MBと小さくなります。

ーーーーーー
 以上をまとめれば、読取革命とe,typistを使って、高圧縮PDFを作る場合は、視認性はほぼ互角です。ファイルサイズの点では、e.typistが多少有利でしょう。ただ、その代わり、e.typistは、圧縮率の少ないPDFを作るのは不得意ですね。

 AcrobatClearscanは、視認性やファイルサイズの点では群を抜いて良いです。この点でも、状態の良い原稿を透明PDFにするならば、このソフトが最高と言えます。バックグラウンドのテキストを編集しないならば、こちらが良いでしょう。

 なお、読取革命e.typistも、ソフトへのPDF入力時に400dpiまでダウンスケーリングされます。なお、読取革命は標準では300dpiですが、今回は400dpiに設定変更して比較しました。

今回の結論
信頼できる日本語OCRソフトは結論的にこれ!

 というわけでOCRソフトをいくつかの観点から比較してみました。

 最後に、いつものように、目的別におすすめのOCRソフトを提案していきたいと思います。


第1に、ワープロ打ちした会議資料など、状態が良い原稿からの日本語の横書きと縦書き文章のOCR化を考えている方ですが、

 

 e.Typist NEO(日・英のみ) v.15.0
  ¥7,667 Amazon.co.jp
(6/23執筆時)  

 

 e.Typist (アジア言語対応)v.15.0
  ¥11,613 Amazon.co.jp
(6/23執筆時)  

 会議資料など、比較的新しく状態の良いものの認識させる場合、e.Typistが良いでしょう。文章認識の性能は、読取革命と較べた場合、僅かな差ですがこちらに認識性能の軍配が上がると思います。e.typistが150万の専門用語辞書、読取革命が60万の用語辞書ですからそのあたりの差が出たのかもしれません。


 ただし、上で紹介したように、縦書きの日本語に英語文字が入る場合や、小説や雑誌などの2段組の文章などは、読取革命に軍配があがります。その点で、英語が混在する研究論文を扱う方には読取革命の方が良いかもしれません。

 アジア言語が必要でない方は、英・日変換のみのe.Typist NEO(日・英のみ) v.14.0が最も安いです。


第2に、雑誌や本などレイアウトが複雑なものや、新聞や古い原稿など状態が良くない日本語文章のOCR化も考えている方ですが、

 

 Panasonic・読取革命 Ver.15 製品版
  ¥9,510 Amazon.co.jp
(6/23執筆時)  
 Panasonic・読取革命 Ver.15 バージョンアップ版
  ¥4,368 Amazon.co.jp
(6/23執筆時)  

 読取革命がおすすめです。レイアウト認識機能は、e.Typistより優れているため、雑誌や本など、レイアウトが複雑なものへの対応力があります。また、英語/日本語の混在文書などにも完全ではないですが、対応しています。これに加えて、横書きの英語混在文書の場合も読取革命の方がいいですから、おそらく研究者には読取革命の方が利便性が高いです。

 また、状態の悪い古い原稿への対応力も高いです。文字パターン辞書がe.Typistにくらべて12万字多く、潰れ文字の認識性能が高いためです。新聞など若干色味が付いた紙もこちらが良いでしょう。縦書き対応力も高いため、新聞の取り込みには良いです。。

 e.Typist NEOより価格が高いですが、通常の会議資料などに限定せず、色々な取り込みに使うのならば読取革命が良いでしょう。

 なお、格安のバージョンアップ版については、過去のあらゆるバージョンの読取革命、および無償版の読取革命Liteを持っていれば導入できます。それらが現在PCにインストールされていない場合は、シリアル番号が必要になります。

 なお、CANONのフラットベッドスキャナや複合機をお持ちの方、、もしくは、その購入を考えている場合は、読取革命Liteというアプリケーションがついています。

 

 Canon A4スキャナー CanoScan LiDE220
  ¥9,107 Amazon.co.jp (6/23執筆時)    

 CANONのフラットベッドスキャナの新製品であるLIDE220にも読取革命LITEがついています。→このスキャナについてはこちらでも紹介しました。

 読取革命の正規版とバージョンアップ版の差額は約3,000円です。そして、読取革命Lite(正規品のお試し版)が付属しているこのフラットベッドスキャナは約9,000円です。

 資料の取り込みなどのために、もしスキャナーが欲しいと思われているなら、このスキャナと読取革命バージョンアップ版を一緒に買えば、実質5,000円あまりで最新スキャナも手に入る計算になります。ちなみにこのフラットベッドスキャナ、電源ケーブルなしでUSB給電で動くので一台あると便利です。


第3に、テキストが検索できる画像PDF(透明PDF)を作る方で、ディスプレイ表示の「みやすさ」を重視したい方に最適なのは、

 

 【Windows用スタンダード】 

 5・Acrobat Standard DC 2017 通常版
  ¥39,981 Amazon.co.jp
(6/23執筆時)  
 5・Acrobat Standard DC 2017 アップグレード版
  ¥21,384 Amazon.co.jp
(6/23執筆時)  

   

 【Mac用プロ版】

 7・Acrobat Pro DC 2017 通常版  
  ¥61,641 Amazon.co.jp
(6/23執筆時)  
 7・Acrobat Pro DC 2017 アップグレード版  
  ¥30,240 Amazon.co.jp
(6/23執筆時)  
 7・Acrobat Pro DC 2017 学生・教職員個人版
  ¥20,989 Amazon.co.jp
(6/23執筆時)  

 元原稿の状態が良く、かつ横書きの英語か日本語限定、という制約は付きますが、Acrobat DCが良いです。

 というのも、AcrobatのClear Scan機能を使うと、ディスプレイ上に表示される「画像としての文字」が(見かけがかわらないまま)「疑似フォント化(ベクター化)」され、文字のギザギザが取れ格段に読みやすくなるからです。また、「疑似フォント化」されることでPDFファイルのサイズも格段に小さくなります。

 なお、この機能については【こちら】で別に詳しく紹介しています。興味のある方はご覧ください。

 ただ、Acrobatで作成した透明PDFは、後から認識ミスを変更できません。認識後に手動で直すなどしたい方は、読取革命などを選ばれた方が良いと思います。また、OCR専用ソフトではないため、詳しい説明書などもないため、OCR初心者の方は、最初は読取革命などを選ばれることをおすすめします。(Atlasは、場合によって両者を使い分けています。)

ーーーー

 というわけで、今回は日本語OCRの話でした。記事がもしお役に立ったようならば、以下のTwitter Facebook はてなブックマークボタンなどから記事を共有していただければうれしいです!!(↓)

今回のモノマニアはいかがだったでしょうか?

このブログモノマニアでは家電や「モノ」を比較した記事が他に300ほどあります。

よろしけば、下部のリンク集もご覧ください。

<広告>

 この記事がお役に立てたようならば、右のリンクから「家電ブログランキング」にクリック投票お願いします。  201302192014.jpg
          

Googleなどの検索エンジンでは

「モノマニア」「家電ジャンル」or「型番」

の単語入力で、このブログの個別記事検索ができます!

<PR>

約200記事の完全なリンク集は、【トップページ】の下部にあります。

今後の
記事は【Twitter アカウント】でツイートしています。お題も募集中!
monomani31.png