比較2018' 英語OCRソフトの変換精度とおすすめ・格安購入法:Abbyy Fine Reader 12 Professional, OmniPage 18.0, US English, Readiris pro 14【アメリカ英語・ドイツ語・フランス語・イタリア語・ロシア語・スペイン語など多言語も対応!】

2018年09月19日

比較2018' 英語OCRソフトの変換精度とおすすめ・格安購入法:Abbyy Fine Reader 12 Professional, OmniPage 18.0, US English, Readiris pro 14【アメリカ英語・ドイツ語・フランス語・イタリア語・ロシア語・スペイン語など多言語も対応!】

今回のお題
変換精度が信頼できる英語や多言語対応の専用OCRソフトはどれ?

 ども、Atlasです。

 今日はOCRソフトの比較です。

 201809190819.jpg

 具体的には、英語OCRソフト(及びアメリカ英語・ドイツ語・フランス語・イタリア語・ロシア語・スペイン語のOCRソフトについて書きます。

---

1・日本語OCRソフトの比較
2・英語OCRソフトの比較
3・PDF作成ソフトの比較
4・iPhone用のOCRアプリの比較

 なお、今回の記事は、PDF・OCRソフト比較シリーズの2回目記事として書きました。

1・日本語OCRソフトの英語対応力

 はじめに、日本語のOCRソフトの英語認識について説明しておきます。


 【製品版】

 Panasonic 読取革命 Ver.15
  ¥9,335 Amazon.co.jp
(9/17執筆時)

 【バージョンアップ版】

 Panasonic 読取革命 Ver.15
  ¥4,372
Amazon.co.jp (9/17執筆時)

 日本語OCRの比較記事でも少し触れましたが、日本語のOCRソフトでも英語をOCR認識させることができます。→こちら

 しかし、英語だけで書かれた論文の読み取り能力は相当低い」と言わざるを得ません。

 認識はするのですが、変換エンジンや辞書を用いた内部処理の方法が異なるため、正確性のレベルで英語専用ソフトには全く敵いません。たぶん、日本語のOCRソフトで英語論文をOCR化させている人が、一度英語圏のOCRソフトを使うと、その高性能に驚くでしょう

2・英語専用OCRソフトの種類

 続いて、英語専用ソフトを見ていきましょう。

 世界における、英語(+ヨーロッパ言語)対応ソフトとしての「三強」と言えるのは、OmnipageReadiris ProAbbyy Fine Readerです。


 【ダウンロード版】

 1・OmniPage 18.0, US English
  $ 149.99 Amazon com (9/17執筆時)


  201805251621.jpg

 2・Fine Reader 14プロフェッショナル版
  ¥21,600 VECTORシェアレジ (9/17執筆時)

  
 3・Readiris Pro 14
  ¥ 5,930 Amazon co.jp
(9/17執筆時)

 Atlasは、すべてのソフトを所有していますので、これらは全部試しました。

 認識性能は、FinereaderOmnipageがほぼ互角です。

 ちなみに、これら2メーカーは、Finereaderが「読取革命」と、Omnipageが「e.Typist」協力関係にあり、英語の部分で技術提供をしています。Atlasは、古い英字新聞のような状態の悪い原稿をOCR化させるのですが、FinereaderOmnipage の場合は素直に読み取ってくれます。

 一方、Readiris Proは、この3機種で唯一Macで使えるソフトです。しかし、認識できるペーパーの枚数制限(50枚まで)がある点と、レイアウト認識がイマイチな店で残念でした。

ーー

  201805251621.jpg

 ソフトの安定性は、普通に使う分には、どのソフトも問題ありません。ただ、Atlasのように、「ハードカバー丸々1冊OCRにかける」などの「ハードな作業」を強いる場合、最も安定しているのはFine Readerです。

 旧バージョンから、この点では定評があり、現行バージョンでもその特色は続いています。

3・Fine Readerの紹介

 201805251621.jpg

 結論的にいえば、Atlasのおすすめソフトは、Finereaderとなります。そこで、ここからはFine Readerを中心にしながら、幾つかのポイントにわけながら、紹介してみます。

1・対応する言語

 Atlasは英語以外はほぼ使いません。

 しかし、FinereaderOmnipageは、ヨーロッパ系の言語については、英・独・仏・伊・露・西をふくめほぼ全ての言語が単に文字が認識できます。

 アジア系言語についても、日・中・韓が網羅されます。ただし、単語辞書を搭載しているという点で、アジア言語については、Finereaderのほうが出来が良いです。英語については、同レベルです。

 Finereaderは190言語、Omnipageは120言語に対応しています。

2・インターフェース

 201406131313.jpg

 左がFinereaderで、右がOmnipageのインタフェースです。両者ともに、インタフェースは使いやすいです。

 サムネイルの表示形態など細かい点では異なりますが、甲乙付けがたいです。いずれも、初心者についてもボタン一つで実行できるので、この手のソフトにありがちな使いこなせず放棄してしまうと言うこともないでしょう。

3・認識精度について

 Finereaderも、Omnipageも、認識言語を自動でソフトが解析して、適切な言語で認識をしてくれます

 これは、英・独・仏で試しましたが、うまくいきました。

 ただ、正確を期する場合はあらかじめ言語を指定した方が良いでしょう。スペルチェック機能もうまく働いていました。あと面白いところでは、Fine Readerは、バーコードの認識もしてくれます

 論文・新聞のように、2段に分かれているようなレイアウトが複雑な配列の文章も、解析して(前ページのレイアウトを参考にしつつ)識別してくれます

 ヘッダーやフッター、ページナンバーなどの認識精度も高いです。

 日本語のOCRでは、図表と本文の区分けが自動ではうまくいかないことが多いです。しかし、これらはほとんど正確に解析してくれます。

 manfgetsun-2.jpg

 上図は、Finereaderで行った読み取りの例です。

 古い新聞の記事(19世紀末)を画像データにしたものをこのソフトにかけたものです。レイアウトがかなり正確に認識されています。

 manfgetsun-1.jpg

 曲がっている原稿ですが、コラムとコラムの区切り認識がとても優秀です。

 アルファベットは、日本語に較べて数が限られているからという事情もありますが、古い活字でもほぼ完全に認識ができています。

 透明PDFとして埋め込まれるのは、書式も保存されるリッチテキストファイルのため、複数のフォントから最も近いフォントが自動で選ばれます。原文に近い状況のフォントが選択されるので、レイアウトも綺麗です。これは日本語のOCRソフトと較べた場合の大きな違いです。

ーー

 余談ですが、オンラインで入手できるフルテクスト学術論文(ProquestやJstorなど)は、業者が事前にOCRをかけた論文があります。ただ、一部、かなり精度の悪いOCRがかかっている場合があります。とくに、Proquestの古新聞データベースはひどいので、AtlasはFine ReaderでOCRをかけ直しています。

 英語以外の原稿についても、昔、頼まれてドイツ語について作業したことがありましたが、ウムラウトを含めて問題ないレベルでした。

4・PDFへの出力

 OCRソフト、ファイルの種類によっては、先ほど書いたように、透明PDFにすると元のファイルよりも爆発的にファイルサイズが大きくなってしまうことがあります。

 しかし、FinereaderOmnipageともに、圧縮効率が良く、解像度を落とさないまま、ファイルサイズを抑えてくれます。圧縮率の点で、Omnipageは前バージョンではFinereaderの後手を踏んでいました。しかし、新バージョンでは並んだといえます。

4・Acrobatの英語OCR機能

 201809190826.jpg

 つづいて、別の分野のソフトのOCR機能を見ていきましょう。

 具体的には、Adobe社のPDF作成ソフトである、Acrobat DCに内蔵される英語OCRの変換性能についてです。


 201805251645.jpg

 【Windows・Mac】

 Acrobat Pro DC 2018 12ヶ月版
  ¥18,607 Amazon.co.jp
(9/17執筆時)

 【Windowsのみ

 Acrobat Standard DC 2018 12ヶ月版
  ¥16,253 Amazon.co.jp
(9/17執筆時)

 Adobe社Acrobatにも、OCR機能があります。こちらのシステムを使った場合も、検索できるPDF(透明PDF)を作ることが可能です。

 Windowsならば価格の安いスタンダード版から、Macはプロ版から利用可能です。

 もちろん、無料で手に入るAcrobat Readerにこの機能はありません

 Arobat DCも、英語以外のヨーロッパ言語(フランス語・ドイツ語・スペイン語・ロシア語)韓国語・中国語などの東アジア言語にも対応します。

 少し実験してみました。


 rararapodasimu-6.jpg

  この英語原稿を取り込んでみます。実験のために、コピーの状態が悪く曲がっている原稿を選びました。

  rararapodasimu-11.jpg

 Adobeの場合は、ディスプレイに表示される「画像としての」フォントをベクター化して、擬似的な「カスタムフォント」にすることで、画像として見やすくするという、Clearscan機能があります。

 かみ砕いて言えば、単に埋め込まれたテキストが検索ができるだけではなく、ディスプレイ上に見えている(画像としての)文字の見やすさも輪郭が強調されて改善されます。透明PDFの「お化粧」機能は、他機種にはない特長で、さすがは、IllustratorやPhotoshopを出している会社だなと感じました。とにかく、透明PDFの見やすさが抜群に良くなります

 加えて、Clearscan機能を使うと、画像がベクター化されるため、ファイルサイズも格段に縮小されます。

 肝心のOCR認識率はどうでしょうか。

  201504281604.jpg

 これは、認識結果のテキストをWordにコピー&ペーストしたものです。細かくは見ませんが、「Wiebe(ウィービー)」という名字(固有名詞)を含めて精度高く認識しています。ただ、「Reform」という単語を間違っていたり、完璧ではありませんでした。

 ちなみに、同じ原稿をFinreader 12で認識させたところ、Reformという単語も含めて、より高精度に認識されました。


 rararapodasimu-17.jpg

 では、もっと状態の悪いものではどうでしょうか?こちらは、マイクロフィルムからコピーした相当状態の悪い資料です。

 rararapodasimu-18.jpg

 まず、英語専用OCRソフトのFIne Reader の(埋め込まれた)認識結果の紹介から。

 Fieldという単語など、かなり誤ってはいますが、状態の悪い画像の割にうまく認識しています。

 rararapodasimu-19.jpg

 一方、Acrobatの場合、 見せたくないくらい、壊滅的な有様です・・・。

 結論的に言えば、例えば、オンラインデータベースからダウンロードしたような綺麗な論文(画像ファイル)や、コピー機で自分でコピーしたものをスキャニングしたデータについては、アクロバットでも実用に足ると言えます。

 ClearScanにかけると、ディスプレイの見かけ上の見やすさも向上するので、PDFファイルの運用面でもメリット性が高いでしょう。

 その一方で、上で実験したような状態の悪い画像の場合認識は厳しいと言えます。結論的に言えば、マイクロ資料の電子化が主ならば、英語OCR専用ソフトを導入した方が無難です。しかし、自分で自炊したものや、オンラインから取るような雑誌論文の場合は、Adobe Acroba DCで十分対応します。

今回の結論
変換精度が信頼できる英語専用OCRソフトはこれ!

 さて、今回は、英語OCRソフトについて書いてみました。

 最後に、目的別、用途別にAtlasのおすすめソフトを提案しておきます。


 第1に、自炊したコピー論文や資料など現在的な資料をOCR化したい場合は、

  201805251645.jpg

 【Windows・Mac】

 Acrobat Pro DC 2018 12ヶ月版
  ¥18,607 Amazon.co.jp
(9/17執筆時)

 【Windowsのみ

 Acrobat Standard DC 2018 12ヶ月版
  ¥16,253 Amazon.co.jp
(9/17執筆時)

 「完璧な検索精度は求めず、特定の単語をざっと拾えるようにしたい」というレベルのニーズの場合、利便性が最も高いのは、Acrobat DCです。

 検索できるようにするだけはなく、PDF上の論文の視認性も良くなるので、Atlasも基本的に状態の良い論文については、最近はAcrobatDCを使っています。

 多少価格は高いですが、PDF作成ソフトとして他にもかなり多機能ですので、お持ちでないのならば買って損はないでしょう。なお、他の機能については、【PDF作成ソフトの比較記事】も作っているので、興味がある方は、ご覧ください。


第2に、英語を中心としたヨーロッパ言語のOCRソフトとして比較的値頃感のある製品としてオススメなのは、

  201805251621.jpg

 2・Fine Reader 14プロフェッショナル版
  ¥21,600 VECTORシェアレジ (9/17執筆時)

 Abbyy社Fine Readerです。

 実際、Fine Readerの信頼性と安定性は評判が高く、ヨーロッパ言語についてはおそらくこれ以上の精度のOCRは、一般販売されていません。また、アジア言語も、単語辞書が入っています。

 この商品、決して安くないですが、費用以上の効果が期待できますし、研究者には特にオススメです。頁数限定ですが、試用もできますので安心です。

ーーー

 というわけで、今日は英語OCRについて紹介しました。日本語のOCRで英語を扱っている方、精度にびっくりすると思いますので、ぜひ導入を検討してみてください。

 なお、本ブログ「モノマニア」ではOCRソフトについては以下のような記事があります。---

1・日本語OCRソフトの比較
2・英語OCRソフトの比較
3・PDF作成ソフトの比較
4・iPhone用のOCRアプリの比較

 これらもよろしくお願いします。

 世界における、英語(+ヨーロッパ言語)対応ソフトとしての「三強」と言えるのは、OmnipageReadiris ProAbbyy Fine Readerです。

posted by Atlas at 08:36 | 研究上の道具(資料の電子化)

今回の記事はいかがだったでしょうか?

モノマニアには「家電やモノの比較記事」が約350本あります!

よろしければ、下部のリンク集もご覧ください。

<広告>

 この記事がお役に立てたようならば、右のリンクから「家電ブログランキング」にクリック投票お願いします。  201302192014.jpg
          

Googleなどの検索エンジンでは

「モノマニア」「家電ジャンル」or「型番」

の単語入力で、このブログの個別記事検索ができます!

<PR>

約350記事の完全なリンク集は、【トップページ】の下部にあります。

今後の
記事は【Twitter アカウント】でツイートしています。お題も募集中!

monomani31.png