【今回レビューする内容】2023年 英語・外国語OCRソフトの変換精度からのおすすめ・選び方:Windows Mac:ABBYY FineReader Standard FineReader PDF Corporate Abbyy Fine Reader 15 Professional Fine Reader 16 OmniPage Standard Readiris PDF Standard ABBYY Fine Reader for Mac:アメリカ英語・ドイツ語・フランス語・イタリア語・ロシア語・スペイン語など多言語も対応
今回のお題
変換精度が信頼できる英語や多言語対応の専用OCRソフトはどれ?
ども、Atlasです。
今日は、2023年1月現在、最新のOCRソフトの比較です。
具体的には、英語専用のOCRソフトについて書きます。
基本、ヨーロッパ系言語(ドイツ語・フランス語・イタリア語・ロシア語・スペイン語)も扱えるので、そちらについてもフォローできます。
---
1・日本語OCRソフトの比較
2・英語OCRソフトの比較
3・PDF作成ソフトの比較
なお、今回の記事は、PDF・OCRソフト比較シリーズの2回目記事として書きました。
1・日本語OCRソフトの英語対応力
はじめに、日本語のOCRソフトの英語認識について説明しておきます。
【2020年発売】
【通常版】
1・ソースネクスト 読取革命 Ver.16
¥12,980 Amazon.co.jp (1/24執筆時)
【バージョンUP版】(直販のみ)
1・ソースネクスト 読取革命 Ver.16
¥6,490 ソースネクスト直販 (1/24執筆時)
このブログの【日本語OCRの比較記事】でも少し触れましたが、日本語のOCRソフトでも英語をOCR認識させることができます。→【こちら】
しかし、「英語だけで書かれた論文の読み取り能力は相当低い」と言わざるを得ません。
認識はするのですが、変換エンジンや辞書を用いた内部処理の方法が異なるため、正確性のレベルで英語専用ソフトには全く敵いません。
たぶん、日本語のOCRソフトで英語論文をOCR化させている人が、一度英語圏のOCRソフトを使うと、その高性能に驚くでしょう。
2・英語専用OCRソフトの種類
続いて、英語専用ソフトを見ていきましょう。
世界における、英語(+ヨーロッパ言語)対応ソフトとしての「三強」と言えるのは、Omnipage とReadiris ProとAbbyy Fine Readerです。
Atlasは、すべてのソフトを所有していますので、これらは全部試しました。
以下、順番に解説していきます。
【Windows】
(Standard版)1年間
2・ABBYY Fine Reader Standard
¥13,530 Abbyy直販 (1/24執筆時)
(Standard版)1ヶ月
2・ABBYY Fine Reader Standard
¥2,195 Abbyy直販 (1/24執筆時)
Finereaderは、Atlasの「普段使い」のソフトです。
従来はパッケージ版でしたが、2022年6月から(世の流れで)永久ライセンス版は廃止で、全部サブスクになりました。バージョン番号も廃止です。
実質的に最後はABBYY Fine Reader 15でしたので、ABBYY FineReader PDF 16でしょう。
日本の代理店経由でも永久ライセンス版はなくなったので、「本家」の方針です。
とはいえ、(研究者など)長期休みが取りやすい職種ならば、長期休みに「まとめて」のような使い方なら、1ヶ月版のサブスクができたので「安く」できるようになりました。
分かりにくいのですが、購入ページのタブで月額に変更できます。
ただ、月額制が便利でもない職種や、日常的に少しずつやる方は、個人用だとたいていの方は厳しくなった思います。
スタンダード版は個人ユーザーも多いでしょうし、(スマホのOCRアプリのように)「従量制」みたいなのがあるといいのですが。
入手方法は、ABBYYの直販サイトで入手できます。
ソフト自体も、日本語化されており、日本語表示を選択できます。
日本の代理店がある関係で、【日本語マニュアル】の提供もあります。
認識性能は、英語ならば、ほぼ間違いないクオリティが得られます。
Atlasは、古い英字新聞のような状態の悪い原稿をOCR化させるのですが、状態の悪い場合のFinereaderの認識率は、相当高いです。
英語中心で、Windows環境をお持ちならば、このソフトを選べば良いでしょう。
ソフトの安定性も、全く問題ありません。
ーーー
【Windows】
(Corporate版)1年間
3・ABBYY FineReader PDF Corporate
¥19,030 Abbyy直販 (1/24執筆時)
3・ABBYY Fine Reader PDF 16
¥13,530〜 VECTORシェアレジ (1/24執筆時)
なお、本製品には上位のコーポレート版があります。
こちらは、月額料金版はないです。
スタンダード版の機能に加えて、異なるフォーマットの2種の書類の比較機能をもつほか、Hot Folder内の書類について、OCR化の手順を個人設定で自動化する機能が利用できます。
主に、企業用ですが、これらの機能は、個人にも便利でしょう。
なお、コーポレート版は、VECTORシェアレジで試用ができます。
提供のAdD社はこの製品の代理店でもあるので、その後、シェアウェアとして買うこともできます。
ちなみにAdD社は、法人用のABBYY FineReader Serverの扱いもあります。年間ライセンスが70万円以上ですから、個人向けではないです。
−
【Mac】1年間
4・ABBYY FineReader PDF for Mac
¥9,350 Abbyy直販 (1/24執筆時)
なお、Finereaderには「Mac版」もあり、Atlasも所有しています。
ただ、価格差があることからも推測できるように、フル機能版ではないです。
1・入力フォーマットの制限
2・出力フォーマットの制限
3・変換辞書搭載の言語数
4・作成後のエディット機能
例えば、PDFと画像以外のファイルの入力を受け付けない点、変換対応言語が少ない点、また、変換辞書を搭載する言語が少ない点、PDFのエディット機能がない点などです。
認識精度の部分では、フォントの再現に対応するなど、Windows版に追いついてきました。
ただ、定評のある仕上がりレイアウトの「美しさ」の部分では、Windows版のほうが、パラグラフなどのレイアウト認識が新しく、優れます。
【Windows】
【標準版】
5・Omnipage Standard 18.0
¥17,849 Kofax直販 (1/24執筆時)
【上位版】
6・Omnipage Ultimate 19.2
¥59,744 Kofax直販 (1/24執筆時)
Omnipageは、Finereaderの双璧と言えるソフトです。
入手方法は、以前は、Nuanceというメーカーが販売し、日本にも販売網がありました。
Omnipage18を最後に2018年にKofaxに事業譲渡されて、そちらからの販売となっています。
認識性能は、複数のフォントを認識し、古く状態の悪い原稿に対応する点で、Finereaderと双璧です。
ちなみに、これら2メーカーは、Finereaderが「読取革命」と、Omnipageが「e.Typist」協力関係にあり、英語の部分で両者にOCR技術を提供をしています。
ソフトの安定性は、以前は、日本語のWindows OSとOmnipageは、相性が良いとは言えない部分がありました。
しかし、Windows10以降はあまり問題を感じません。
ただ、Atlasのように、「辞書のような分厚い古書を丸々1冊OCRにかける」などの「ハードな作業」を強いる場合、最も安定しているのはFine Readerです。
【Windows】【Mac】
【1ライセンス 永久版】
7・Readiris PDF Standard
$129 irislink.com (1/24執筆時)
【5ライセンス 1年版】
8・Readiris PDF 365
$149 irislink.com (1/24執筆時)
【企業向け 永久版】
9・Readiris PDF Business
$ 199 irislink.com (1/24執筆時)
Readiris PDFも、「3強」の一角です。
Readiris Pro 17という名称で隔年で定時更新してきましたが、現在はナンバリングを止めています。
ライセンスの種類は3種類です。
ただ、FineReader同様に企業版は個人に関係ない機能(サイン機能・保護機能)が追加されているだけです。また、5ライセンス版だけは、サブスク型になります。
メジャー2社と比較した場合、機能限定がなくMacでも動作するのが「売り」です(正規品のみ)。
入手方法は、基本的に、英語サイトからの直接販売です。
ただ、日本のクレジットカードでも通りました。
またソフト自体が日本語化されているほか、【日本語のマニュアル】も準備されます。
ソフトの安定性は、AtlasはMac版を利用していますが、問題ありません。
速度も主要ソフトと比較して問題ありません。
また、以前は、かなり使い勝手の悪い出力枚数制限がありましたが、現在は他社同様、普通に使えます。
認識性能は、英語については、一般的なビジネス文書や本を利用するにあたってはOmnipage とFinereaderとさほど変わらず、認識されます。
レイアウト認識も他社に追いついてきており、ほぼ問題ないです。
ただ、古い本や、曲がった原稿などの取り込みについては、単語辞書やエンジンの関係か、2強に及ばない水準ではあります。
---
結論的にいえば、Macユーザーについては、最も良い選択肢といえるソフトです。
【2022年発売】
【パッケージ版(永続版)】
・Parallels Desktop 18 for Mac
¥10,918 Amazon.co.jp (1/24執筆時)
AtlasもMacユーザーです。
しかし、古い本や曲がった状態でスキャンしてしまった本については、精度が期待できるWindows版のinereaderをやはり利用します。
具体的には、【Mac用仮想化の比較記事】で紹介したような、Parallels上で、Windows版のFine Reader を使っています。
ソフトとしての安定性と重さも、Windows版は優れるため、Parallelsを起動する分のマシンパワーを考慮に入れても、そちらの方が、作業効率が良い部分があります。
3・Fine Readerの紹介
【Windows】
(Standard版)1年間
2・ABBYY Fine Reader Standard
¥13,530 Abbyy直販 (1/24執筆時)
(Standard版)1ヶ月
2・ABBYY Fine Reader Standard
¥2,195 Abbyy直販 (1/24執筆時)
以上、主要メーカーのOCRソフトを紹介してきました。
改めて、結論的にいえば、Atlasのおすすめソフトは、(Windows版の)Finereaderとなります。
そこで、ここからはFine Readerを中心にしながら、幾つかのポイントにわけながら、紹介してみます。
1・対応する言語
Atlasは英語以外はほぼ使いません。
しかし、Finereaderは、ヨーロッパ系の言語については、英・独・仏・伊・露・西をふくめほぼ全ての言語が単に文字が認識できます。
アジア系言語についても、日・中・韓が網羅されます。ただし、単語辞書を搭載しているという点で、アジア言語については、Finereaderのほうが出来が良いです。英語については、同レベルです。
ちなみに、Finereaderは192言語、Omnipageは120言語に対応しています。
さらに、48言語は、その言語の単語辞書を持っているため、最終的な精度はより高いです。
2・インターフェース
左がFinereaderで、右がOmnipageのインタフェースです。両者ともに、インタフェースは使いやすいです。
サムネイルの表示形態など細かい点では異なりますが、甲乙付けがたいです。いずれも、初心者についてもボタン一つで実行できるので、この手のソフトにありがちな使いこなせず放棄してしまうと言うこともないでしょう。
3・認識精度について
Finereaderも、Omnipageも、認識言語を自動でソフトが解析して、適切な言語で認識をしてくれます。
これは、英・独・仏で試しましたが、うまくいきました。
ただ、正確を期する場合はあらかじめ言語を指定した方が良いでしょう。スペルチェック機能もうまく働いていました。あと面白いところでは、Fine Readerは、バーコードの認識もしてくれます
論文・新聞のように、2段に分かれているようなレイアウトが複雑な配列の文章も、解析して(前ページのレイアウトを参考にしつつ)識別してくれます。
ヘッダーやフッター、ページナンバーなどの認識精度も高いです。
日本語のOCRでは、図表と本文の区分けが自動ではうまくいかないことが多いです。しかし、これらはほとんど正確に解析してくれます。
上図は、Finereaderで行った読み取りの例です。
古い新聞の記事(19世紀末)を画像データにしたものをこのソフトにかけたものです。レイアウトがかなり正確に認識されています。
曲がっている原稿ですが、コラムとコラムの区切り認識がとても優秀です。
アルファベットは、日本語に較べて数が限られているからという事情もありますが、古い活字でもほぼ完全に認識ができています。
透明PDFとして埋め込まれるのは、書式も保存されるリッチテキストファイルのため、複数のフォントから最も近いフォントが自動で選ばれます。原文に近い状況のフォントが選択されるので、レイアウトも綺麗です。これは日本語のOCRソフトと較べた場合の大きな違いです。
ーー
余談ですが、オンラインで入手できるフルテクスト学術論文(ProquestやJstorなど)は、業者が事前にOCRをかけた論文があります。ただ、一部、かなり精度の悪いOCRがかかっている場合があります。とくに、Proquestの古新聞データベースはひどいので、AtlasはFine ReaderでOCRをかけ直しています。
英語以外の原稿についても、昔、頼まれてドイツ語について作業したことがありましたが、ウムラウトを含めて問題ないレベルでした。
4・PDFへの出力
OCRソフト、ファイルの種類によっては、先ほど書いたように、透明PDFにすると元のファイルよりも爆発的にファイルサイズが大きくなってしまうことがあります。
しかし、Finereader・Omnipageともに、圧縮効率が良く、解像度を落とさないまま、ファイルサイズを抑えてくれます。
圧縮率の点で、Omnipageは前バージョンではFinereaderの後手を踏んでいました。しかし、新バージョンでは並んだといえます。
4・Acrobatの英語OCR機能
つづいて、別の分野のソフトのOCR機能を見ていきましょう。
具体的には、Adobe社のPDF作成ソフトである、Acrobat DCに内蔵される英語OCRの変換性能についてです。
【Windows・Mac】
10・Acrobat Pro DC 12ヶ月版
¥18,765 Amazon.co.jp (1/24執筆時)
【Windowsのみ】
11・Acrobat Standard DC 12ヶ月版
¥16,389 Amazon.co.jp (1/24執筆時)
Adobe社のAcrobatにも、OCR機能があります。
こちらのシステムを使った場合も、検索できるPDF(透明PDF)を作ることが可能です。
Windowsならば価格の安いスタンダード版から、Macはプロ版から利用可能です。
もちろん、無料で手に入るAcrobat Readerにこの機能はありません。
−
Arobat DCも、英語以外のヨーロッパ言語(フランス語・ドイツ語・スペイン語・ロシア語)や韓国語・中国語などの東アジア言語にも対応します。
少し実験してみました。
この英語原稿を取り込んでみます。実験のために、コピーの状態が悪く曲がっている原稿を選びました。
Adobeの場合は、ディスプレイに表示される「画像としての」フォントをベクター化して、擬似的な「カスタムフォント」にすることで、画像として見やすくするという、Clearscan機能があります。
かみ砕いて言えば、単に埋め込まれたテキストが検索ができるだけではなく、ディスプレイ上に見えている(画像としての)文字の見やすさも輪郭が強調されて改善されます。
透明PDFの「お化粧」機能は、他機種にはない特長で、さすがは、IllustratorやPhotoshopを出している会社だなと感じました。とにかく、透明PDFの見やすさが抜群に良くなります。
加えて、Clearscan機能を使うと、画像がベクター化されるため、ファイルサイズも格段に縮小されます。
肝心のOCR認識率はどうでしょうか。
これは、認識結果のテキストをWordにコピー&ペーストしたものです。細かくは見ませんが、「Wiebe(ウィービー)」という名字(固有名詞)を含めて精度高く認識しています。ただ、「Reform」という単語を間違っていたり、完璧ではありませんでした。
ちなみに、同じ原稿をFinreader 12で認識させたところ、Reformという単語も含めて、より高精度に認識されました。
では、もっと状態の悪いものではどうでしょうか?こちらは、マイクロフィルムからコピーした相当状態の悪い資料です。
まず、英語専用OCRソフトのFIne Reader の(埋め込まれた)認識結果の紹介から。
Fieldという単語など、かなり誤ってはいますが、状態の悪い画像の割にうまく認識しています。
一方、Acrobatの場合、 見せたくないくらい、壊滅的な有様です・・・。
結論的に言えば、例えば、オンラインデータベースからダウンロードしたような綺麗な論文(画像ファイル)や、コピー機で自分でコピーしたものをスキャニングしたデータについては、アクロバットでも実用に足ると言えます。
ClearScanにかけると、ディスプレイの見かけ上の見やすさも向上するので、PDFファイルの運用面でもメリット性が高いでしょう。
その一方で、上で実験したような状態の悪い画像の場合認識は厳しいと言えます。結論的に言えば、マイクロ資料の電子化が主ならば、英語OCR専用ソフトを導入した方が無難です。しかし、自分で自炊したものや、オンラインから取るような雑誌論文の場合は、Adobe Acroba DCで十分対応します。
今回の結論
変換精度が信頼できる英語専用OCRソフトはこれ!
さて、今回は、英語OCRソフトについて書いてみました。
最後に、目的別、用途別にAtlasのおすすめソフトを提案しておきます。
第1に、自炊したコピー論文や資料など現在的な資料をOCR化したい場合は、
【Windows・Mac】
10・Acrobat Pro DC 12ヶ月版
¥18,765 Amazon.co.jp (1/24執筆時)
【Windowsのみ】
11・Acrobat Standard DC 12ヶ月版
¥16,389 Amazon.co.jp (1/24執筆時)
「完璧な検索精度は求めず、特定の単語をざっと拾えるようにしたい」というレベルのニーズの場合、利便性が最も高いのは、Acrobat DCです。
検索できるようにするだけはなく、PDF上の論文の視認性も良くなるので、Atlasも基本的に状態の良い論文については、最近はAcrobatDCを使っています。
多少価格は高いですが、PDF作成ソフトとして他にもかなり多機能ですので、お持ちでないのならば買って損はないでしょう。
なお、他の機能については、【PDF作成ソフトの比較記事】も作っているので、興味がある方は、ご覧ください。
第2に、英語を中心としたヨーロッパ言語のOCRソフトとして比較的値頃感のある製品としてオススメなのは、
【Windows】
(Standard版)1年間
2・ABBYY Fine Reader Standard
¥13,530 Abbyy直販 (1/24執筆時)
(Standard版)1ヶ月
2・ABBYY Fine Reader Standard
¥2,195 Abbyy直販 (1/24執筆時)
Abbyy社FineReader Standardでしょう。
実際、Fine Readerの信頼性と安定性は評判が高く、ヨーロッパ言語についてはおそらくこれ以上の精度のOCRは、一般販売されていません。
また、アジア言語も、単語辞書が入っています。
サブスク化してしまいましたが、研究者の場合「短期集中運用」はできるでしょうし、引き続きオススメです。
日数・ページ数限定ですが、契約前の試用もできますので安心です。
ーーーというわけで、今日は英語OCRについて紹介しました。
日本語のOCRで英語を扱っている方、精度にびっくりすると思いますので、ぜひ導入を検討してみてください。
なお、本ブログ「モノマニア」ではOCRソフトについては以下のような記事があります。
1・日本語OCRソフトの比較
2・英語OCRソフトの比較
3・PDF作成ソフトの比較
これらもよろしくお願いします。