OCRが使えないのは中途半端に正確だから

マイナビニュースによると、このほど凸版印刷が精度99.99%の光学文字認識(OCR)技術を開発したということです。ルビや傍点など含む複雑な日本語組版にも対応してるとのことで実に興味深い。

これを機に、もう長いこと続いている「電子書籍元年って一体いつなの問題」にようやく区切りがついて、一気にカンブリア爆発を起こしてくれるんじゃないかと期待したいところ…なんですけど、やっぱりそうは問屋が卸してくれないかも知れないお話です。

OCR読み取り精度に対する印象には谷があると思う

OCRは主にスキャナと連動で使うものですが、時を遡ること15年くらい前 ようやく一般家庭でも手が届く価格になった頃のスキャナ付属OCRソフトは読み取り精度が99%とか99.5%なんていうオーダーだったように思います。

99%以上の精度ならそこそこ使えそうな気がしないでもないんですけど これがびっくりするほど使い物になりませんでした。

ちょっと想像してみれば判るんですけど、99%がスペック通りに出たとしても400字詰め原稿用紙に4カ所誤字がでるわけですから、Twitterだと毎回誤字がある状態で、かなりの残念な状態です。

識字率を99.9%まで上げて原稿用紙2~3枚に一カ所、ようやく及第点が貰える感じになってきますが商業品質としてはかなり厳しいレベルですよね。

むしろ更に昔に遡って精度90%(10文字に1回)くらいの品質だと諦めがつくので誰も文字をスキャンしようとか考えなくなりますね。実際、90年代中盤は意外と図版のデジタル出版が盛んでした。もっとも容量とフォーマットの問題があってなかなか普及しませんでしたが。

一般的に99.9%の成功率なんて言われるとかなり確実な気がしますが成功の期待値が高いカテゴリではそれほど信用ならない数字のこともあります。確率って難しいですね。

許容の谷

確率が上がってもなお発生する新しい問題

じゃぁ、成功率が上がれば手放しで喜べるのかというとそうでもなくてさらに1桁ほど精度が上がるとまた別の問題が発生します。

99.99%、つまり1万文字に1文字程度の誤差になった場合ですね。今度はチェックする際に流し読みによる見落としが出てきます。

英語などは文字種が少ないことからOCR精度が高いため、電子化してからリリースまでの期間が非常に短いと言います。そもそも誤字があること前提ですし。

日本でも電子化の初版はベータ版扱いの安い値段で出して、誤字をレポートしてくれたらポイント溜まるとかインセンティブをつけて一定期間クレームが来なくなったら完全版として値上げするとかすれば割とみんな嬉しい気がするんですけど、どうなんでしょう。

でも、「金を取っといて間違えるなんてけしからん」って人が多いと品質保証コストが掛かって なかなか思いきったことにはならないでしょうね。

もうちょっとユルい世の中になったら色々と変革の余地がありそうです。

【参考】

電子書籍の現状についてはLM-7氏の分析が必見。

A Successful Failure
  >> 楽天koboがまともに日本語書籍を集められないもう一つの理由