OCR Engine İncelemeleri ve HALCON OCR

Sözkonusu olan, endüstriyel görüntü işleme uygulamaları ise, elbette HALCON, herhangi bir OCR engine ile kıyaslanamayacak yeteneklere sahiptir. Bununla birlikte, sözkonusu olan Form (Doküman) OCR işlemi ise, o zaman diğer alternatiflere de bir göz atmak ta fayda olabilir (mi?)

İncelemelerime HALCON dışında, yaygın olarak bilinen farklı ürün ile başladım. Abbyy FineReader Engine 10.0, Google Tesseact OCR, Microsoft Office Document Imaging.

Bu yazıda her iki engine OCR engine, yetenekleri ve HALCON ile kıyaslamasını yapmayı düşünüyorum.

Abbyy FineReader ile başlayalım. Şüphesiz OCR denince ilk akla gelen yazılım. Yılların tecrübesine sahip bu Ukrayna yazılımı, aldığı sayısız ödül sayesinde beklentilerimizi en üst seviyede tutmamızı sağladı.

Artıları :

  • Eksiksiz Profesyonel Bir Ürün
  • Çok İyi Dökümantasyon
  • Tüm Geliştirme Ortamlarını Desteklemesi
  • Kolay Kurma, Öğrenme
  • Blurry, skewed (bulanık, dönük) metinleri OCR edebilme
  • Form Alanı Tanımlayabilme (Region)
  • Mobile Platform desteği
  • Geniş çok dilde dictionary (lexicon) desteği

Eksileri

  • Çağdışı ve çok uzun lisanslama süreci
  • Yüksek lisanslama ücretleri ve lisanslama politikası
  • Yavaş OCR etmesi

Denemek için bile olsa, FineReader kurmak istiyorsanız, öncelikle kötü bir niyetinizin olmadığını, aksi halde akla hayale gelmeyecek kadar çok para cezasına çarptırılacağınızı kabul ettiğiniz dökümanları eksiksiz doldurup, fax, mail, posta, kargo (şaka yapmıyorum) ile hem Ukrayna, hem de Türkiye ofislerine göndermelisiniz. Eğer başvurunuz kabul edilirse, size bir ftp şifresi verilecek ve ürünün 2 aylık deneme versiyonunu indirmeye hak kazanacaksınız.

Sonuçta, FineReader free form (döküman) tipi işlemlerde kabul edilebilir bir OCR kalitesi sunmaktadır. Eğer hızlı çalışmak gibi bir beklentiniz yoksa, sonuç ta gayet tatminkardır.

Ters dönmüş belgeler, çizginin üzerine yazılmış alanlar gibi durumlarda başarılı olamadı (ki bu kadarını beklemiyordum zaten)

TesserAct

Sponsorunun google olması, ürüne ciddi eğilmemi sağladı. Çok kısa download (5.8 MB) sonrası hemen kurup denemeye başlayabiliyorsunuz.

Artıları

  • Sponsored By Google
  • Open source (dolayısıyla çokça geliştirici)
  • Oldukça küçük ve hızlı
  • Çoklu dil desteği
  • Ücretsiz olması

Eksileri

  • Arkasında ciddi bir firma olmaması
  • Karmaşık dökümantasyon (wiki style)
  • Henüz tam oturmamış izlenimi vermesi
  • Web platform desteği
  • Her geçen gün daha da gelişmesi

TesserAct ile yaptığım denemelerde, FineReader kadar yüksek skorlar elde edememekle birlikte, yakın sonuçlar yakaladım. Uygulamanın ciddi bir bütçesi olmayacaksa, TesserAct iyi bir seçenek olabilir.

Ben kişisel olarak, Önce HALCON ile formu iyice temizleyip yine HALCON ile OCR etmeyi düşünüyorum. HALCON ile OCR işlemi yeterince başarılı olamamışsa, o zaman okunamayan yerleri TesserACT ile yeniden deneteceğim. Müşterinin uygulamaya (ve OCR edilecek her sayfaya) bütçe ayırabilmesi durumunda, FineReader elbette daha ciddi bir yaklaşım olacaktır.

MODI (Microsoft Office Document Imaging), Office 2007 ile birlikte ücretsiz olarak gelen, ScanSoft menşeli yazılım.

Artıları

  • Microsoft Desteği
  • Office 2007 ile ücretsiz gelmesi
  • Kullanışlı Arayüz ve Yazılımlarla tam entegrasyon
  • .NET kütüphanesi ile uyum

Eksileri

  • Artık Desteklenmemesi !
  • FineReader kadar yüksek skorlarla OCR edememesi

Aslında MODI, en kolay kurulup ve uygulama geliştirmeye müsait hale gelen seçenek. Buna rağmen artık desteklenmemesi ciddi bir soru işareti oluşturuyor ve şimdilik tarafımca rafa kaldırılıyor.

(Bu konuya yine devam edeceğim)