חדשות מזווית אחרת

סקירה: תוכנות OCR התומכות בשפה העברית

תוכנות OCR הן תוכנות המזהות טקסט (רובן מזהות טקסט הכתוב באותיות דפוס ולא כתב יד), מתוך נייר, תמונה או קובץ, ומפיקות את אותו הטקסט בפורמט דיגיטלי, הניתן לעריכה במעבד תמלילים. התוכנות היותר מקצועיות, יודעות גם לזהות את הפונט המקורי ולהוציא את הפלט בהתאם, וכן פלט עם הטקסט במיקומו המקורי – מאפיין החשוב במיוחד כאשר הטקסט המקורי מופיע בעמודות או כשהוא כולל גם אלמנטים גרפיים כמו איורים או תמונות. אבל גם התוכנות החינמיות יודעות להציע יתרונות, כמו זיהוי ניקוד, תיקון שגיאות אוטומטי ואפילו בשפת היידיש.

בעברית קיים מגוון מצומצם של תוכנות כאלה, אך עדיין תוכלו למצוא תכונות המספקות תוצאות משביעות רצון, או תוכנות חינמיות ואפילו בקוד פתוח.

כמובן שלא תמיד הליך הזיהוי מושלם, אך אם התוכנה טובה דיה והזיהוי מספיק איכותי, קל יותר יהיה לתקן את הטעויות מאשר להקליד את כל הטקסט מחדש. ככל שהטקסט אותו רוצים להמיר לדיגיטלי ברור יותר, כן גובר הסיכוי לזיהוי הנכון של האותיות. לכן רצוי לבצע את הסריקה כשהטקסט ישר ולא נוטה לצדדים. אם הסריקה מתבצעת מתוך ספר, רצוי שהעמוד הנסרק יהיה שטוח ולא מעוגל בצורה שגורמת לטקסט הקרוב למקום חיבור הדפים לנטות כלפי פנים.

המקצועיות בתשלום

מבין השתיים הראשונות התקשינו להחליט מי איכותית יותר.

ABBYY FineReader
התוכנה מגיעה במגוון גרסאות: לטלפון נייד, למחשב, לענן או שרת אינטרנט. הזיהוי די מדויק עם כמות שגיאות קטנה, שמירה על מבנה הטקסט כפי שכתוב במקור בעמודות ושמירה על תמונות במיקומן המקורי.
גרסת ניסיון להורדה והתקנה מהאתר הישראלי: http://abbyy.co.il/?categoryId=100180
גרסת ניסיון מקוונת באתר הרשמי: http://finereaderonline.com

Convertio
תכנה מקוונת (פועלת און ליין, ללא הורדה). אותם היתרונות כמו ABBYY FineReader. הרכישה לפי כמות הפעמים של הפעלת התוכנה. מאפשרת 10 הפעלות ניסיון: http://convertio.co/ocr

Readiris
תוכנה לטלפון נייד או למחשב. פחות התרשמנו מרמת הדיוק. גרסת הניסיון מוגבלת ל 10 ימים ועד 100 הפעלות: http://irislink.com/EN-US/c1314/10-Day-FREE-Trial—Experience-Readiris-Pro-15–OCR-Software—-LP.aspx

Ligature
תוכנה למחשב, לענן או שרת אינטרנט, מבית היוצר של חברת ליגטורה הישראלית. גרסת ההתנסות, המאפשרת עד 12 הפעלות ועד 3 ימים, עולה גם כן כסף: http://ligatureltd.com

החינמיות

אל תצפו לאותה רמת דיוק בזיהוי, בכל זאת, הן חינמיות, אבל לצרכים קטנים הן יכולות לסייע, במיוחד לאור העובדה שהתוכנות המקצועיות עולות סכומים בלתי מבוטלים.

אתרים המספקים את השירות באופן מקוון:
http://to-text.ne
http://newocr.com
http://i2ocr.com/free-online-hebrew-ocr

hocr
פותחה ע"י ד"ר קובי זמיר. למפתחי תוכנות, קיימת גם האפשרות להוריד את הקוד הפתוח שכתוב ב ++C/C.
הסבר על התוכנה: http://he.wikibooks.org/wiki/Hocr_-_הפיכת_תמונה_עם_אותיות_עבריות_לקובץ_טקסט
גרסה מבוססת http://code.google.com/archive/p/qhocr :Qt4 או http://code.google.com/archive/p/hebocr
גרסה מבוססת http://packages.debian.org/sid/hocr-gtk :GTK או http://sourceforge.net/projects/hocr.berlios

Hebrew OCR with Nikud
פותחה ע"י סטודנטים מאוניברסיטת בן גוריון – ורד שני ועדי עוז, תחת הנחייתו של פרופ' מיכאל אלחדד. התוכנה מבוססת GTK ויודעת לזהות גם ניקוד: http://www.cs.bgu.ac.il/~elhadad/hocr

אוּן דֶער רֶבִּי לֶערְנְט קְלֵיינֶע קִינְדֶערְלֶעךְ דֵעם אַלֶף־בֵּית... קָמֶץ־אַלֶף אָ!

OCR program for Yiddish
פותחה ע"י Ulrich Greve, יודעת לזהות עברית, יידיש וכן ניקוד: http://tichnut.de/jewish/yiddishocr.html

כתיבת תגובה