כיום בכל עסק, מהזעיר ועד לארגון הגדול ביותר, אפשר למצוא מכונות צילום משולבות פקס, מדפסת וסורק. אך אם בעבר מכונת הצילום עבדה שעות נוספות, בשנים האחרונות דווקא הסורק תופס תפקיד מרכזי יותר, בין היתר בשל היכולת לבצע באמצעותו סריקת מסמכים ולאחסן אותם בתוך ארכיון דיגיטלי. כפי שציינו במאמר הקודם, שירותי סריקה מסוג OCR משדרגים עוד יותר את יכולות ניהול הידע של הארגון באמצעות הפיכת מסמך סרוק או קובץ תמונה לטקסט בר עריכה. הכרות עם אופן הפעולה של השירות תאפשר לארגון לקבל תוצאות טובות יותר.
OCR בקוד פתוח: כל האפשרויות פתוחות
למרות ששירותי סריקה מסוג OCR הולכים ומשתפרים עם השנים, התוצאות שמספקת הטכנולוגיה עדיין אינה מושלמת, משמע עדיין יתכנו טעויות בהמרה של מילים או תווים. איך ממזערים את הטעויות? כדי לענות על השאלה כדאי להבין איך מתבצעת פעולת סריקת מסמכים והמרתם באמצעות OCR: תוכנת OCR סורקת את המסמך הרצוי, ותוך כדי הסריקה היא מבצעת השוואה של התווים שנסרקו למערכת לתווים המופיעים במאגר המידע שלה. ככל שהמאגר גדול יותר ומכיל סוגים רבים יותר של פונטים, כך רמת הדיוק של המרת המסמך תעלה. במובן זה אחד היתרונות של תוכנות OCR בקוד פתוח הוא היכולת להוסיף עוד פונטים כדי להשיג תוצאות משופרות. האם זה אומר שתוכנות OCR "מבינות" גם כתב יד?
זיהוי כתב יד
אחת הדוגמאות הטובות מהעת האחרונה לעיבוד יעיל של מידע באמצעות שירותי OCR היא מפקד האוכלוסין של סין. לצורך עיבוד נתוני המפקד העמידה חברת Fujitsu לרשות הסינים 1700 סורקים ושירותי OCR הכוללים זיהוי כתב יד. התאמת המערכת לזיהוי סגנונות כתב יד מגוונים ממחוזות שונים בסין הגבירה את היעילות של סריקת מסמכים לתוך המערכת ועיבוד המידע שבהם. הוספת פונטים וסגנונות כתב יד לשירותי OCR מהווים אם כך נדבך משמעותי בשדרוג יכולותיו של הארגון לנהל ארכיון דיגיטלי חכם יותר.
ומה המסקנה? שירותי OCR הוא תחום דינאמי, ולכן כאשר רוכשים תוכנת OCR כדאי לוודא שהיא מלווה בקבלת עדכוני תוכנה באופן שוטף. בדרך זו מאגר המידע של השירות יגדל בהתמדה וכתוצאה מכך גם מידת הדיוק שלו.