OCR एल्गोरिथम क्या है और यह उपयोगी क्यों है?

Oct 20, 2022 एक संदेश छोड़ें

पोर्टेबल 3.46 इंच ट्रांसलेटर 112 लैंग्वेज रिकॉर्ड वॉयस 99 प्रतिशत सटीक स्कैन लैंग्वेज ट्रांसलेशन रीडर पेन स्मार्ट ट्रांसलेटर

Detail-01

नवीनतम तकनीक का उपयोग करना:

1. नवीनतम को अपनाएंओसीआरपाठ पहचान प्रौद्योगिकी;

2. स्व-विकसितग्राफिक्स मान्यताएल्गोरिथम प्रौद्योगिकी;

3. चीन की नवीनतम को अपनानाटीटीएसभाषण मान्यता प्रौद्योगिकी।

नवीनतम {{{0}}कोर एआरएम कॉर्टेक्स-ए9 2गीगाहर्ट्ज चिप का उपयोग, शक्तिशाली टीटीएस और ऑडियो अनुवाद तकनीक के साथ, सटीक अनुवाद, सटीक उच्चारण, तेज स्कैनिंग क्षमता और केवल आवश्यक गति सुनिश्चित करने के लिए 0.5s


ऑप्टिकल कैरेक्टर रिकग्निशन एल्गोरिथम क्या है और यह क्यों उपयोगी है?


OCR

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर)एक प्रकार का एनोटेशन है जो टाइप की गई या हस्तलिखित जानकारी की छवियों को मशीन-पठनीय पाठ में लिप्यंतरित करने की अनुमति देता है।


हालाँकि OCR को अक्सर अनदेखा कर दिया जाता है, लेकिन जब हम स्वचालन के बारे में बात करते हैं तो यह एक अपूरणीय सहायक होता है। यह अनावश्यक कागजी दस्तावेजों के प्रवाह को समाप्त करता है। यह आपको कागजी दस्तावेजों की भौतिक प्रकृति से जुड़े सुरक्षा जोखिमों से बचते हुए सूचनाओं को वर्गीकृत, व्यवस्थित, संग्रहीत, प्रबंधित और साझा करने की अनुमति देता है।


ओसीआर की उपलब्धता व्यापक हो गई है। आपने इसे मूवी टिकट स्कैनर या एयरपोर्ट और ट्रेन स्टेशनों में देखा होगा। इसका उपयोग डेटा निष्कर्षण और सुरक्षा निगरानी के लिए किया जाता है (कार लाइसेंस प्लेट या सड़क के संकेत सोचें)। इलेक्ट्रॉनिक हस्ताक्षर ओसीआर का दूसरा रूप हैं। लेकिन यकीनन OCR का सबसे आम उपयोग व्यावसायिक दस्तावेज़ों की छवियों को डिजिटल टेक्स्ट में बदलना है जिसे खोजा, संपादित और प्रबंधित किया जा सकता है।


आइए एक स्थिति की कल्पना करें। आप एक महत्वपूर्ण बैठक में भाग ले रहे हैं। आपका व्यावसायिक भागीदार आपको एक दस्तावेज़ दिखाता है; आप अपना स्मार्टफोन निकालते हैं और एक त्वरित फोटो लेते हैं। ऐसा लगता है कि आपके पास आवश्यक जानकारी है, लेकिन यह एक छवि के रूप में है। आप सीधे इस दस्तावेज़ का उपयोग नहीं कर सकते। इसके बजाय, आपको तस्वीर के पिक्सेल को पढ़ने योग्य प्रारूप में बदलने की आवश्यकता है ताकि आप उसमें मौजूद जानकारी को संपादित और हेरफेर कर सकें।


इसके अलावा, ओसीआर-आधारित स्वचालन केवल डिजिटल रूप में जानकारी साझा करने के बारे में नहीं है। जब आपके पास बहुत सारे दस्तावेज़ होते हैं, तो मशीन उन्हें पैटर्न और रुझान खोजने के लिए डेटा प्रविष्टियों के रूप में उपयोग कर सकती हैं। विज़ुअलाइज़ेशन भी आसान हो गया है: यदि आपको आरेख, योजनाओं या स्प्रैडशीट्स की आवश्यकता है, तो डिजिटल दस्तावेज़ों का उपयोग हाथ से दिखने वाली सुखद रिपोर्ट लिखने से कहीं अधिक तेज़ है। OCR आपको प्रत्येक नए दस्तावेज़ को संसाधित करने, श्रम लागत बचाने और मूल्यवर्धित रणनीतियों पर ध्यान केंद्रित करने में कम समय व्यतीत करने की अनुमति देता है।

text-attributes-for-an-ocr

ओसीआर एल्गोरिदम कैसे काम करता है?

लोग टेक्स्ट वर्णों को पहचानने में बहुत अच्छे होते हैं, भले ही वे हस्तलिखित हों। एक मशीन के लिए, तथापि, यह एक लंबा क्रम है। लोग कैसे पढ़ते हैं, यह जानने के लिए उन्हें मशीन लर्निंग एल्गोरिदम की आवश्यकता होती है। इसके लिए, ओसीआर एल्गोरिदम को पाठ छवियों को संसाधित करने के लिए व्यापक प्रशिक्षण की आवश्यकता होती है।


यह समझने के लिए कि OCR एल्गोरिथ्म कैसे काम करता है, पहले हम आपको टेक्स्ट और उसके गुणों के बारे में और बताना चाहते हैं। क्यों? क्योंकि मशीनें पाठ को इसी तरह देखती हैं: एक छवि के भाग के रूप में।


ओसीआर एल्गोरिदम के पाठ गुण

एक वाणिज्यिक सेटिंग में आप जो पाठ पा सकते हैं और "जंगली में" मौजूद पाठ के बीच एक बड़ा अंतर है: सड़क, हस्तलिखित नोट्स, कैप्चा, आदि के रूप में। एक अच्छी तरह से संरचित, सुव्यवस्थित स्कैन त्रैमासिक रिपोर्ट में निगरानी ड्रोन द्वारा कैमरे में कैद यादृच्छिक भित्तिचित्रों से मीलों दूर है। हालाँकि, ये दो उदाहरण कई गुणों को प्रदर्शित करते हैं जो टेक्स्ट इमेज को मशीन लर्निंग एल्गोरिदम को समझाने में मदद करते हैं।


  • घनत्व।दस्तावेज़ स्कैन में, पाठ अक्सर सड़क के किनारे के फ़ोटो पर पाठ की तुलना में सघन होता है।

  • संरचना।अंतर एक हस्तलिखित खरीदारी सूची में मुद्रित पाठ की आदेशित पंक्तियों और खराब संरचना (या इसकी कमी) के बीच का अंतर है।

  • फ़ॉन्ट और आकार।हस्तलेखन की असंगत या मुक्तहस्त शैली के साथ सड़क के संकेतों की तुलना में कठोर फोंट और समान आकार के अक्षर अधिक पहचानने योग्य हैं।

  • वर्ण प्रकार।यह गुण न केवल अक्षरों की उपस्थिति को दर्शाता है, बल्कि संख्याओं, प्रतीकों और विशेष वर्णों की उपस्थिति को भी दर्शाता है। साथ ही, भाषा महत्वपूर्ण है। एक दस्तावेज़ में आमतौर पर एक भाषा होती है; दूसरी ओर, एक चिन्ह या भित्तिचित्र में कई भाषाओं में जानकारी हो सकती है।

  • शोर।यह ध्यान देना महत्वपूर्ण है कि छवि कैसे प्राप्त की जाती है (स्कैन किए गए या फोटोकॉपी किए गए दस्तावेज़; फोटो खिंचवाने वाले संकेत और लाइसेंस प्लेट)। विधि के आधार पर, तस्वीरें स्कैन की तुलना में अधिक शोर पैदा करती हैं।

छवि पर पाठ की स्थिति और संरेखण। स्कैन आमतौर पर थोड़ा झुकाव के साथ सामने और बीच में होता है। दूसरी ओर, तस्वीरें किसी सख्त लेआउट की पेशकश नहीं करती हैं: पाठ छवि के किसी भी हिस्से में हो सकता है, और इसे किनारे से लिया जा सकता है।

जैसा कि आप देख सकते हैं, पाठ वर्णों की केवल कुछ पंक्तियाँ नहीं हैं। स्वाभाविक रूप से, पाठ विशेषताएँ OCR एल्गोरिदम की बारीकियों को बनाने में मदद करती हैं।


अब जब हम जानते हैं कि टेक्स्ट कैसे अलग है, तो आइए देखें कि OCR एल्गोरिथम कैसे बनाया जाता है।


टेक्स्ट रिकग्निशन एल्गोरिदम के निर्माण, लेबलिंग और प्रशिक्षण की प्रक्रिया

scheme-ocr


बिल्ड, लेबल और ट्रेन टेक्स्ट रिकग्निशन एल्गोरिदम बिल्ड, लेबल और ट्रेन टेक्स्ट रिकग्निशन एल्गोरिदम

स्क्रैच से एक ओसीआर एल्गोरिथम बनाने में कई चरण लगते हैं।


युक्ति: यह OCR इंजन बनाने के लिए आवश्यक मुख्य चरणों का एक संक्षिप्त अवलोकन है। यदि आप अधिक विस्तृत ब्रेकडाउन चाहते हैं, तो एआई प्रोजेक्ट जीवन चक्र पर एक लंबा लेख पढ़ने के लिए इस लिंक का अनुसरण करें।


- चरण 1. संग्रह

सबसे पहले आपको दस्तावेजों का एक डेटाबेस इकट्ठा करना होगा। आपके पास पहले से ही कागज़ के दस्तावेज़ हो सकते हैं जिन्हें आप डिजिटाइज़ करना चाहते हैं। हालाँकि, एक ऑप्टिकल कैरेक्टर रिकग्निशन एल्गोरिथम बनाने के लिए, आपको पर्याप्त रूप से बड़े प्रतिनिधि नमूने को चुनने की आवश्यकता है। इसका मतलब है कि आपके द्वारा चुने गए दस्तावेज़ों का सेट आपके अंतिम लक्ष्य के लिए प्रासंगिक होना चाहिए।


इसके अलावा, इस चरण में दस्तावेजों की स्कैनिंग, कॉपी या फोटोग्राफ करना शामिल है। यदि छवियां उच्च गुणवत्ता वाली हैं, तो यह प्रशिक्षण प्रक्रिया को बहुत लाभ और सुविधा प्रदान करेगी। हमारे लेख में अच्छी डेटासेट विशेषताओं के बारे में और पढ़ें।


- चरण 2. प्रीप्रोसेसिंग

टेक्स्ट को पहचानना शुरू करने से पहले, दस्तावेज़ छवियों को ओसीआर एल्गोरिदम के लिए तैयार, साफ़ और अनुकूलित किया जाना चाहिए। ऐसी कई समस्याएं हैं जो खराब छवि गुणवत्ता का कारण बन सकती हैं: अपर्याप्त प्रकाश, कागज की झिलमिलाहट और प्रतिबिंब, खराब कैमरा या स्कैनर गुणवत्ता, तिरछे कोण, गायब वर्ण या खराब प्रिंट गुणवत्ता, आदि।


यदि आप ओसीआर एल्गोरिथम को ठीक से प्रशिक्षित करना चाहते हैं, तो आपको अगले चरण से पहले निम्न कार्य करने पर विचार करना चाहिए:

छवि को काले और सफेद में बदलें। रंगों को हटाने से टेक्स्ट डिटेक्शन में अस्पष्टता कम हो सकती है।

सीधा करें और संरेखित करें। विषम कोण पहचान प्रक्रिया को महत्वपूर्ण रूप से जटिल करते हैं।

कट और सेंटर टेक्स्ट। केवल महत्वपूर्ण भागों को छोड़ दें: पाठ सामने और बीच में होना चाहिए, कोनों में कहीं छिपा हुआ नहीं होना चाहिए।

शोर कम करने के लिए फिल्टर लगाएं। अलग-अलग पात्रों को पृष्ठभूमि से अलग दिखना चाहिए। याद रखें कि आमतौर पर स्कैन तस्वीरों की तुलना में तेज होते हैं।


- चरण 3. डेटा लेबलिंग

यह OCR एल्गोरिथ्म में एक महत्वपूर्ण कदम है, और यहीं पर हम आपकी सहायता के लिए हैं। पाठ पहचान प्रक्रिया में दो कार्य होते हैं: पाठ का पता लगाना और पहचानना।


टेक्स्ट क्षेत्र को हाइलाइट करने और रेखांकित करने के लिए हम बॉक्सिंग का उपयोग करते हैं। यह ओसीआर एल्गोरिद्म को बताता है कि इमेज में क्या देखना है।

हमारे एनोटेटर तब छवियों पर लिप्यंतरण (मैन्युअल रूप से पाठ दर्ज करते हैं) करते हैं। बाद में, ओसीआर एल्गोरिदम पिक्सेल सेट और चरित्र प्रकारों के बीच पैटर्न खोजने के लिए छवि वर्गीकरण का उपयोग करने में सक्षम होंगे।

इसके अलावा, हमने क्यूए के कई दौर भी आयोजित किए। लोग मशीनों की तुलना में छवियों में पाठ को पहचानने में बहुत बेहतर हैं, लेकिन फिर भी हम यह सुनिश्चित करना चाहते हैं कि कुछ छूटे नहीं।


डेटा लेबलिंग के इस चरण में बहुत समय और मेहनत लगती है, लेकिन आपको इसके बारे में चिंता करने की ज़रूरत नहीं है। हम इस कार्य को आपके कंधों से हटाना पसंद करेंगे। OCR कार्यों के लिए डेटा एनोटेशन लेबल योर डेटा की विशेषताओं में से एक है। हमने इसे पहले भी किया है और हम इसे आपके OCR प्रोजेक्ट के लिए फिर से करना पसंद करेंगे। अधिक जानने के लिए आज ही हमें कॉल करें!


— चरण 4. प्रशिक्षण

अब जब आपके पास एनोटेट दस्तावेज़ हैं, तो आप ओसीआर एल्गोरिथम का प्रशिक्षण शुरू कर सकते हैं। यह कदम उस रणनीति के प्रकार पर निर्भर करता है जिसका उपयोग आप अपने ओसीआर एल्गोरिथम के निर्माण के लिए करते हैं। शास्त्रीय कंप्यूटर दृष्टि तकनीकों से लेकर तंत्रिका नेटवर्क के निर्माण के आधार पर विशेष गहन शिक्षण विधियों तक ये रणनीतियाँ व्यापक रूप से भिन्न हैं।


प्रत्येक रणनीति के अपने फायदे हैं। लेकिन कोई फर्क नहीं पड़ता कि आप कौन सी विधि चुनते हैं, एमएल एल्गोरिथम प्रशिक्षण आमतौर पर पहली कोशिश में काम नहीं करता है। पुनर्प्रशिक्षण और सुधार आम प्रथाएं हैं। यदि OCR एल्गोरिथम तुरंत पूरी तरह से सटीक पाठ पहचान प्रदान नहीं करता है, तो निराश न हों। अभ्यास और दृढ़ता के साथ, आप वहाँ पहुँच जाएँगे!


- चरण 5. पोस्ट-प्रोसेसिंग और गुणवत्ता आश्वासन

वास्तव में, यदि आप सब कुछ फिर से नहीं करना चाहते हैं, तो आपको हर कदम पर QA की आवश्यकता होगी। लेकिन यह अंतिम क्यूए कदम है और अपने ओसीआर एल्गोरिथम को काम करने दें। अब समय आ गया है कि आप अपनी कड़ी मेहनत का फल प्राप्त करें और अंततः अपने दस्तावेज़ कार्यप्रवाह को डिजिटाइज़ करें, जिससे आपके व्यवसाय का समय और धन की बचत होगी।


image

हालांकि मशीन लर्निंग उद्योग के बाहर अक्सर चर्चा नहीं की जाती है, ऑप्टिकल कैरेक्टर रिकग्निशन एआई में उच्चतम उपयोगिता रेटिंग में से एक है। व्यवसाय अभी भी भारी मात्रा में कागजी दस्तावेजों के आधार पर संचालित होते हैं, जो एक पुराना और लगभग हानिकारक अभ्यास है। OCR व्यवसायों को वर्कफ़्लो को डिजिटाइज़ करके इससे निपटने में मदद कर सकता है।


इसके अलावा, ओसीआर के आवेदन का दायरा यहीं नहीं रुकता है। कोई भी टेक्स्ट, चाहे वह साफ-सुथरी व्यवस्थित रिपोर्ट हो, कोई रैंडम स्टोर साइन हो, या हस्तलिखित नोट हो, ओसीआर द्वारा प्रोसेस किया जा सकता है और मशीन-पठनीय टेक्स्ट में परिवर्तित किया जा सकता है। यह बिग डेटा ऑटोमेशन की दिशा में एक कदम है।


अजीब तरह से, पाठ पहचान एल्गोरिदम का निर्माण एक नई तकनीक नहीं है, यह हमेशा की तरह चुनौतीपूर्ण है। बेशक, ओपन सोर्स ओसीआर एल्गोरिदम जनता के लिए उपलब्ध हैं। हालाँकि, यदि आप अपने विशिष्ट उद्देश्य के लिए एक अत्याधुनिक पाठ पहचान मॉडल चाहते हैं, तो स्वयं एक बनाना सबसे अच्छा है। हम आपकी मदद कर सकते हैं! हमें अपनी परियोजना के बारे में बताएं और हम आपके ओसीआर एल्गोरिद्म को प्रशिक्षित करने के लिए दस्तावेजों की पेशेवर व्याख्या करेंगे।