AI टोकन (Token) कैसे बनते हैं ?

AI में “Goodbye” कहा था। लेकिन यह Goodbye वाला टोकन बनने की प्रक्रिया इस बात पर निर्भर करती है कि किस प्रकार का मॉडल या टोकनाइज़र इस्तेमाल किया जा रहा है।

टोकन बनने की प्रक्रिया

  1. सबवर्ड टोकनाइज़ेशन (Subword Tokenization)
    • अधिकतर AI मॉडल, जैसे GPT और BERT, सबवर्ड टोकनाइज़ेशन का उपयोग करते हैं।
    • इसमें पूरा शब्द सीधे टोकन नहीं बनता, बल्कि उसे छोटे-छोटे हिस्सों (subwords) में तोड़ा जाता है।
    • उदाहरण के लिए, “Goodbye” को अलग-अलग टुकड़ों में विभाजित किया जा सकता है, जैसे: cssCopyEdit["Good", "bye"]
    • या कुछ मामलों में, यह और छोटे हिस्सों में टूट सकता है, जैसे: cssCopyEdit["Good", "##bye"] (जहाँ “##” दर्शाता है कि यह टुकड़ा पिछले टोकन से जुड़ा हुआ है)
  2. Byte Pair Encoding (BPE) आधारित टोकनाइज़र
    • GPT और अन्य NLP मॉडल BPE टोकनाइज़र का उपयोग करते हैं।
    • यदि “Goodbye” पहले से ट्रेनिंग डेटा में कई बार आ चुका है, तो इसे एक ही टोकन के रूप में रखा जा सकता है।
    • अगर यह दुर्लभ शब्द है, तो यह छोटे टोकनों में विभाजित हो सकता है।
  3. SentencePiece और WordPiece टोकनाइज़र
    • Google के BERT मॉडल में “WordPiece Tokenizer” उपयोग होता है, जो शब्दों को आंशिक भागों में विभाजित करता है।
    • SentencePiece (जैसे T5, ALBERT) पूरे वाक्य को टोकन में बदल सकता है, जिसमें “Goodbye” एक या एक से अधिक टोकन में बंट सकता है।

टोकन की संख्या कैसे पता करें?

यदि आप किसी GPT मॉडल (जैसे GPT-3.5 या GPT-4) में देखना चाहते हैं कि “Goodbye” कितने टोकन में बदलता है, तो OpenAI का टोकनाइज़र टूल इस्तेमाल कर सकते हैं:

🔗 OpenAI Tokenizer

GPT-4 में “My AI App” को टोकनाइज़ करने के लिए, OpenAI का Byte Pair Encoding (BPE) टोकनाइज़र उपयोग किया जाता है। टोकन की संख्या इस बात पर निर्भर करती है कि मॉडल के ट्रेनिंग डेटा में ये शब्द कैसे स्टोर किए गए हैं।

1. संभावित टोकन विभाजन (GPT-4 के अनुसार)

“My AI App” को GPT-4 टोकनाइज़र आमतौर पर 4 टोकन में विभाजित करेगा:

  1. " AI" (ध्यान दें कि “AI” के पहले एक स्पेस है, क्योंकि टोकनाइज़र अक्सर वर्ड-बाउंड्री को मान्यता देता है)
  2. " App" (स्पेस के साथ “App”)

नोट: OpenAI का टोकनाइज़र प्रत्येक शब्द के पहले के स्पेस को अलग से एक टोकन की तरह मानता है, खासकर जब वह नया शब्द शुरू करता है।


2. Python कोड से टोकन की जाँच करें

आप Python में Hugging Face के GPT-2 टोकनाइज़र का उपयोग करके टोकन को देख सकते हैं:

3. OpenAI के टोकनाइज़र टूल से जांचें

आप OpenAI Tokenizer पर जाकर “My AI App” को टोकनाइज़ कर सकते हैं और देख सकते हैं कि यह कितने टोकन में बदलता है।


4. टोकन की गिनती (यदि OpenAI API का उपयोग कर रहे हैं)

  • यदि GPT-4 API का उपयोग किया जाए, तो “My AI App” के 3-4 टोकन गिने जाएंगे।

है ना मजेदार…खेलो टोकन-टोकन। अल्हुआ टोकन 🙂

लेकिन एक बात है दोस्त…इतना पढ़ने के बाद यही समझ आया कि AI World में बहुत सी दुकानें हैं। हर एक दुकान अपने हिसाब से टोकन का भाव लगाता है। कोई दुकान शब्द के आगे वाले स्पेस को भी गिन लेगा तो कोई बोलेगा, चलिए आप के लिए अपना कमाई छोड़ देते हैं। आप भी क्या याद रखेंगे 🙂

– Jotter Satish

Leave a Comment