Manticore का 14 गुना स्पीड बूस्ट: तेज़ एम्बेडिंग के लिए ONNX का पुनर्निर्माण

कल्पना कीजिए कि आपके खोज परिणाम 14 गुना तेज़ी से दिखाई दे रहे हैं। Manticore Search ने अपनी टेक्स्ट एम्बेडिंग प्रक्रिया को पूरी तरह से फिर से बनाकर इसे हासिल किया है, जिससे धीमी AI सुविधाएँ डेवलपर्स के लिए बिजली-तेज़ अंतर्दृष्टि में बदल गई हैं।

DailyForageDailyForage
5 मिनट पठनTechnologyManticore Searchtext embeddings
16
Manticore का 14 गुना स्पीड बूस्ट: तेज़ एम्बेडिंग के लिए ONNX का पुनर्निर्माण
मुख्य बातें
  • 1टेक्स्ट एम्बेडिंग स्मार्ट सर्च और AI अनुप्रयोगों के पीछे के गुमनाम नायक हैं।
  • 2Manticore की टीम ने सिर्फ़ चीज़ों को ठीक नहीं किया; वे वापस शुरुआती बिंदु पर चले गए।
  • 3कम-दोहरी संख्या से प्रति सेकंड सैकड़ों दस्तावेज़ों को संसाधित करने तक जाना सब कुछ बदल देता है।
  • 4Manticore के टेक्स्ट एम्बेडिंग अब पिछली इम्प्लीमेंटेशन की तुलना में 14 गुना तेज़ हैं।

कल्पना कीजिए कि आप भूसे के ढेर में सुई ढूंढने की कोशिश कर रहे हैं, लेकिन भूसे का ढेर लगातार बड़ा होता जा रहा है और सर्च टूल सुस्त हैं। Manticore Search के उपयोगकर्ताओं को भी कुछ ऐसी ही चुनौती का सामना करना पड़ा जब उनकी शानदार 'ऑटो एम्बेडिंग' सुविधा – जो किसी भी टेक्स्ट को खोजने योग्य वेक्टर में बदल देती है – कभी-कभी 'ऑटो' से कम और 'एक मिनट रुकिए' जैसी अधिक महसूस होती थी। प्रतिक्रिया स्पष्ट थी: गति एक समस्या थी। हम प्रति सेकंड संसाधित होने वाले दस्तावेज़ों की कम-दोहरी संख्या की बात कर रहे हैं, एक ऐसी बाधा जिसने बहुत सारी कंप्यूटिंग शक्ति को अप्रयुक्त छोड़ दिया।

एम्बेडिंग स्पीड बम्प: यह क्यों मायने रखता था

टेक्स्ट एम्बेडिंग स्मार्ट सर्च और AI अनुप्रयोगों के पीछे के गुमनाम नायक हैं। वे मानव भाषा को संख्यात्मक वैक्टर में परिवर्तित करते हैं, जिससे कंप्यूटर शब्दों और वाक्यांशों के बीच संबंधों को समझने में सक्षम होते हैं, जो सिमेंटिक सर्च से लेकर रिकमेंडेशन इंजन तक सब कुछ संचालित करते हैं। जब Manticore ने पहली बार अपनी ऑटो एम्बेडिंग शुरू की, तो यह एक शानदार छलांग थी: एक अलग, संसाधन-भारी मॉडल सेवा की कोई आवश्यकता नहीं थी। यह सीधे Manticore के भीतर चलता था, Hugging Face के शुद्ध-Rust ML इन्फरेंस रनटाइम Candle के शीर्ष पर SentenceTransformers का उपयोग करके।

हालांकि अभिनव, इस सेटअप की अपनी सीमाएँ थीं। उपयोगकर्ताओं, जिनमें हालिया बदलाव के पीछे के इंजीनियर दिमित्री कुज़मेनकोव भी शामिल हैं, ने पाया कि पर्याप्त CPU के साथ भी, प्रसंस्करण दर प्रति सेकंड 10-20 दस्तावेज़ों के आसपास थी। इसका मतलब था कि बड़े डेटासेट से निपटने वाले किसी भी व्यक्ति के लिए, स्वचालित, बुद्धिमान खोज का वादा प्रतीक्षा की व्यावहारिक वास्तविकता से बाधित था। यह शक्ति की कमी के बारे में नहीं था; यह इस बारे में था कि उस शक्ति का उपयोग कैसे किया जा रहा था।

सबसे बड़ी निराशा इतनी सारी CPU को निष्क्रिय बैठे देखना था। हम जानते थे कि Manticore बेहतर कर सकता है, और हमारे उपयोगकर्ता उस दक्षता के हकदार थे।

Candle से ONNX तक: Manticore का इंजीनियरिंग बदलाव

Manticore की टीम ने सिर्फ़ चीज़ों को ठीक नहीं किया; वे वापस शुरुआती बिंदु पर चले गए। मुख्य समस्या Candle-आधारित पाथ के भीतर एक ही थ्रेड पर समवर्ती कॉलों का क्रमबद्धीकरण (serialization) थी। यह आधुनिक खोज की मांग वाली समानांतर प्रसंस्करण के लिए बस नहीं बनाया गया था। समाधान? एक पूर्ण पुनर्निर्माण, मुख्य इन्फरेंस इंजन को ONNX (ओपन न्यूरल नेटवर्क एक्सचेंज) में स्थानांतरित करना।

ONNX सिर्फ़ एक और संक्षिप्त नाम नहीं है; यह एक खुला मानक है जो डेवलपर्स को विभिन्न फ्रेमवर्क के बीच मशीन लर्निंग मॉडल को स्थानांतरित करने की अनुमति देता है। यह लचीलापन, महत्वपूर्ण रूप से, मॉडल को अत्यधिक अनुकूलित इन्फरेंस इंजन के साथ चलाने में सक्षम बनाता है। ONNX को अपनाकर, Manticore एक बहुत अधिक कुशल निष्पादन वातावरण को एकीकृत कर सकता था, जिसे विशेष रूप से समानांतर वर्कलोड को संभालने और CPU संसाधनों का कहीं अधिक प्रभावी ढंग से लाभ उठाने के लिए डिज़ाइन किया गया था। यह कोई छोटा बदलाव नहीं था; ONNX की क्षमताओं का पूरी तरह से लाभ उठाने के लिए एम्बेडिंग पाइपलाइन के महत्वपूर्ण हिस्सों को फिर से लिखने की आवश्यकता थी।

📌 मुख्य बिंदु: Manticore की ऑटो एम्बेडिंग अब किसी बाहरी मॉडल सेवा की आवश्यकता के बिना 14 गुना तेज़ चलती है, जिससे सब कुछ आत्मनिर्भर और सुव्यवस्थित रहता है।

14 गुना तेज़ होने का आपके लिए क्या मतलब है

कम-दोहरी संख्या से प्रति सेकंड सैकड़ों दस्तावेज़ों को संसाधित करने तक जाना सब कुछ बदल देता है। Manticore का उपयोग करने वाले डेवलपर्स और व्यवसायों के लिए, यह गति वृद्धि सीधे अधिक प्रतिक्रियाशील अनुप्रयोगों और प्रदर्शन से समझौता किए बिना काफी बड़े डेटा वॉल्यूम को संभालने की क्षमता में बदल जाती है। इसका मतलब है कि वास्तविक समय की सिमेंटिक खोज एक व्यावहारिक वास्तविकता बन जाती है, न कि केवल एक सैद्धांतिक संभावना।

यह सिर्फ़ एक वृद्धिशील सुधार नहीं है; यह AI-संचालित समझ के साथ आप कितनी तेज़ी से इंडेक्स और खोज कर सकते हैं, इसमें एक मौलिक बदलाव है। कल्पना कीजिए कि आप अपने उत्पाद कैटलॉग को अपडेट कर रहे हैं और उसके नए विवरण सिमेंटिक खोज के लिए तुरंत उपलब्ध हैं, या उपयोगकर्ता प्रश्नों को अद्वितीय गति से संसाधित कर रहे हैं। लाभ पूरे एप्लिकेशन स्टैक में फैल जाते हैं।

यहाँ बताया गया है कि यह नाटकीय गति वृद्धि क्या प्रदान करती है:

  1. तेज़ डेटा अंतर्ग्रहण: नए टेक्स्ट डेटा को एम्बेडिंग के साथ बहुत कम समय में इंडेक्स करें।
  2. वास्तविक समय सिमेंटिक खोज: लगभग तुरंत अत्यधिक प्रासंगिक खोज परिणाम प्रदान करें।
  3. स्केलेबिलिटी: प्रदर्शन बाधाओं के बिना बड़े डेटासेट और उच्च क्वेरी वॉल्यूम को संसाधित करें।
  4. संसाधन दक्षता: मौजूदा हार्डवेयर का बेहतर उपयोग करें, जिससे परिचालन लागत कम हो।

मुख्य तथ्य

  • Manticore के टेक्स्ट एम्बेडिंग अब पिछली इम्प्लीमेंटेशन की तुलना में 14 गुना तेज़ हैं।
  • पुरानी प्रणाली प्रति सेकंड 10-20 दस्तावेज़ों पर टेक्स्ट को संसाधित करती थी।
  • नया ONNX पाथ प्रति सेकंड सैकड़ों दस्तावेज़ों को संभाल सकता है।
  • यह अनुकूलन Candle पर SentenceTransformers को ONNX-आधारित समाधान से बदलकर प्राप्त किया गया था।

निष्कर्ष

प्रदर्शन बाधा की पहचान करने से लेकर 14 गुना गति वृद्धि के लिए एक मुख्य सुविधा के पुनर्निर्माण तक की यात्रा केंद्रित इंजीनियरिंग का एक प्रमाण है। यह हमें याद दिलाता है कि सबसे नवीन सुविधाओं को भी अधिक दक्षता और उपयोगकर्ता लाभ के लिए परिष्कृत किया जा सकता है। डेटा प्रोसेसिंग की जटिल दुनिया में और कौन से छिपे हुए प्रदर्शन लाभ उजागर होने की प्रतीक्षा कर रहे हैं?

5 मिनट · 910 शब्द

इसे शेयर करें

यह लेख उपयोगी लगा? अपने दोस्तों के साथ शेयर करें।

Rate this article

Discussion

Leave a comment

Loading comments…

आपको यह भी पसंद आएगा

आपके लिए चुनी गई खबरें

Manticore का 14 गुना स्पीडअप: कोड रीबिल्ड कैसे वास्तविक दुनिया पर प्रभाव डालते हैं
Technology

Manticore का 14 गुना स्पीडअप: कोड रीबिल्ड कैसे वास्तविक दुनिया पर प्रभाव डालते हैं

कल्पना कीजिए कि आपको अपने खोज परिणामों के लिए 14 गुना अधिक इंतजार करना पड़ता है। Manticore की ऑटो एम्बेडिंग के कुछ उपयोगकर्ताओं के लिए यही वास्तविकता थी। उन इंजीनियरिंग विकल्पों में गहराई से देखें जिन्होंने टेक्स्ट-टू-वेक्टर रूपांतरण के लिए आश्चर्यजनक 14 गुना गति वृद्धि प्रदान की।

DailyForageDailyForage · 5 मिनटपढ़ें

Enjoy this article?

Get fresh stories delivered to your inbox every morning.