NVIDIA का फुगाट्टो संगीत, भाषा शिक्षा और खेल विकास जैसे क्षेत्रों में पेशेवरों के लिए अनुप्रयोगों की एक श्रृंखला प्रदान करता है। उदाहरण के लिए, संगीत निर्माता, शैलियों, आवाज़ों और वाद्ययंत्रों के साथ प्रयोग करते हुए, गीत के प्रोटोटाइप को शीघ्रता से तैयार करने के लिए एआई का उपयोग कर सकते हैं
और पढ़ें
NVIDIA ने फुगाट्टो लॉन्च किया है, जो एक अभूतपूर्व जेनेरिक एआई मॉडल है जो टेक्स्ट प्रॉम्प्ट को ऑडियो में बदलने में सक्षम है। आधिकारिक तौर पर फाउंडेशनल जेनरेटिव ऑडियो ट्रांसफॉर्मर ओपस 1 नाम दिया गया, इस प्रयोगात्मक मॉडल को संगीत बनाने से लेकर मौजूदा ध्वनियों को संशोधित करने तक विभिन्न प्रकार के ऑडियो-संबंधित कार्यों को संभालने के लिए डिज़ाइन किया गया है।
द्वारा वर्णित NVIDIA “ध्वनि के लिए स्विस आर्मी चाकू” के रूप में, फुगाटो उन्नत बहुभाषी और बहु-उच्चारण क्षमताओं को प्रदर्शित करता है, एआई शोधकर्ताओं की एक वैश्विक टीम द्वारा इसके विकास के लिए धन्यवाद।
पेशेवरों और उससे आगे के लिए ऑडियो निर्माण
फुगाट्टो संगीत, भाषा शिक्षा और खेल विकास जैसे क्षेत्रों में पेशेवरों के लिए अनुप्रयोगों की एक श्रृंखला प्रदान करता है। उदाहरण के लिए, संगीत निर्माता, शैलियों, आवाज़ों और वाद्ययंत्रों के साथ प्रयोग करते हुए, गीत के प्रोटोटाइप को शीघ्रता से तैयार करने के लिए एआई का उपयोग कर सकते हैं। शिक्षकों को भाषा-शिक्षण उपकरण बनाने, ऑडियो को विशिष्ट आवाज़ों या उच्चारणों के अनुरूप ढालने में यह उपयोगी लग सकता है। गेम डेवलपर्स के लिए, फुगाटो गेमप्ले परिवर्तनों के साथ संरेखित करने के लिए पूर्व-रिकॉर्ड किए गए ऑडियो को गतिशील रूप से समायोजित कर सकता है, जिससे खिलाड़ी का विसर्जन बढ़ सकता है।
इन प्रत्यक्ष अनुप्रयोगों के अलावा, फुगाटो जटिल कार्यों को भी संभाल सकता है जो इसके प्रशिक्षण डेटा से निर्देशों को जोड़ते हैं। उदाहरण के लिए, यह ऐसा भाषण तैयार कर सकता है जो विशिष्ट भावनाओं को व्यक्त करता है, जैसे क्रोध, एक चुने हुए लहजे में, या शिल्प ध्वनियाँ जो समय के साथ विकसित होती हैं, जैसे कि एक परिदृश्य में बारिश का तूफ़ान। ये विशेषताएं ऑडियो पीढ़ी में एआई की अनुकूलनशीलता और रचनात्मक क्षमता को प्रदर्शित करती हैं।
ऑडियो के लिए जेनरेटिव एआई में एक प्रतिस्पर्धी स्थान
जबकि फुगाटो की क्षमताएं प्रभावशाली हैं, यह एआई-संचालित ऑडियो टूल के बढ़ते क्षेत्र में प्रवेश कर रहा है। मेटा ने पहले टेक्स्ट-टू-साउंड जनरेशन के लिए एक ओपन-सोर्स AI किट जारी किया है, और Google का MusicLM उपयोगकर्ताओं को अपने AI टेस्ट किचन प्लेटफॉर्म के माध्यम से टेक्स्ट प्रॉम्प्ट से संगीत बनाने की अनुमति देता है।
हालाँकि, NVIDIA का मॉडल प्राकृतिक, मानव-जैसी ध्वनि उत्पादन और मौजूदा ऑडियो फ़ाइलों को सटीकता के साथ संशोधित करने की क्षमता पर जोर देता है।
सार्वजनिक पहुंच की कोई योजना नहीं
NVIDIA फ़ुगाटो को सार्वजनिक रूप से उपलब्ध कराने की योजना का अभी तक खुलासा नहीं किया गया है। हालाँकि, ध्वनि डिज़ाइन में क्रांति लाने की मॉडल की क्षमता स्पष्ट है। पेशेवरों के लिए वर्कफ़्लो को सरल बनाने से लेकर अधिक वैयक्तिकृत ऑडियो अनुभवों को सक्षम करने तक, फ़ुगाटो एआई को रचनात्मक अभिव्यक्ति के साथ विलय करने की दिशा में एक और कदम है।
चाहे यह जनता के लिए सुलभ हो या नहीं, मॉडल ऑडियो नवाचार में जो संभव है उसे फिर से परिभाषित करने के लिए NVIDIA की महत्वाकांक्षा पर प्रकाश डालता है।