सैन फ्रांसिस्को (UNA) : एलोन मस्क की एआई कंपनी xAI ने अपने चैटबॉट Grok का नया वर्ज़न Grok-1.5 Vision लॉन्च किया है, जो अब दृश्य जानकारी (visual inputs) को प्रोसेस और इंटरप्रेट कर सकता है। यह xAI के लिए मल्टीमोडल एआई की दिशा में पहला कदम है और इसे OpenAI, Google और Anthropic जैसे प्रतिस्पर्धियों के करीब लाता है।
Grok-1.5V दस्तावेज़, डायग्राम, चार्ट, स्क्रीनशॉट और फ़ोटोग्राफ़ जैसी विभिन्न विज़ुअल इनपुट्स को समझने में सक्षम है, साथ ही इसके मौजूदा टेक्स्ट-आधारित कार्यों को भी संभालता है। इससे वास्तविक दुनिया में कई उपयोग संभव हो गए हैं—जैसे फ्लोचार्ट को कोड में बदलना, बच्चों की ड्रॉइंग से कहानी तैयार करना, या जटिल मीम्स की व्याख्या करना।
कंपनी के अनुसार, मॉडल ने इंडस्ट्री बेंचमार्क्स जैसे RealWorldQA dataset पर मजबूत प्रदर्शन किया है, जो स्थानिक और दृश्य समझ का मूल्यांकन करता है। यह विज़ुअल मैथ प्रॉब्लम्स से लेकर डॉक्यूमेंट कम्प्रिहेंशन तक कई कार्यों में उत्कृष्ट है, जिससे Grok उपयोगकर्ताओं के लिए एक बहुमुखी टूल बन जाता है।
विज़न क्षमताओं के साथ Grok सीधे OpenAI के GPT-4 with Vision, Google के Gemini, और Anthropic के Claude 3 से प्रतिस्पर्धा करता है, जो सभी मल्टीमोडल फंक्शंस रखते हैं। xAI का उद्देश्य इस प्रतिस्पर्धी एआई परिदृश्य में तेजी से अंतर को कम करना है।
Grok-1.5 Vision वर्तमान में X (पहले ट्विटर) पर शुरुआती टेस्टर्स और मौजूदा Grok उपयोगकर्ताओं के लिए रोल आउट किया जा रहा है, जबकि व्यापक उपयोग की संभावना निकट भविष्य में है। - UNA