GPT-4 ٹورنگ ٹیسٹ میں ناکام: ذہین گفتگو کے میدان میں چیلنجز باقی ہیں - Reeman news

ChatGPT، مصنوعی ذہانت کے سپر اسٹار، کو ایک سوال کا سامنا کرنا پڑا جب یہ آگے بڑھ رہا ہے: کیا اس نے انسانی ردعمل سے الگ نہ ہونے والے آؤٹ پٹ پیدا کرنے کے لیے ٹیورنگ ٹیسٹ کے معیار کو پورا کیا ہے؟ تازہ ترین تحقیق سے پتہ چلتا ہے کہ ChatGPT، اپنی بہترین کارکردگی کے باوجود، اس حد کو پوری طرح سے عبور نہیں کرتا۔

یونیورسٹی آف کیلیفورنیا، سان ڈیاگو کے دو محققین، زبان، اصطلاحات اور مشین لرننگ کے ماہر کیمرون جونز اور علمی سائنس کے پروفیسر بینجمن برگن نے یہ سوال 70 سال قبل ٹیورنگ کے کام کا حوالہ دیتے ہوئے کیا۔ ٹورنگ نے اس بات کا تعین کرنے کے لیے ایک عمل کی تجویز پیش کی کہ آیا کوئی مشین ذہانت اور گفتگو کی قابلیت کی سطح کو حاصل کر سکتی ہے جو دوسروں کو یہ سوچنے کے لیے بے وقوف بنا سکتی ہے کہ وہ انسان ہے۔

ان کی رپورٹ کا عنوان ہے "کیا GPT-4 ٹورنگ ٹیسٹ پاس کرتا ہے؟" یہ arXiv پری پرنٹ سرور پر پایا جا سکتا ہے۔ مطالعہ کے لیے، انہوں نے 1,400 "گیمز" کھیلنے کے لیے 650 شرکاء کو اکٹھا کیا جس میں شرکاء نے کسی دوسرے انسان یا GPT ماڈل کے ساتھ مختصر گفتگو کی اور ان سے کہا گیا کہ وہ کس سے بات کر رہے ہیں۔

محققین نے جو پایا وہ قابل ذکر تھا۔ GPT-4 ماڈل نے شرکاء کو 41 فیصد وقت میں بے وقوف بنایا، جبکہ GPT-3.5 نے انہیں صرف 5 سے 14 فیصد وقت تک بیوقوف بنایا۔ دلچسپ بات یہ ہے کہ انسان صرف 63 فیصد آزمائشوں میں شرکاء کو یہ باور کرانے میں کامیاب ہوئے کہ وہ مشینیں نہیں ہیں۔

"ہمیں کوئی ثبوت نہیں ملا کہ GPT-4 نے ٹورنگ ٹیسٹ پاس کیا،" محققین نے نتیجہ اخذ کیا۔ تاہم، وہ نوٹ کرتے ہیں کہ ٹورنگ ٹیسٹ مشینی گفتگو کے اثرات کا اندازہ لگانے میں، ہموار سماجی تعاملات اور دھوکہ دہی کی پیمائش کرنے کے فریم ورک کے طور پر، اور ان آلات کو اپنانے کے لیے انسانی حکمت عملیوں کو سمجھنے میں اہمیت رکھتا ہے۔

تاہم، وہ یہ بھی متنبہ کرتے ہیں کہ بہت سے معاملات میں، چیٹ بوٹس اب بھی قابل اعتماد طریقے سے بات چیت کر سکیں گے۔ "41 فیصد کامیابی کی شرح سے پتہ چلتا ہے کہ AI ماڈلز میں پہلے سے ہی دھوکہ دینے کی صلاحیت ہو سکتی ہے، خاص طور پر ایسے حالات میں جہاں انسان اس امکان سے کم چوکس ہوتے ہیں کہ وہ کسی انسان سے بات نہیں کر رہے ہوں،" محققین نوٹ کرتے ہیں۔ AI ماڈلز جو مضبوطی سے انسانوں کی نقل کرتے ہیں ان کے وسیع سماجی اور معاشی اثرات ہو سکتے ہیں۔"

محققین نے مشاہدہ کیا کہ جن شرکاء نے لوگوں کے ساتھ AI کی درست شناخت کی وہ کئی عوامل پر توجہ مرکوز کرتے تھے۔ ایک ماڈل جو بہت زیادہ رسمی یا بہت زیادہ غیر رسمی ہے شکوک پیدا کرتا ہے۔ اگر ان کا اظہار بہت زیادہ لفظی یا بہت جامع ہے، اگر ان کی گرامر یا رموز غیر معمولی طور پر اچھے یا "غیر یقینی طور پر" ناقص ہیں، تو یہ اس بات کا تعین کرنے میں بھی ایک اہم عنصر ہوگا کہ آیا شرکاء انسانوں یا مشینوں کے ساتھ تعامل کر رہے ہیں۔ اس کے علاوہ، شرکاء ان جوابات کے لیے حساس تھے جو بہت عام لگتے تھے۔

محققین کا مشورہ ہے کہ اے آئی ماڈلز کا سراغ لگانا تیزی سے اہم ہوتا جائے گا کیونکہ وہ زیادہ سیال بن جاتے ہیں اور انسانوں کی طرح کی مزید نرالی چیزیں جذب کرتے ہیں۔ انہوں نے کہا، "ان عوامل کی نشاندہی کرنا جو دھوکہ دہی کا باعث بنتے ہیں اور اس کو کم کرنے کی حکمت عملی تیزی سے اہم ہوتی جائے گی۔" مطالعہ سے پتہ چلتا ہے کہ ذہین گفتگو کے شعبے کو اب بھی چیلنجز کا سامنا ہے، لیکن یہ مفید بصیرت بھی فراہم کرتا ہے کہ AI ماڈلز کو کیسے بہتر بنایا جا سکتا ہے۔