هوش مصنوعی در تاریخ پیشرفته ضعیف عمل میکند
«تجارت نیوز» گزارش میدهد:
هوش مصنوعی در پاسخ به سوالات تاریخی پیشرفته ضعیف عمل میکند. مطالعه جدید نشان میدهد مدلهای زبانی بزرگ در تاریخ پیشرفته ناتوان هستند.
به گزارش تجارت نیوز،
هوش مصنوعی (AI) اگرچه در انجام وظایفی مانند کدنویسی و تولید محتوا تواناییهای قابل توجهی از خود نشان داده است، اما مطالعه جدیدی نشان میدهد در زمینه دانش تاریخی پیشرفته عملکرد ضعیفی دارد. محققان معیاری به نام Hist-LLM توسعه دادهاند تا عملکرد سه مدل زبانی بزرگ (LLM) پیشرو GPT-4 شرکت OpenAI، Llama شرکت متا و Gemini گوگل را در پاسخ به سوالات تاریخی پیشرفته ارزیابی کنند. نتایج این مطالعه که در کنفرانس NeurIPS AI ارائه شد ناامیدکننده بود، به طوری که حتی بهترین مدل، یعنی GPT-4 Turbo، تنها ۴۶ درصد دقت داشت.
معیار Hist-LLM و پایگاه داده Seshat
معیار Hist-LLM بر اساس پایگاه داده جامع Seshat Global History Databank طراحی شده است که نام آن از الهه باستانی مصری خرد، سشات، گرفته شده است. این مطالعه از سوی محققان وابسته به مرکز علوم پیچیدگی (CSH) در اتریش انجام شد و هدف آن ارزیابی توانایی مدلهای زبانی بزرگ در پاسخ به سوالات تاریخی پیچیده و در سطح دکتری بود. ماریا دل ریو-چانونا، یکی از نویسندگان این مقاله و استاد دانشیار علوم کامپیوتر در دانشگاه کالج لندن، اعلام کرد یافتهها شکاف قابل توجهی در توانایی هوش مصنوعی برای درک زمینههای تاریخی پیچیده را نشان میدهد.
نمونههایی از اشتباهات تاریخی هوش مصنوعی
محققان نمونههایی از سوالات تاریخی را به اشتراک گذاشتند که مدلهای زبانی بزرگ به اشتباه پاسخ دادهاند. به عنوان مثال، از GPT-4 Turbo پرسیده شد که آیا زرههای فلسدار در مصر باستان در یک دوره زمانی خاص وجود داشتهاند یا خیر. این مدل بهاشتباه پاسخ مثبت داد، در حالی که این فناوری ۱۵۰۰ سال بعد در مصر ظاهر شد. سوال دیگری مربوط به وجود ارتش حرفهای دائمی در مصر باستان در یک دوره تاریخی خاص بود. GPT-4 بهاشتباه پاسخ مثبت داد، احتمالاً به این دلیل که از نمونههای برجستهتر ارتشهای دائمی در امپراتوریهای باستانی دیگر، مانند پارس، استنباط کرده بود.
دل ریو-چانونا توضیح داد مدلهای زبانی بزرگ در مواجهه با دانش تاریخی مبهم یا کمتر مستند دچار مشکل میشوند. او گفت: «اگر ۱۰۰ بار به شما A و B گفته شود و فقط یک بار C و سپس از شما سوالی درباره C پرسیده شود، ممکن است فقط A و B را به خاطر بسپارید و سعی کنید از آنها استنباط کنید.» این تمایل به تکیه بر نقاط داده برجستهتر میتواند منجر به نادرستی در پاسخ به سوالات درباره جزئیات تاریخی کمتر شناختهشده شود.
سوگیری در دادههای آموزشی
این مطالعه همچنین سوگیریهایی در دادههای آموزشی مدلهای زبانی بزرگ، بهویژه در مورد مناطق مانند آفریقای زیرصحرایی، شناسایی کرد. مدلهای OpenAI و Llama در پاسخ به سوالات مربوط به این مناطق عملکرد ضعیفتری داشتند که نشان میدهد مجموعه دادههای آموزشی آنها ممکن است فاقد نمایندگی کافی از برخی زمینههای تاریخی باشد. این یافته اهمیت تنوع بخشیدن به دادههای مورد استفاده برای آموزش مدلهای هوش مصنوعی را برای اطمینان از خروجیهای متعادلتر و دقیقتر برجسته میکند.
پتانسیل بهبود در آینده
با وجود نتایج ناامیدکننده، محققان نسبت به پتانسیل مدلهای زبانی بزرگ برای کمک به مورخان در آینده خوشبین هستند. آنها در حال بهبود معیار Hist-LLM با افزودن دادههای بیشتر از مناطق کمتر نماینده و سوالات پیچیدهتر هستند. پیتر ترچین، محقق ارشد این مطالعه و عضو هیات علمی CSH، تاکید کرد که اگرچه مدلهای زبانی بزرگ هنوز جایگزین تخصص انسانی نیستند، اما میتوانند نقش ارزشمندی در تحقیقات تاریخی ایفا کنند.
مقاله این مطالعه میگوید: «به طور کلی، اگرچه نتایج ما حوزههایی را که مدلهای زبانی بزرگ نیاز به بهبود دارند برجسته میکند، همچنین پتانسیل این مدلها برای کمک به تحقیقات تاریخی را نیز نشان میدهد.» با رفع محدودیتهای شناساییشده در این مطالعه، محققان امیدوارند دقت و قابلیت اطمینان هوش مصنوعی در زمینه تاریخ را بهبود بخشند.
یافتههای این مطالعه نشان میدهد اگرچه هوش مصنوعی در بسیاری از حوزهها پیشرفتهای چشمگیری داشته است، اما هنوز در مواجهه با پیچیدگیهای دانش تاریخی پیشرفته دچار مشکل است. شکافهای عملکردی و سوگیریهای شناساییشده در این تحقیق، نیاز به بهبود مداوم مدلهای زبانی بزرگ و مجموعه دادههای آموزشی آنها را برجسته میکند. با تکامل فناوری هوش مصنوعی، ممکن است این فناوری در نهایت به ابزاری ارزشمند برای مورخان تبدیل شود، اما در حال حاضر تخصص انسانی در زمینه تاریخ همچنان ضروری است.