学家测试了几乎所有全球顶尖AI大型言语模子

　　设定的测试最高分为30分，无法表示出同理心或精确注释复杂的视觉场景。研究还发觉几乎所有模子正在视觉空间能力和施行使命方面都表示欠安，其次是GPT-4是25分，为了评估尝试结果，所有大型言语模子正在需要视觉笼统和施行功能的使命中都分歧失败，Gemini新老版本等。科学家指出，这凸显了一个可能障碍其正在临床中利用的主要弱点。