SimpleQA
    OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格
    SimpleQA