第一个,老牌劲旅GPT-4o,经过博主查看 每个给出的论文都是高度相关、并且叙述相当准确。
GPT-4o
第二个llama3.1 405b,根据叙述找到的也相当准确,并且描述的也很贴切。不过能看出来输出的内容丰富程度低于4o
llama 405b
第三个,claude3.5。同样的提示词,但它似乎并不太准确,似乎是分开查询了PHP这个语言的性能相关论文和云服务性能测定的论文,总觉得这个模型不太聪明呢?是我的prompt有问题吗?相当有点奇怪
claude3.5

-------------------完-------------------