科学进步依赖于研究者综合日益增长的文献体系的能力。大型语言模型(LLMs)能否协助科学家完成这项任务?这里我们介绍OpenScholar,一种专门的检索增强语言模型(LM)1它通过从4500万篇开放获取论文中识别相关段落并综合引用支持的回答,回答科学问题。为了评估OpenScholar,我们开发了ScholarQABench,这是首个大规模多领域文献检索基准测试,包含2967条专家撰写查询和208条长文答案,涵盖计算机科学、物理学、神经科学和生物医学。尽管是一个较小的开放模型,OpenScholar-8B在新推出的多篇论文综合任务中,正确性比GPT-4o高出6.1%,比PaperQA2高出5.5%。尽管GPT-4o有78%到90%的时间会出现引用幻觉,OpenScholar却实现了与人类专家相当的引用准确率。OpenScholar的数据存储、检索器和自反馈推理循环改进了现成的LM:例如,OpenScholar-GPT-4o将GPT-4o的正确性提高了12%。在人类评估中,专家分别以51%和70%的比例偏好OpenScholar-8B和OpenScholar-GPT-4o的回答而非专家撰写的回答,而GPT-4o为32%。我们开源所有工件,包括代码、模型、数据存储、数据集和公开演示。
暂无讨论,说说你的看法吧


