近期,上海人工智能实验室联合上海交通大学、浙江大学、复旦大学团队,发布了首个大规模多模态结构化科学文献基准数据集 DocGenome。
该数据集旨在训练和测试多模态大语言模型,并充分挖掘科学文献对于 AI 系统的价值。
与此同时,结构化的科学文献记录了研究成果和人类知识,构成了高质量数据的庞大语料库,为自动化多模态科学文档理解与 AI 科学问题发现等研究和应用提供了重要的支撑。
图丨DocGenome 特点介绍(来源:arXiv)
该数据集通过自动标注预印本网站 arXiv 开放获取社区的 50 万篇科学文档,使用自定义的自动标注管道,具有完整性、逻辑性、多样性和正确性的四个关键特征。
日前,相关论文以《DocGenome:一个用于训练和测试多模态大语言模型的大规模科学文档基准数据集》(DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models)为题发表在 arXiv 上 [1]。