豆包大模型在智源研究院FlagEval评测中表现优异，引领国产大模型发展

author 昨天 7 抢沙发

默认

摘要： 近日，智源研究院发布了FlagEval大模型评测结果，在多个榜单中，火山引擎的豆包大模型展现出强大的实力，在国内大模型竞争中占据领先地位。在主观评测中，豆包通用模型Pro(Do...

近日，智源研究院发布了FlagEval大模型评测结果，在多个榜单中，火山引擎的豆包大模型展现出强大的实力，在国内大模型竞争中占据领先地位。

在主观评测中，豆包通用模型Pro(Doubao-pro-32k-preview)荣获大语言模型评测能力榜单第一名。 这标志着豆包大模型在中文理解和生成能力方面达到了业界领先水平。智源研究院的评测重点考察了模型的中文能力，这一成绩充分肯定了豆包大模型在中文语境下的出色表现。

在多模态模型评测榜单中，豆包·视觉理解模型(Doubao-Pro-Vision-32k-241028)在视觉语言模型中排名第二，仅次于GPT-4o，是得分最高的国产大模型。 这表明豆包大模型在多模态理解，特别是图文理解方面也取得了显著的突破。其强大的内容识别能力、理解和推理能力以及细腻的视觉描述能力，使其能够更好地辅助人类完成复杂任务，扩展了大模型的应用场景。

在FlagEval大模型角斗场榜单中，豆包通用模型pro(Doubao-pro-32k-240828)位列大语言模型榜单第一梯队，评分排名第二，仅次于OpenAI的o1-mini，同样是得分最高的国产大模型。角斗场榜单反映了用户对模型的实际使用体验和偏好，这一排名进一步印证了豆包大模型的市场竞争力和用户认可度。

值得关注的是，豆包大模型取得如此优异的成绩，与其巨大的使用量密切相关。据2024火山引擎冬季FORCE原动力大会公布的数据，豆包大模型12月日均tokens使用量超过4万亿，较5月发布时期增长超过33倍。巨大的使用量使得模型能够不断学习和优化，提升其处理能力和性能。

基于海量数据训练和持续的迭代更新，豆包通用模型Pro的综合处理能力较5月发布时提升了32%，在推理、指令遵循、代码、数学和专业知识领域能力分别提升了13%、9%、58%、43%和54%。

此外，豆包·视觉理解模型也正式发布，其价格为每千tokens 0.003元，比行业平均价格降低85%，这将进一步推动大模型在教育、旅游、电商等领域的应用。

总而言之，豆包大模型在智源研究院FlagEval评测中的优异表现，展现了其强大的技术实力和市场竞争力，也为国产大模型的发展树立了标杆。火山引擎将持续拓展豆包大模型的能力边界及应用场景，加速推动AI大模型应用的普及与落地，为更多企业智能化升级提供有力支撑。这不仅是豆包大模型的成功，更是中国人工智能发展的一个里程碑。

标签：以太坊 DeFi NFT 元宇宙 Web3