(原标题:GDC探营 | AI大模型企业热议DeepSeek,共谋差异化发展策略)
2月21日至23日,2025全球开发者先锋大会(GDC)将在上海徐汇举办,近日,《国际金融报》记者前往人工智能企业商汤科技、大模型创业公司稀宇科技(下称MiniMax)探营。
两家企业负责人就同行企业深度求索(DeepSeek)的技术突破发表了各自见解,既折射出中国大模型领域差异化竞争的技术格局,也揭示了头部企业在保持技术特色的同时,正构建起协同创新的产业生态。
推动大模型“免费普惠”
今年春节,国产AI大模型DeepSeek爆火,带动大模型竞争进入“免费普惠阶段”。
商汤科技于2月8日正式宣布在万象平台上架DeepSeek系列模型,包括DeepSeek-V3和DeepSeek-R1等版本,并为企业客户和开发者提供3个月内1000万tokens的免费使用权益。
商汤科技方面表示,DeepSeek的推出预计将引发一系列应用浪潮,推动算力需求的增长。
“随着DeepSeek的普及,其将成为更多人工作流程的一部分,进一步推动AI技术的应用和发展。”商汤大装置产品总监刘叶枫指出。
商汤科技产品总监、小浣熊家族产品负责人贾安亚认为,DeepSeek带来的浪潮主要体现在三个方面——成本降低、模型能力增强和多模态融合。成本降低得益于架构优化、训练和推理成本的减少,这对于AI技术的产业落地至关重要。模型能力增强则体现在通过长思维链实现的更强推理能力。另外,多模态融合则为医疗、金融、教育、工业等多个行业以及辅助编程、智能办公、智能客服和营销等场景带来更多应用机会。
从技术差异化角度,刘叶枫分析称,“DeepSeek的核心竞争力体现在其卓越的上下文理解与深度推理能力,而商汤的模型体系在多模态融合领域构筑了独特优势。不同技术路径意味着各家企业能在差异化的应用场景中发挥所长。”
贾安亚表示,随着DeepSeek的普及,AI技术的应用门槛逐渐降低,更多用户开始尝试使用AI技术。这对于整个AI生态和产业发展来说是一个非常利好的消息。此外,在本周末举行的全球开发者先锋大会上,商汤科技将发布功能更丰富的代码小浣熊2.0,并邀请实际用户展示使用体验。
“与以往版本相比,代码小浣熊2.0在编程辅助能力上实现了质的飞跃。它不仅能在单个任务点进行修改,还能跨文件执行多任务修改,覆盖了更广泛的开发流程操作。”贾安亚表示,这一升级使得代码小浣熊从个人生产力工具转变为面向企业软件研发的端到端解决方案。它不仅能进行代码资产管理、筛查和优化迭代,还涵盖了需求分析、测试环节等多个方面,为企业提供全面的技术支持。
值得一提的是,商汤科技在大模型训练和推理环节实现了成本的大幅降低。这使得公司能够在相同硬件上部署更大、更通用的模型,为客户提供更优质、更低成本的解决方案。
刘叶枫还透露,商汤即将在2025开发者大会上发布面向开发者的一站式开源Agent应用开发框架——LazyLLM。该框架以数据为核心,支持在应用开发过程中持续迭代数据,从而不断提升数据效果。这一框架可满足国内开发者面向行业和垂域的特定需求,弥补国外工具的不足,同时确保软件自主可控。
“LazyLLM通过精细化模块设计和符合直觉的代码风格,使开发者能够更快地实现想法、落地产品,同时真正像搭积木一样,把意图识别、知识库检索能力、大模型能力等快速拼到一起,实现完整应用。”刘叶枫表示。
“假设开发一个多模态客服问答机器人,传统方法可能需要开发者花费一周时间进行模型微调、串联各个功能,最终才能形成一个完整的Agent应用。”刘叶枫举例称,通过以LazyLLM为核心引擎的大模型Agent应用开发平台,客户可以通过低代码拖拉拽快速实现各种功能,无论是查询快递、智能客服,还是转接人工服务,通过大模型的意图识别和分割,能够将客户指向不同的意图识别的流程,让开发更加高效。
热议技术突破与行业生态
MiniMax,一家位于上海徐汇区、成立于2021年的大模型创业公司,拥有数百名员工。
据悉,MiniMax是国内首个将Linear Attention架构与MoE结合并应用于模型研发的大模型企业,也是国内领先的拥有文本、图像、语音&音乐、视频等多种模态大模型,打通产品全链路的创业公司。2023年8月,公司自主研发的“MiniMax-abab”大模型通过了国家第一批大模型服务备案。
据公司负责人介绍,MiniMax于今年1月开源了全球首个大规模实现线性注意力机制的模型——MiniMax-01系列。该模型的语音功能能够识别并反映人类的情绪,目前支持17种语言,在长文、数学、写作等能力有大幅度提升。尤其是,相比于传统Transformer架构,新架构的原生线性计算复杂度大幅减少了大模型的训练和推理成本。
对于同为业内“友商”的DeepSeek,MiniMax公司副总裁刘华给予了高度评价。他指出,DeepSeek在强化学习和算力调配方面展现出显著的创新性,并迅速获得了广泛关注。
刘华认为,AI行业技术迭代迅速,大模型技术每隔几个月就有重要突破,DeepSeek的创新是推动这一进程的重要力量,预计未来两三年,大模型的能力将实现数倍量级的提升。
然而,刘华也强调,行业竞争激烈,中国大模型的发展仍需得到持续的关注和支持。以中国新能源汽车的发展为例,大模型企业也需要经历模仿、创新、赶上和超越的阶段。
刘华还提到,大模型的开源有助于推动行业加快发展,提高AI的渗透力,吸引更多开发者参与研发,“当前的问答助手只是AI大模型浅层次的应用,大模型在复杂场景下拥有更多潜力,可以对生产力产生立竿见影的效果”。
在顶层研发框架迭代的情况下,刘华强调,研发人员需要对技术变革保持极致的热情。刘华指出,DeepSeek在招聘时注重年轻人的热情和创新精神,而MiniMax同样拥有一支年轻的研发团队,大部分成员在35岁以下,许多博士还在读书阶段就加入公司作为实习生。
“DeepSeek在强化学习算法创新与算力资源优化配置方面展现出显著突破。”刘华特别强调了技术研发的驱动力,“面对大模型技术框架的快速迭代,研发团队必须具备对技术革新的极致热忱。”
一个模型的成功并不排除其他模型的机会。对于行业内对DeepSeek开放接入和使用的态度,刘华认为,这种开放心态有助于整个行业的发展。当前行业呈现出良性互动态势——多家同业机构不仅认可DeepSeek的技术成果,更以开放姿态主动进行技术对接与融合应用。
刘华透露,在即将到来的全球开发者先锋大会上,MiniMax将展示大模型的应用场景和创新点。
(本文照片均由记者潘洁拍摄)