设为首页
收藏本站
开启辅助访问
切换到窄版
登录
立即注册
快捷导航
发布信息
搜索
搜索
首页
Portal
软件资讯
软件教程
社区
BBS
本版
文章
帖子
优何软件
»
社区
›
大厂版区
›
腾讯
›
经验
›
加码大模型开源:腾讯掏出真金白银换来的经验 ...
返回列表
发新帖
加码大模型开源:腾讯掏出真金白银换来的经验
[复制链接]
88
|
0
|
2025-2-1 10:08:20
|
显示全部楼层
|
阅读模式
21世纪经济报道记者白杨 北京报道
近日,HuggingFace、Github等开源社区又迎来大模型新品上架。
11月5日,腾讯宣布开源“Hunyuan-Large”以及“ Hunyuan3D-1.0”两个大模型。前者是大语言模型,总参数量为389B,这也是目前开源领域参数规模最大的MoE模型;后者则是业界首个同时支持文字、图像生成3D的开源大模型。
今年,业界关于大模型要不要开源曾出现过意见分歧。百度创始人李彦宏明确表示,大模型开源没有闭源好,开源大模型会越来越落后。
但也有一众行业人士支持开源,认为许多技术的发展都得益于开源,这有利于整个行业发展。而腾讯,是开源坚定的拥护者。
目前,腾讯已经把开源作为混元大模型的一个战略选择,未来也将持续推出更多模态、更多尺寸的开源模型。
腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉向21世纪经济报道记者表示,腾讯的大模型不会为了开源而开源,而是要把那些已经在业务场景中得到历练和打磨的东西拿出来,所以腾讯开源的大模型都是公司内部在用的模型。
据其透露,腾讯此次开源的是模型参数权重,不涉及数据和代码,下一步,腾讯计划把训练代码也进行开源。
架构选择
在此次开源的模型上线后,HuggingFace首席科学家Thomas Wolf也对Hunyuan-Large进行了评价,认为该模型有三个亮点:
一是数学表现强劲;二是使用了大量合成数据(在7万亿tokens中,有1.5万亿来自合成数据);三是深入的专家混合(MoE)训练,包括使用共享专家以及总结了MoE的Scaling Law等。
今年年初,腾讯混元完成了架构升级,从原先的Dense架构升级为MoE架构,并将模型扩展至万亿级参数规模。
MoE架构的核心逻辑是将输入数据分配给最适合处理该数据的专家。所以,这种架构允许模型通过增加专家的数量来扩展,从而提供模型处理特定任务的能力。
更重要的是,MoE架构在处理输入数据时,只要激活少数专家模型,其他大部分专家模型都会原地待命,静待自己擅长的领域到来。
所以,MoE是一种更高效的模型,它在拥有很大参数的同时,只需要很小的实际激活量就可以完成任务,进而显著降低训练和推理成本。比如Hunyuan-Large,总参数量是389B,但它的激活参数量是52B。
康战辉表示,在相同成本下,MoE的效果会优于dnese模型。但他也表示,这并不意味着完全放弃了Dense架构,“在一些比较小的场景,不需要太大的模型参数时,dense模型还是具有一定竞争力的。”
不过,MoE架构也带来了更多的挑战。在Dense架构中,模型变量很少,而MoE架构要考虑专家激活量,比如专家选多大、选几个以及怎么激活,这些就涉及非常多的参数变量。
过去一年半,腾讯投入大量成本,全面探索了MoE架构下大语言模型中专家个数、激活参数量和训练tokens之间的ScalingLaw关系。腾讯这次开源最大的价值,就是把这些必须投入大量成本才能喂出来的经验都开放了出来。
合成数据是趋势
除了总结MoE架构的ScalingLaw之外,腾讯在此次开源模型中还着重强调了合成数据。
康战辉告诉记者,合成数据已经成为大模型的一个共识。“过去的AI训练还是以自然数据为主,但随着模型越来越大,尤其是采用MoE架构后,它的参数可以做的非常大,自然数据已经跟不上模型的增长需求了。”
业界有种说法是,到2026年,自然数据将被大模型全部用完。而解决数据枯竭问题的重要方法,就是使用合成数据。
有预测数据显示,到2030年,人工智能使用的合成数据将超过自然数据,这将大大缓解数据短缺的问题。
康战辉表示,除了从总量角度需要合成数据,在一些特定的训练场景,使用合成数据也是必然趋势。“比如数学数据,如果只有问题和答案,没有解题过程,这种数据就无法用于训练,所以需要通过合成的方式获得解题过程。”
因此,对于大模型训练而言,有些数据是天然缺失的,如果想提升,就只能利用合成数据。康战辉称,腾讯目前对合成数据的应用,就主要侧重于对专项数据的补充。
对于合成数据,业界也有担忧,认为大量使用合成数据训练大模型,可能会导致模型崩溃。对此,康战辉认为,现在我们认为的自然数据,很多也是过去用其他工具合成的数据,所以使用合成数据肯定没问题,关键是看怎么用。
“我认为合成数据最重要的,是要有一套完整的数据获取、评估、清洗链路,进而保证合成数据的质量可控,这样合成数据就能发挥它的价值。”康战辉说。
腾讯
,
经验
相关帖子
•
华为笔记本Linux版解锁PC智慧体验
•
腾讯天游科技有限公司智能客服正式上线已开启服务新体验
•
网易严选与领克联合推出定制款车载香氛,开启出行嗅觉新体验
•
新一代小米智能音箱:AI大模型加入,全方位的智能语音新体验
•
华为擎云 L420x高效办公体验:更快更好用,为自主创新点赞!
•
多屏协同、AI赋能,华为笔记本Linux版开启高效办公新体验
•
办公体验升级,华为笔记本Linux版AI赋能效率翻倍
•
华为Vision智慧屏 5 SE开售:巨幕手机重塑年轻一代大屏体验
•
华为Mate 80回归直屏,体验上限拉满,这次的升级终于务实了
回复
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
评测
评测
游戏娱乐
国内小编
5607
主题
0
回帖
3536
积分
网站编辑
积分
3536
加好友
发消息
回复楼主
返回列表
讨论
产品
评测
经验
图文推荐
天气通天气预报 v9.16
2025-05-08
语音包变声器安卓版 v2.3.8
2025-05-08
音频音乐剪辑安卓版 v22.2.45
2025-05-08
抖影视频剪辑软件 v1.2.9
2025-05-08
MiniMax人工智能 v3.1.0
2025-05-08
热门排行
1
羽悦助手-快手API上货软件-支持多平台批量上传
2
Pexels手机官方版 v5.9.1正版
3
反恐精英CS安卓版 安卓单机版V1.7
4
刀锋战士2(flash小游戏) 绿色免费版
5
香水时代(香水百科软件) v1.8.8正版
6
书香云集小说免费阅读APP 官方版v5.33.1
7
富士施乐Phaser 3200MFP打印机官方驱动 v2.1.0.2官方最新版
8
拳皇97ol v4.3.0安卓版