Morris.Zhang的回答
网传的一段话:“国内没有现成的GPT3代码,GPT3一次模型底座的训练需要$500万美元的算力成本,一次问答的综合成本在0.8美元。”
这段论述有疏漏,但是堆算力/堆成本的表义没错.
1、GPT3/ChatGPT不是开源项目,但已经衍生不少开源项目可用,国内的商业代码会很快,大家懂的。
2,烧卡的成本先放在一边,商业大模型有产业上下游的,成本逐级分担,业务逐级化简,要精算的。
3,对于推理引擎,单次API call的经济性用成本来表示不准确,用收入表示更准确。网传的$0.8 per call的成本估算应该不止,从算力集群的大账面来算,$80 cents也许是边际成本。
考虑到GPT3模型授权费用(类比MSFT Azure上面licensed的OpenAI服务),其成本算是大项之一;国内没有GPT3平行替代(包括BATH那几个模型),倘若没有GPT3,哪儿来的ChatGPT业务?
即将问世的GPT4同样是千亿参数起步,天文级数据集规模。因此我们估算services/APIs成本的方法不能过于局部,更要结合Infra和Ops;比如,数算一下全国参与AI负载的计算卡和云端SSD的规模,也够造航母了吧。比如:Stable Diffusion的预训练和调参成本很高,因为扩散模型的机理特点,让它对硬件显存、线性速度的要求都很高,而且承载的数据库也是千亿量级的;如今背后运营公司Stability AI实际维护一个4000卡A100组成的集群,粗算一下,仅算力卡单项成本就超过$50m(仅估算单柜的Infiniband Switch成本都要$50w+)。但是为什么我们不建议从成本面解读而倡导从收入面解读LLM的经济性?是因为商业成熟的Ecosys都要具备的朴素道理:业主成本保持不动(Capex/Opex),而租户端的收入多次迭代和延长的“运营杠杆”的道理。
GPT3这种规模的模型,175B parameters,仅仅看分图、转换、剪枝压缩量化、编译前后…等等工作就难度极高。莫说BAT,换作Jeff Dean自己都焦虑;包括已经licensed OpenAI的微软也很难独立复刻和运营同样的工程平台。
类似BAT等国内平台,除非走license,会获得包含运维管理工具和IDE的等等支持,但工程依然自己搭建,这还是没有谈硬件的情况下,比大中心的HPC调度器都要复杂多了。