腾讯汤道生：在大模型的训练和使用过程中，需要大量异构算力的支持

2023-06-21 13:06

每经AI快讯，据腾讯官微，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示，在大模型的训练和使用过程中，需要大量异构算力的支持，对网络速度与稳定性要求也很高，加上GPU服务器比一般服务器稳定性更低一些，服务器的运维、问题的排查更频繁，整体运维的难度与工作量会高很多。在训练集群中，一旦网络有波动，训练的速度就会受到很大的影响；只要一台服务器过热宕机，整个集群都可能要停下来，然后训练任务要重启，这些问题会使得训练时间大大增加，投入在大模型的成本也会飙升。（每日经济新闻）