腾讯公司申请数据处理专利,保障训练集群资源的可用率
金融界2023年12月12日消息,据国家知识产权局公告,腾讯科技(深圳)有限公司申请一项名为“一种数据处理方法、装置、电子设备及存储介质“,公开号CN117215765A,申请日期为2023年6月。
专利摘要显示,本申请公开了一种数据处理方法、装置、电子设备及存储介质,该方法包括:在基于异构计算设备集群对深度学习模型进行训练的过程中,检测各异构计算设备的输出带宽,并在查找输出带宽存在波动且波动幅度超过预设波动幅度阈值的异常异构计算设备时,从异构计算设备集群中筛选出第一数量的待调整异构计算设备;待调整异构计算设备的输出带宽大于除待调整异构计算设备之外的异构计算设备;基于异常异构计算设备所对应波动幅度的类型,对第一数量的待调整异构计算设备的训练数据吞吐量进行调整,直至异常异构计算设备的输出带宽恢复正常。本申请保障了训练集群资源的可用率,避免了低效能设备被雪崩宕机导致的训练周期拉长以及训练效率降低的问题。
本文源自:金融界
作者:情报员