第109章
关灯
小
中
大
聊下来,看对方暧昧不明的态度,这样做似乎有些操之过急。
没关系,旱路不通走水路,中午去食堂吃饭,汤珈树本来打着碰碰运气的心态,没想到还真让他遇见了刘亮。
打眼一看挺其貌不扬的一个人,瘦高个儿,中等长相,穿着不太讲究,有种贴合程序员气质的不修边幅。
他一个人坐一张桌子,边吃饭边低头看手机,似乎也不怎么合群,完全沉浸在自己的世界里。
汤珈树端着餐盘走过去,不请自来地在他对面落座,刘亮明显一愣,抬头看过来,眼睛里浮现出疑问和困惑。
他当然困惑,毕竟刘亮在整个研发中心都是出了名的性格孤僻,天才自带的那种孤高傲慢令其人缘一向不是很好。
这种人跟他聊天就应该聊些专业技术类的话题,偏偏在这点上汤珈树也最拿手。
两人面对面坐着,刘亮埋头吃饭,连声招呼都没打,一整个视若无睹。
汤珈树便主动开腔道:“刘工,我上午查日志,发现咱们排序模型每晚增量训练都卡在梯度同步,是不是用的ALLReduce后更新?” 刘亮终于肯认真地看他一眼,带着审视的意味,问:“之前好像没见过你,新来的?” 汤珈树笑着朝他递出手,自我介绍:“对,我是昨天刚入职的,汤珈树,你叫我小汤就好。
” 刘亮顿了一秒,才伸手跟他握了握,接着问:“你权限还没开全吧?怎么看到的日志?” “从训练耗时波动反推的,我想了一下,如果改用异步参数服务器加局部聚合,跨机房通信量能砍半,不过需要解决陈旧梯度问题。
” 刘亮轻哼一声,不以为然道:“这方案去年试过了,worker延迟差异导致AUC下降0.8%,不可行。
” 汤珈树笑得谦逊:“那要不要试试加动态补偿项呢?”他说着,解锁手机,点进一则网页递到刘亮面前,“喏,比如这篇ICML论文提到的,用牛顿迭代法预估梯度偏移,我复现过能收敛,但要把pytorch的通信后端魔改” 刘亮倏
没关系,旱路不通走水路,中午去食堂吃饭,汤珈树本来打着碰碰运气的心态,没想到还真让他遇见了刘亮。
打眼一看挺其貌不扬的一个人,瘦高个儿,中等长相,穿着不太讲究,有种贴合程序员气质的不修边幅。
他一个人坐一张桌子,边吃饭边低头看手机,似乎也不怎么合群,完全沉浸在自己的世界里。
汤珈树端着餐盘走过去,不请自来地在他对面落座,刘亮明显一愣,抬头看过来,眼睛里浮现出疑问和困惑。
他当然困惑,毕竟刘亮在整个研发中心都是出了名的性格孤僻,天才自带的那种孤高傲慢令其人缘一向不是很好。
这种人跟他聊天就应该聊些专业技术类的话题,偏偏在这点上汤珈树也最拿手。
两人面对面坐着,刘亮埋头吃饭,连声招呼都没打,一整个视若无睹。
汤珈树便主动开腔道:“刘工,我上午查日志,发现咱们排序模型每晚增量训练都卡在梯度同步,是不是用的ALLReduce后更新?” 刘亮终于肯认真地看他一眼,带着审视的意味,问:“之前好像没见过你,新来的?” 汤珈树笑着朝他递出手,自我介绍:“对,我是昨天刚入职的,汤珈树,你叫我小汤就好。
” 刘亮顿了一秒,才伸手跟他握了握,接着问:“你权限还没开全吧?怎么看到的日志?” “从训练耗时波动反推的,我想了一下,如果改用异步参数服务器加局部聚合,跨机房通信量能砍半,不过需要解决陈旧梯度问题。
” 刘亮轻哼一声,不以为然道:“这方案去年试过了,worker延迟差异导致AUC下降0.8%,不可行。
” 汤珈树笑得谦逊:“那要不要试试加动态补偿项呢?”他说着,解锁手机,点进一则网页递到刘亮面前,“喏,比如这篇ICML论文提到的,用牛顿迭代法预估梯度偏移,我复现过能收敛,但要把pytorch的通信后端魔改” 刘亮倏