大模型算法資深專家
4.5-7萬元/月【崗位職責(zé)】
1.模型架構(gòu)設(shè)計與調(diào)優(yōu):
主導(dǎo)大模型(LLM、多模態(tài)等)的結(jié)構(gòu)創(chuàng)新、參數(shù)調(diào)整與性能增強
深入識別模型訓(xùn)練中的性能瓶頸,制定高效的預(yù)訓(xùn)練、微調(diào)、蒸餾及增量學(xué)習(xí)方案,提升模型在特定場景下的適用性與泛化水平
2.分布式訓(xùn)練工程開發(fā):
搭建高吞吐、低延遲的大規(guī)模分布式訓(xùn)練系統(tǒng),優(yōu)化數(shù)據(jù)并行、張量并行及混合并行策略,解決超大參數(shù)量下的顯存占用與通信開銷問題
研究混合精度訓(xùn)練、梯度壓縮、異步通信等手段,提高千億級及以上規(guī)模模型的訓(xùn)練效率與運行穩(wěn)定性
3.算法優(yōu)化與前沿技術(shù)探索:
針對訓(xùn)練效能、價值對齊等核心挑戰(zhàn),研發(fā)新型算法。持續(xù)跟進學(xué)術(shù)界與工業(yè)界的最新成果(如Agent技術(shù)、世界模型、推理加速),推動先進技術(shù)快速實現(xiàn)落地應(yīng)用
【任職要求】
1.計算機科學(xué)、人工智能、數(shù)學(xué)、統(tǒng)計學(xué)或相關(guān)專業(yè)碩士/博士學(xué)歷,有頂級科研機構(gòu)或?qū)嶒炇医?jīng)歷者優(yōu)先
2.深入理解Transformer架構(gòu)及其衍生模型(如GPT、BERT、T5等)的原理與實現(xiàn)機制
3.熟練使用PyTorch框架,具備分布式訓(xùn)練(DeepSpeed/Megatron等)與高性能計算(CUDA/MPI)優(yōu)化經(jīng)驗
4.具備扎實的數(shù)學(xué)功底(優(yōu)化理論、概率統(tǒng)計、線性代數(shù)),能夠獨立復(fù)現(xiàn)頂會論文并進行算法改進
5.有大規(guī)模預(yù)訓(xùn)練模型的開發(fā)、調(diào)優(yōu)或部署經(jīng)驗,熟悉預(yù)訓(xùn)練、指令微調(diào)(InstructionTuning)、對齊技術(shù)(RLHF/DPO)等完整流程
6.擁有實際分布式訓(xùn)練項目經(jīng)驗,掌握ZeRO、模型并行、流水線并行等關(guān)鍵技術(shù),熟練運用主流分布式訓(xùn)練框架
7.熟悉參數(shù)高效微調(diào)方法(LoRA、Adapter、PromptTuning)以及模型壓縮技術(shù)(量化、剪枝、知識蒸餾)
8.能圍繞訓(xùn)練效率、顯存消耗、推理時延等問題提出創(chuàng)新性解決方案
【加分項】
1.具備大模型開發(fā)經(jīng)歷,主導(dǎo)過億級參數(shù)模型的全流程訓(xùn)練,有千億級模型優(yōu)化經(jīng)驗者優(yōu)先
2.在NeurIPS/ICML/ACL等頂級會議發(fā)表過大模型相關(guān)研究成果,或主導(dǎo)過知名開源項目(如HuggingFace、LangChain等生態(tài)貢獻)
3.具備多模態(tài)大模型、AIAgent系統(tǒng)、或超大規(guī)模RLHF的實際項目經(jīng)驗