機器人強化學習工程師,接受應屆生
2-4萬元/月崗位職責
?負責具身智能中強化學習核心算法的設計、開發與優化,重點聚焦真機強化學習、帶力控的強化學習場景,熟練應用PPO、SAC等主流強化學習算法,助力算法在真實機器人場景中穩定落地。
?負責強化學習算法落地開發(包含reward設計、策略訓練、超參調優與性能邊界評估),攻克真機訓練穩定性、強化學習迭代效率和成功率提高等關鍵技術難題,確保機器人在相關任務中動作精準、魯棒。
?負責基于IsaacSim等仿真平臺的強化學習仿真環境搭建。
?負責推動強化學習算法從仿真環境到真實物理環境(sim2real)的高效遷移落地。
?基于ROS(RobotOperatingSystem)完成強化學習算法與機器人硬件(含力控模塊)的集成部署,搭建真機強化學習測試環境,與團隊協同排查算法與軟硬件交互過程中的問題。
?利用PyTorch/TensorFlow等深度學習框架構建、訓練和評估強化學習模型,處理算法所需的多源傳感器數據(視覺、力覺、觸覺等),優化數據預處理流程,提升模型在真機力控場景下的泛化能力與魯棒性。
?參與強化學習實驗方案設計與執行,重點針對真機訓練、力控交互等場景制定測試計劃,記錄實驗數據,分析訓練效果與力控性能,撰寫技術文檔,推動算法迭代優化。
崗位要求
1.學歷背景:本科及以上學歷,計算機/自動化/機器人工程/電子信息工程/人工智能/控制工程等相關專業,研究生優先;
2.核心經驗:具備真實機器人強化學習開發經驗(如參與過真機強化學習項目、帶力控模塊的機器人強化學習開發、協作型工業機械臂/人形機器人強化學習真機部署調試等),熟悉機器人硬件結構,有過強化學習算法在實體機器人(含力控組件)上落地及sim2real(仿真到真機遷移)技術攻關或落地經歷者優先。
3.算法能力:
(1)精通強化學習核心原理與主流算法(PPO、SAC、DDPG、TD3、TRPO),深入理解sim2real關鍵技術(如域適應、動力學建模校準、仿真環境建模優化等);
(2)掌握強化學習獎勵函數設計、優化;
(3)掌握機器人運動學、動力學基礎,能獨立完成和機器人學相關的強化學習子模塊的開發與調試。