大模型算法
150-200元/天崗位職責
1.數(shù)據(jù)特征算法:負責大規(guī)模代碼數(shù)據(jù)的挖掘工作(如標簽體系構建、結(jié)構化拼接、數(shù)據(jù)比例配置等),開展數(shù)據(jù)質(zhì)量檢測(包括低質(zhì)內(nèi)容識別、優(yōu)質(zhì)代碼篩選等)以及數(shù)據(jù)合成相關算法研發(fā);
2.數(shù)據(jù)pipeline建設:主導數(shù)據(jù)篩選、清洗、標注及質(zhì)量評估流程的設計與實現(xiàn)。協(xié)同模型業(yè)務團隊,深度挖掘數(shù)據(jù)價值,搭建自動化數(shù)據(jù)處理系統(tǒng),支撐模型的持續(xù)優(yōu)化與迭代;
3.數(shù)據(jù)實驗分析:針對代碼大模型訓練所用數(shù)據(jù)進行系統(tǒng)性分析,建立規(guī)范化的實驗評估機制,發(fā)現(xiàn)樣本缺失、數(shù)據(jù)偏差、分布失衡等問題,推動數(shù)據(jù)質(zhì)量、覆蓋范圍與多樣性的全面提升,助力模型生成能力不斷優(yōu)化。
崗位要求
1.碩士及以上學歷,計算機科學、自然語言處理等相關專業(yè)背景優(yōu)先考慮;
2.熟悉主流深度學習框架(如PyTorch、TensorFlow),具備模型訓練與數(shù)據(jù)處理實踐經(jīng)驗,擁有出色的獨立開發(fā)、問題分析與研究能力;
3.具備良好的溝通協(xié)作意識,自我驅(qū)動性強,能獨立完成系統(tǒng)層面的分析與調(diào)優(yōu),推動大模型技術的實際落地應用;
4.可進行日常實習,每周至少全職投入4天,連續(xù)實習6個月以上者優(yōu)先;27屆畢業(yè)生優(yōu)先考慮。
加分項
1.掌握HiveSQL、Spark、Ray中至少兩項數(shù)據(jù)處理與分析工具;
2.對代碼大模型有較深認知,具備敏銳的數(shù)據(jù)感知力和扎實的數(shù)據(jù)洞察分析能力;
3.有大模型訓練或數(shù)據(jù)工程相關項目經(jīng)驗者優(yōu)先。