少妇啊灬啊灬用力啊快小说,亚洲乱码国产乱码精品精在线网站 ,老司机一级毛片

展會資訊

| OpenAI百萬美元豪測：頂級大模型取代不了程序員

GoUpSec點評：最新權威測試顯示，當今頂級大模型甚至無法取代初級軟件工程師，科技企業大裁員，AI不背這個鍋

當Sam Altman宣稱大模型將取代"低階程序員"時，OpenAI自家的最新研究卻給出了相反的答案。該研究聯合百名工程師開展SWE-Lancer基準測試，結果顯示：面對價值百萬美元的真實軟件開發任務，三大頂尖大模型的總收入竟不足21%，最強者Claude 3.5也僅解決26%技術問題。這場AI與人類程序員的"搶飯碗"對決，暫時以機器的慘敗告終。

百萬美元懸賞：AI搶不走程序員飯碗？

研究團隊從自由職業平臺Upwork精選1,488個真實開發任務，總賞金高達100萬美元。這些任務被分為兩類：技術攻堅（IC，764項，41.5萬美元）需解決程序錯誤或開發新功能；項目管理（Manager，724項，58.5萬美元）則需評估技術方案優劣。三大參賽選手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全斷網的Docker容器中，以防止其"偷看"GitHub代碼。

為確保測試真實性，研究人員構建了堪稱嚴苛的評估體系：首先由專業工程師編寫Playwright自動化測試腳本，模擬用戶登錄、金融交易等真實操作流程；每項AI生成的代碼方案需經過專業軟件工程師的"三重驗證"，確保其能通過所有測試用例；最終結果直接接入企業級報銷平臺Expensify，完全復現真實商業場景。

經過測試，研究人員發現，沒有一個模型能包攬100萬美元的全部任務獎勵。表現最好的Claude 3.5 Sonnet（OpenAI自家模型o1和GPT-4o分列二三位）也只賺了20.8萬美元，解決了26.2%的個人貢獻者問題。然而，研究人員指出，“它的大部分解決方案都是錯誤的，可信部署需要更高的可靠性。”

LLM嘗試不同類型軟件開發任務的通過率來源：OpenAI

有趣的是，在技術方案評估的管理任務（SWE Manager）上，所有大模型都表現得更好（上圖）。

AI開發的致命短板：定位快，但治標不治本

研究者指出，頂級大模型普遍存在致命短板：AI能快速定位bug（速度遠超人類），但通常對問題如何跨越多個組件或文件表現出有限的理解，無法解決根本原因，導致解決方案不正確或不夠全面。

"就像急診室里只會貼創可貼的醫生。"研究報告犀利指出，大模型處理bug時呈現明顯模式：通過關鍵詞搜索快速鎖定可疑代碼段，卻無法理解跨組件/文件的深層關聯。典型案例中，AI會機械修改表面錯誤代碼，卻放任引發bug的根源繼續潛伏——這種"頭痛醫頭"的解決方式，導致多數方案僅能暫時消除癥狀。

值得玩味的是，盡管當前測試顯示AI尚難取代初級軟件工程師，但研究者警告："這種優勢可能不會持續太久。"當被問及是否擔心研究結果影響行業信心時，OpenAI團隊回應稱："揭示技術邊界，正是為了突破邊界。"這場人機博弈的終局，或許比我們想象中來得更快。

99久久国产免费,国产精品中文字幕一区,秋霞久久精品,亚洲精品第十页

咨詢熱線：17602105059

展會資訊

咨詢熱線

17602105059

我們用心服務好每一個參展廠商和參會人員