bd@atyun.com
GitHub上,大型開源項目需要解決的問題多得嚇人。為了更容易地發現最緊迫的問題,GitHub最近引入了“好問題優先”的功能,將貢獻者與可能符合他們興趣的問題進行匹配。最初的版本于2019年5月發布,可以根據項目維護者對問題應用的標簽提出建議。上個月發布了更新版本,該版本包含一個人工智能算法。GitHub指出,這是GitHub.com上推出的第一款支持深度學習的產品。
根據GitHub高級機器學習工程師Tiferet Gazit的說法,GitHub去年進行分析和手工整理,創建了一個由300標簽名稱組成的列表,這些名稱被流行的開源庫使用。但是依賴這些就意味著會有大約40%的推薦存儲庫存在可能出現的問題。另外,它讓項目維護者自己承擔了分類和標記問題的負擔。相比之下,新的人工智能推薦系統基本上是自動的,構建它需要制作一個包含數十萬個樣本的帶注釋訓練集。
GitHub最初的問題包含了策劃列表中大約300個標簽中的任何一個,它還補充了一些可能對初學者友好的問題。在檢測并刪除重復的問題之后,還進行了多次培訓、驗證,最終測試集被跨存儲庫分離以防止類似內容的數據泄漏,GitHub只使用經過預處理和去噪的問題標題和主體來訓練人工智能系統,以確保它在問題打開后立即檢測到正確的問題。
在生產中,人工智能算法預測概率高于所需閾值的每個問題都會被指定為推薦問題,其置信度得分等于其預測的概率。來自非存檔公共存儲庫的開放問題,至少有一個來自于策劃標簽列表的標簽,根據它們標簽的相關性,給出一個置信度評分。在存儲庫級別,所有檢測到的問題主要根據它們的置信度評分進行排序。
數據采集、培訓和推理管道每天都在運行,使用預定的工作流程來確保結果保持“新鮮”和“相關”。將來,GitHub打算向它的存儲庫建議添加更好的信號,并為維護人員和測試人員提供一種機制,以在他們的存儲庫中批準或刪除基于AI的建議。
歡迎關注ATYUN官方公眾號
商務合作及內容投稿請聯系郵箱:bd@atyun.com
要發表評論,您必須先登錄。