谷歌近日宣布更新其Cloud AI Platform,以增強機器學習與深度學習模型的訓練和預測能力。?
Google Cloud AI Platform是一個面向數據科學家、ML開發人員和AI工程師的端對端的機器學習平臺(ML PaaS)。Cloud AI Platform提供了解決機器學習模型生命周期的服務。從數據準備到培訓再到模型服務,該平臺具有開發和部署復雜的機器學習模型的所有基本構件。?本次更新使在Google Cloud Platform上訓練和部署ML模型變得更加靈活而強大。?

模型開發
運行定制容器以在Cloud AI Platform上訓練模型已經不是難事。該功能使用戶可以將其自己的Docker容器映像與任何預安裝的ML框架或算法一起在AI平臺上運行。?
自定義容器支持消除云中大規模培訓模型所涉及的約束??蛻衄F在可以使用其培訓計劃中使用的特定版本的語言框架和工具來打包自定義容器映像,這樣就無需選擇平臺來訓練模型的特定版本工具。通過自定義容器,數據科學家和ML開發人員可以將自己的框架和庫帶入AI平臺,即使它們本身不受平臺支持。開發人員可以在將其部署到云之前在本地構建和測試容器映像。DevOps團隊可以將AI平臺與現有CI / CD管道集成在一起,以自動化部署過程。
為了簡化訓練ML模型選擇正確硬件配置的過程,Google引入了擴展層,即一組基于一類GCE VM的預定義群集規范。每個級別都是根據其對某些類型工作的適用性來定義的。??
客戶還可以選擇一個自定義層,在其中可以涉及主服務器、工作服務器和參數服務器的計算機配置。集群中的這些服務器有助于分布式訓練,以加快訓練大型數據集的速度。?

模型部署和推理
托管一個經過全面訓練的模型的過程稱為推理。?
客戶可以在Google Cloud AI平臺中托管經過訓練的機器學習模型,并使用AI平臺預測服務來推斷新數據的目標值。Cloud AI Platform Prediction管理云中的計算資源可以運行ML模型。使用ML模型的開發人員可以從部署的模型中請求預測,并作為響應獲得預測的目標值。??
現在,Cloud AI Platform Prediction服務使客戶可以從一組Google Compute Engine計算機類型中進行選擇以運行ML模型??蛻艨梢蕴砑覩PU,例如NVIDIA T4或TPU加快推理過程。作為托管平臺,該服務無需人工干預即可處理預配、擴展和服務。以前,在線預測服務僅支持從一種或四種vCPU計算機類型中進行選擇。
使用AI平臺的GCP客戶現在可以將預測請求和響應直接記錄到BigQuery上,以分析和檢測偏斜和異常值,或者確定是否需要重新訓練以提高模型的準確性。
Cloud AI Platform Prediction由Google Kubernetes Engine提供支持,可提供所需的規模。?在Cloud NEXT活動中將ML PaaS重大更改為AI平臺后,Google一直在不斷增強服務。自定義容器和基于GKE的預測服務等功能的普遍適用使該平臺具有更強的靈活性和可擴展性,以在云中訓練和部署機器學習模型。