Octopus是一款面向多計算場景的一站式融合計算平臺。平臺主要針對AI、HPC等場景的計算與資源管理的需求來設(shè)計,向算力使用用戶提供了對數(shù)據(jù)、算法、鏡像、模型與算力等資源的管理與使用功能,方便用戶一站式構(gòu)建計算環(huán)境,實現(xiàn)計算。同時,向集群管理人員提供了集群資源管理與監(jiān)控,計算任務(wù)管理與監(jiān)控等功能,方便集群管理人員對整體系統(tǒng)進行操作與分析。
Octopus平臺底層基于容器編排平臺Kubernetes ,充分利用容器敏捷、輕量、隔離等特點來實現(xiàn)計算場景多樣性的需求。
Octopus具有如下特點:
一站式開發(fā),為用戶提供一站式AI、HPC計算場景的開發(fā)功能,通過數(shù)據(jù)管理、模型開發(fā)和模型訓(xùn)練,打通計算全鏈路;
方便管理,為平臺管理者提供一站式的資源管理平臺,通過資源配置、監(jiān)控、權(quán)限管控等可視化工具,大大降低平臺管理者的管理成本;
易于部署,Octopus 支持Helm方式的快速部署,簡化復(fù)雜的部署流程;
性能優(yōu)越,提供高性能的分布式計算體驗,通過多方面優(yōu)化來保證各個環(huán)境的流暢運行,同時通過資源調(diào)度優(yōu)化與分布式計算優(yōu)化,進一步提高模型訓(xùn)練效率;
兼容性好,平臺支持異構(gòu)硬件,如 GPU、NPU、FPGA 等,滿足各種不同的硬件集群部署需求,通過支持多種深度學(xué)習(xí)框架,如 TensorFlow、Pytorch、PaddlePaddle 等,并可以通過自定義鏡像方式支持新增框架。
Octopus適合在如下場景中使用:
構(gòu)建大規(guī)模 AI 計算平臺;
希望共享計算資源;
希望在統(tǒng)一的環(huán)境下完成模型訓(xùn)練;
希望使用集成的插件輔助模型訓(xùn)練,提升效率。