Octopus是一款面向多計(jì)算場(chǎng)景的一站式融合計(jì)算平臺(tái)。平臺(tái)主要針對(duì)AI、HPC等場(chǎng)景的計(jì)算與資源管理的需求來設(shè)計(jì),向算力使用用戶提供了對(duì)數(shù)據(jù)、算法、鏡像、模型與算力等資源的管理與使用功能,方便用戶一站式構(gòu)建計(jì)算環(huán)境,實(shí)現(xiàn)計(jì)算。同時(shí),向集群管理人員提供了集群資源管理與監(jiān)控,計(jì)算任務(wù)管理與監(jiān)控等功能,方便集群管理人員對(duì)整體系統(tǒng)進(jìn)行操作與分析。
Octopus平臺(tái)底層基于容器編排平臺(tái)Kubernetes ,充分利用容器敏捷、輕量、隔離等特點(diǎn)來實(shí)現(xiàn)計(jì)算場(chǎng)景多樣性的需求。
Octopus具有如下特點(diǎn):
一站式開發(fā),為用戶提供一站式AI、HPC計(jì)算場(chǎng)景的開發(fā)功能,通過數(shù)據(jù)管理、模型開發(fā)和模型訓(xùn)練,打通計(jì)算全鏈路;
方便管理,為平臺(tái)管理者提供一站式的資源管理平臺(tái),通過資源配置、監(jiān)控、權(quán)限管控等可視化工具,大大降低平臺(tái)管理者的管理成本;
易于部署,Octopus 支持Helm方式的快速部署,簡(jiǎn)化復(fù)雜的部署流程;
性能優(yōu)越,提供高性能的分布式計(jì)算體驗(yàn),通過多方面優(yōu)化來保證各個(gè)環(huán)境的流暢運(yùn)行,同時(shí)通過資源調(diào)度優(yōu)化與分布式計(jì)算優(yōu)化,進(jìn)一步提高模型訓(xùn)練效率;
兼容性好,平臺(tái)支持異構(gòu)硬件,如 GPU、NPU、FPGA 等,滿足各種不同的硬件集群部署需求,通過支持多種深度學(xué)習(xí)框架,如 TensorFlow、Pytorch、PaddlePaddle 等,并可以通過自定義鏡像方式支持新增框架。
Octopus適合在如下場(chǎng)景中使用:
構(gòu)建大規(guī)模 AI 計(jì)算平臺(tái);
希望共享計(jì)算資源;
希望在統(tǒng)一的環(huán)境下完成模型訓(xùn)練;
希望使用集成的插件輔助模型訓(xùn)練,提升效率。