基于公共云的HPC集群實現(xiàn)及自動伸縮閑時計算研究
摘要: 對于HPC用戶來說,計算成本是遷云所考慮的重要因素之一,阿里云上提供的搶占式實例,是一種按需實例,旨在降低使用公共云計算資源成本,搶占式實例市場價格是波動的,通常遠低于正常的按需實例,甚至達到正常按需實例的一折。搶占式實例一般會在創(chuàng)建時為用戶保留一段最短時間,過后有可能會被釋放,所以一般適用于無狀態(tài)的應(yīng)用場景。提出在公共云上的自動伸縮策略,其面向通用的HPC集群調(diào)度器,基于用戶的應(yīng)用軟件類型、提交作業(yè)規(guī)律以及用戶對性能和成本等多方面需求,自動在云上部署擴容計算資源,控制成本。對用戶來說,可以做到"only pay for what you want and what you use"?;诠苍粕县S富的資源規(guī)格類型和售賣方式,利用自動伸縮服務(wù),搶占式實例,斷點續(xù)算等技術(shù)可以配置低成本的公共云上HPC自動伸縮方案:用戶提交作業(yè)的同時可以指定成本上限,自動伸縮服務(wù)自動在低于此成本的前提下尋找和擴容搶占式計算資源,同時利用斷點續(xù)算功能保證作業(yè)在計算資源切換的時候可以繼續(xù)運算。最后,通過LAMMPS和GROMACS兩個高性能應(yīng)用實例驗證了該策略的可行性和有效性。 (共6頁)
開通會員,享受整站包年服務(wù)