智能调度,算网新纪元 | 翼方健数x揽睿星舟推出揽睿·知力算力管理与服务平台发表时间:2024-06-26 19:04 在当今时代,随着人工智能技术的飞速发展,算力已成为推动社会进步和经济增长的关键驱动力。作为支撑AI应用的核心基础设施,算力中心的重要性不言而喻。然而,如何从算力出发,赋能于AI生态,成为智算时代的新命题。 近日,致力于构建并运营“数据与计算互联网(IoDC)”的翼方健数(以下简称“翼方”),携手其AI可信计算节点“揽睿星舟”推出“揽睿·知力 算力管理与服务平台”(以下简称“揽睿·知力平台”)。该平台旨在帮助算力中心打造可服务于生态各行各业的AI基础设施,提供异构计算资源及计算架构的接入能力,包括计算、存储、网络等计算基础设施的统一接入、定义、交易和使用。通过揽睿·知力平台能够显著地提升算力在大模型开发的使用效率以及平台的运维效率。 此外,揽睿·知力平台还提供算力编排、供需匹配、数据分析等运营能力,实现算力要素的高效流通、需求匹配以及精细运营。揽睿·知力平台助力智算中心的拥有者和运营方从物理算力出发,全面构建AI生态。而每一次揽睿·知力平台的部署,都将成为IoDC网络中“算力流通互联网”的关键节点。 在算力要素领域,翼方通过整合各类异构算力源,将分散的算力转化成标准化、虚拟化、稳定且市场中立的企业级智能算力云服务。目前,在揽睿星舟平台上已成功调度并管理运营了数百P零散的智算算力和数个智算中心算力,为数百家企业和数万名AI开发者提供服务。其产品和服务组合包括揽睿星舟一站式AI训推一体平台、揽睿大模型应用开发平台和揽睿大模型流通解决方案。揽睿·知力平台将作为揽睿星舟的核心产品,专注于为算力提供方打造强大的算力网络基础设施,并提供全面的运营能力。该平台及其组合产品已为算力提供方及算力需求企业带来了显著的效益增强。 凭借深厚的AI开发者、应用使用者的服务经验和对大模型应用开发的深入理解,揽睿星舟打造了完整的产品矩阵和解决方案,实现了AI生态闭环。通过对零散算力的整合、灵活调度与管理,进而为大模型的训练与推理提供了强有力的支持。在此过程中所积累的包括负载、成本、能效和服务质量在内的全面协同策略和调度路径,令揽睿·知力具备更强大的调度能力和全面的服务体系。 知力,方能知调度: 自动云原生分布式调度异构算力 平台采用了先进的调度算法,能够根据不同任务的需求,智能分配算力资源,确保算力得到最大程度的利用。同时,平台还提供了丰富的服务,涵盖算力交易、模型开发、数据服务等,为AI生态中的各个环节提供全方位支持。这些能力能够帮助算力提供方和运营方提升80%算力运营效率,减少87%运维投入,并实现算力利用率翻倍。 01 异构算力智能接入与统一管理 揽睿·知力平台支持中心化纳管多个异构算力集群,可原生接入 Kubernetes 类型的算力集群,以及按需接入超算架构或其他第三方资源管理和任务调度系统。该平台显著降低了算力集群的部署和接入难度,确保了多环境交付的一致性。通过揽睿·知力平台可缩短90%的部署时间,平均在1天内即可完成新可用区接入、部署流程。 02 自动云原生分布式调度与优化 揽睿·知力平台采用自动云原生分布式调度机制,相较于人工容器单机调度模式,具有自动化、高容错性、资源利用率高、扩展性强、负载均衡等多重优势。这些能力使得计算效率及调度效率提升400%以上,充分释放硬件潜力。 03 智能调度策略与资源优化 全面支持包括Gang-Scheduling 、Binpack、队列、优先级、任务拓扑在内的多种智能任务调度策略,可根据任务的优先级、资源需求、数据位置、节点负载、节点规格、节点位置等多种因素进行任务动态调度,确保在满足用户计算资源需求的同时,实现最大化的资源利用,算力及物理资源利用率提升200%(基于理论数据)。 04 基于时间维度的资源预留与排期系统:简化运维,提高效率 平台支持基于时间的资源预留,适用于业务预订、机器维护和检修等多种场景。在任务尚未提交或启动之前,翼方自研的异构算力调度引擎KSC(Kubernetes based Sky Computing)允许用户根据资源类型、数量和时间期限等策略,提前预留计算资源,确保任务在启动时能够及时执行。这一功能可辅助节省90%人工运维及资源协调时间。 05 自动混合交付平台:统一裸金属、容器、虚拟机调度 无缝集成裸金属、容器和虚拟机,实现资源共享与灵活混合调度。揽睿·知力平台消除了为不同计算环境单独划分资源池的需要,底层共享同一算力资源池,支持同一Kubernetes集群混合部署容器及虚拟机。与传统云服务提供商不同,这里的虚拟机和容器不是两个独立的体系,它们相互兼容、互联,且无需额外的迁移成本,极大地提高了运营效率。 06 智算中心全适配平台:多租户安全、灵活团队管理、灵活支付与计费 该平台提供多租户机制确保安全,进行灵活的团队管理,提供灵活的支付选项包括先用后付及先付后用,符合企业财务习惯的结算、计费计量、对账机制。平台的云原生设计允许算力需求用户无缝将工作负载迁移至揽睿·知力平台,兼容多种工作流和深度学习框架。 平台注重用户体验,平台内的智能算力调度算法不仅能够满足各类算力中心需求,有效减少算力碎片、提升算力分配效率及用户使用效率。同时,平台也提供企业侧服务能力,赋能算力中心更好服务区域内AI生态,为各类企业用户提供安全、高效、灵活的弹性算力全面的客户支持,明确区分算力提供方和运营方的“运营端”以及需求方和使用方的“用户端”。 零散算力的优化调度,效率与安全两者兼顾 翼方自研的异构算力调度引擎KSC,提供原生Kubernetes API,并无缝对接云原生生态,支持多种异构算力,包括多种类型算力、多种计算架构以及多种来源的算力。此外,KSC还能实现多租户安全隔离,支持多种算力流通形式和调度策略,满足算力流通互联网的需求。 另一项核心优势源自于翼方对于整个数智化进程隐私安全保护的技术,以机密可信计算集群“星舟·密方”为核心,结合算力调度、算法编排等技术及开箱即用的AI工具,为AI应用落地提供全流程安全保护。 翼方首席技术官赵玺: “在人工智能高速发展的今天,算力已经成为当下最重要的资源,我们也观察到各地正在兴起的智算中心的建设。但和传统的通用计算调度相比,AI计算作为一个全新的计算范式,需要全新的基础设施才能保证算力资源的高效合理利用。翼方依靠在建设IoDC过程中的长期深厚技术积累,并结合揽睿星舟服务人工智能生态用户的丰富经验打造了揽睿知力平台,它可以帮助算力源更加便捷高效地提供算力服务,赋能人工智能的千行百业。” 揽睿·知力目前已在城市智算中心、算力需求企业侧的应用发挥积极作用,逐步完善算力流通互联网,提升各方算力使用率。 某省会城市智能计算中心: “基于翼方健数的能力,构建城市算力网络基础设施,实现算力在虚拟化基础上的互联互通。在城市算力流通网络中,算力可以实现负载均衡和高效适配,从而更好地服务于各种AI应用场景。” 某电商营销公司: “揽睿星舟帮助我们具备了跨云异构运算能力,能够在多云环境中灵活调度算力资源,依托于平台极速响应、异构调度、秒级扩缩等能力,让我们在面对请求量快速增长的高峰期间,扩容效率提升86%,并在高峰期后可快速缩容,真正实现高效灵活的算力使用。” 翼方和揽睿星舟正加速编织“算力流通互联网”,此次推出的揽睿·知力平台,不仅能够激活市面上的分散、异构的有效算力价值,通过“横向算力连接”和“纵向数模连接”更能为AI生态的各个层面提供坚实支撑。该平台与算力网络的迭代进步将帮助翼方与揽睿在推动AI技术的广泛应用和深入发展上再添动力。 产品咨询|点击此处填写表单 算力合作|gary.guan@basebit.ai |