一、现状分析
1、目前有用于深度学习的计算机若干台、显卡24块,低配电脑若干台,每台机器独立部署,单打独斗,上层没有统一的管理系统,计算能力没有形成池化。
2、学生多,机器少,因为受物理环境局限,每台机器同一时间只能一个人使用,物理机不够分的,资源紧张的同时,也存在很多资源浪费,有的单台机器计算资源跑不满,有的单台机器计算资源不足,效率低下。
3、这些设备没有专业的人员维护和提供相关的技术支持服务。
二、解决方案
方案一
基于目前的情况,我们建议采用联科CCMP容器技术解决目前存在的问题。
CCMP(联科云管理平台)是一个用Go语言实现的精简私有云系统。它为管理员和一般用户提供网页管理界面,支持多用户虚拟机自助申请和使用。
在联科的EaaS平台解决方案中采用了联科自主研发的操作系统平(CTOS),自主研发的轻量级容器虚拟化技术(CTV)及云平台调度系(CTS)。
优点:有持续稳定的技术支持与售后服务。
缺点:商业软件成本较高。用在学院的电脑上性价比底。
方案二
使用开源软件,实现类似的功能。
优点:节省授权费用。
三、主要功能
1、用户管理:对平台使用者的身份进行认证、审批、权限控制、配额信息管理、用户组及用户成员关系等管理。
2、任务调度:从服务器计算资源中选择最合适的节点,来启动容器。调度子系统主要由管理节点的管理监控模块、执行经验的监控执行模块、以及调度节点的算法模块构成。
3、容器隔离:对物理资源、计算/存储/网络的无损虚拟化实现容器隔离,在同一物理服务器上同时运行不同版本的操作系统,拥有独立的网络配置(包括高速以太网以及高速IB计算网),并可访问不同的存储空间及数据集。
4、应用镜像管理:对用户提供各种应用程序及算法模块、容器镜像包的管理,功能主要由平台的应用商店完成。
四、使用场景
1、深度学习交互实验环境:EaaS 平台可以提供 TensorFlow,TensorBoard 和 Juypter 的容器化集成环境,方便用户在 Web 页面中进行深度学习交互实验。
2、HPC 虚拟集群环境:EaaS 平台可以提供容器化虚拟集群环境,方便传统 HPC 使用习惯的用户通过作业队列管理系统提交作业。用户可以对作业队列管理系统控制,记账管理。
3、R软件计算环境:R是一套完整的数据处理、计算和制图软件系统。EaaS平台封装好R软件的全部依赖环境,用户可以直接从镜像商店一键创建R软件计算环境。