LOADING

AutoDL 算力云
中国
AI算力平台

AutoDL 算力云

国内专业的GPU租用平台,为学生提供免费升级会员通道,享极具性价比的会员价格

标签:

AutoDL算力云官网

AI绘图依赖于显卡,越强的显卡决定了出图时的计算时间,而显卡的显存决定了AI能够计算出的图片的大小,如果你在使用SD时出现过“CUDA out of memory”的提示,就证明你炸显存了,显卡无法自动删除之前的数据,需要重新启动WebUI。所以好的显卡虽然不决定你最终出图效果但是决定了你出图的效率。如果你现在使用的是低配显卡算力不高,或者使用的是mac系统,就可以利用租云端服务器的方式来使用SD渲染图片!

AI算力个人云:弹性、好用、省钱、更大更全更专业的AI算力集群。

AutoDL 算力云

AutoDL算力云价格

「AutoDL」是一个国内一个优秀的GPU租用平台,提供专业的GPU租用服务,秒级计费、稳定好用,7×24小时服务。对应的GPU的时价如下:
AutoDL 算力云

autodl算力云优点

  • 按秒计费 使用时开机,不用就关机,关机就不收费
  • 操作简单 对新手友好,配备一键傻瓜式启动包,装完就能用
  • 按需配置 根据自己需求配置GPU,再强的显卡也能用得起
  • 多端运行 不再是本地运行,只要有浏览器,你可以在手机,电脑,Pad,智能电视等任何入口使用

GPU选型

如何排查性能瓶颈参考文档。此外需注意3060、3090、3080Ti、A4000、A5000、A40、A100、A5000等安培架构的卡需要cuda11.1及以上才能使用(TitanXp、1080Ti、2080Ti、P40、V100没有要求),请使用较高版本的框架。

AutoDL平台分配GPU、CPU、内存的机制为:按租用的GPU数量成比例分配CPU和内存,算力市场显示的CPU和内存均为每GPU分配的CPU和内存,如果租用两块GPU,那么CPU和内存就x2。此外GPU非共享,每个实例对GPU是独占的。

一. 选择CPU

CPU非常重要!尽管CPU并不直接参与深度学习模型计算,但CPU需要提供大于模型训练吞吐的数据处理能力。比如,一台8卡NVIDIA V100的DGX服务器,训练ResNet-50 ImageNet图像分类的吞吐就达到8000张图像/秒,而扩展到16卡V100的DGX2服务器却没达到2倍的吞吐,说明这台DGX2服务器的CPU已经成为性能瓶颈了。
AutoDL 算力云我们通常为每块GPU分配固定数量的CPU逻辑核心。理想情况下,模型计算吞吐随GPU数量线性增长,单GPU的合理CPU逻辑核心数分配可以直接线性扩展到多GPU上。AutoDL平台的算力实例提供了多种CPU分配规格。每块GPU应配备至少4~8核心的CPU,以满足多线程的异步数据读取。分配更多的核心通常不会再有很大的收益,此时的数据读取瓶颈通常源于Python的多进程切换与数据通信开销(如使用PyTorch DataLoader)。那么怎么省钱克服数据读取瓶颈呢,不妨在AutoDL平台试试C++和CUDA编写的NVIDIA DALI数据读取加速库吧。在我们的测试中,单核CPU实例的数据读取能力就超过了基于Python的八核心实例,真正做到了为模型训练保驾护航。AutoDL中高性能CPU的选择有:

  1. 内蒙A区 A5000 / 3090 / A40用到的AMD EPYC 7543 CPU
  2. 内蒙A区 A100用到的AMD EPYC 7763 CPU
  3. 北京A区 3090用到的Intel(R) Xeon(R) Gold 6330 或 AMD EPYC 7642 CPU
  4. 深圳A区 3090用到的Intel(R) Xeon(R) Gold 6330

服务器的CPU一般不如桌面CPU的主频高,但是核心数量多。因此您从以前使用桌面CPU切换到服务器CPU上后,需要充分利用多核心的性能,否则无法发挥服务器CPU的性能。如何利用请戳

二. 选择GPU

AutoDL平台上提供的GPU型号很多。我们按照GPU架构大致分为五类:

  1. NVIDIA Pascal架构的GPU,如TitanXp,GTX 10系列等。 这类GPU缺乏低精度的硬件加速能力,但却具备中等的单精度算力。由于价格便宜,适合用来练习训练小模型(如Cifar10)或调试模型代码。
  2. NVIDIA Volta/Turing架构的GPU,如GTX 20系列, Tesla V100等。 这类GPU搭载专为低精度(int8/float16)计算加速的TensorCore, 但单精度算力相较于上代提升不大。我们建议在实例上启用深度学习框架的混合精度训练来加速模型计算。 相较于单精度训练,混合精度训练通常能够提供2倍以上的训练加速。
  3. NVIDIA Ampere架构的GPU,如GTX 30系列,Tesla A40/A100等。 这类GPU搭载第三代TensorCore。相较于前一代,支持了TensorFloat32格式,可直接加速单精度训练 (PyTorch已默认开启)。但我们仍建议使用超高算力的float16半精度训练模型,可获得比上一代GPU更显著的性能提升。
  4. 寒武纪 MLU 200系列加速卡。 暂不支持模型训练。使用该系列加速卡进行模型推理需要量化为int8进行计算。 并且需要安装适配寒武纪MLU的深度学习框架。
  5. 华为 Ascend 系列加速卡。 支持模型训练及推理。但需安装MindSpore框架进行计算。

GPU型号的选择并不困难。对于常用的深度学习模型,根据GPU对应精度的算力可大致推算GPU训练模型的性能。AutoDL平台标注并排名了每种型号GPU的算力,方便大家选择适合自己的GPU。GPU的数量选择与训练任务有关。一般我们认为模型的一次训练应当在24小时内完成,这样隔天就能训练改进之后的模型。以下是选择多GPU的一些建议:

  • 1块GPU。适合一些数据集较小的训练任务,如Pascal VOC等。
  • 2块GPU。同单块GPU,但是你可以一次跑两组参数或者把Batchsize扩大。
  • 4块GPU。适合一些中等数据集的训练任务,如MS COCO等。
  • 8块GPU。经典永流传的配置!适合各种训练任务,也非常方便复现论文结果。
  • 我要更多!用于训练大参数模型、大规模调参或超快地完成模型训练。

三. 选择内存

内存在充足的情况下一般不影响性能,但是由于AutoDL的实例相比本地电脑对内存的使用有更严格的上限限制(本地电脑内存不足会使用硬盘虚拟内存,影响是速度下降),比如租用的实例分配的内存是64GB,程序在训练时最后将要使用64.1GB,此时超过限制的这一时刻进程会被系统Kill导致程序中断,因此如果对内存的容量要求大,请选择分配内存更多的主机或者租用多GPU实例。如果不确定内存的使用,那么可以在实例监控中观察内存使用情况。
AutoDL 算力云