LOADING

大型语言模型走入消费级硬件,现在可以在电脑和手机上运行了

2024/01/30 一起用AI
536

·通常,运行GPT-3需要多个数据中心级英伟达A100 GPU,但LLaMA可以在单个强大的消费类GPU上运行。通过一种被称为量化的技术来进行优化、使模型缩小后,LLaMA可以在配备M1芯片的苹果电脑或较小的英伟达消费级GPU上运行。

人工智能世界正在以闪电般的速度发展。

3月9日,一位名叫格奥尔基·格尔加诺夫(Georgi Gerganov)的软件开发人员创建了一个名为“llama.cpp”的工具,可以在苹果笔记本电脑运行类似于GPT-3(为ChatGPT提供支持的基础模型)的AI大型语言模型LLaMA,该模型由Meta公司开发,不久前被泄漏到网上。此后不久,有人想出了如何在Windows上运行LLaMA,有人展示了它在谷歌中端手机上运行该模型,接下来是Raspberry Pi(树莓派),尽管运行速度非常慢。

“如果这种情况持续下去,我们可能会在不知不觉中看到一个口袋大小的ChatGPT竞争对手。”科技媒体Ars Technica感叹。

大型语言模型走入消费级硬件,现在可以在电脑和手机上运行了

Ars Technica的记者得到了7B参数版本,运行在一台M1芯片的Macbook Air电脑上。

出圈时刻再次发生

自ChatGPT推出以来,部分人士对AI模型内置的限制感到沮丧,这些限制阻止它讨论OpenAI认为敏感的话题。因此,很多人开始梦想开源的大型语言模型,任何人都可以在本地运行而无需审查,也无需向OpenAI支付API(应用程序编程接口)费用。开源解决方案确实存在,但它们需要大量的GPU(图形处理器)的RAM(随机存储器)和存储空间,开源替代品无法在现成的消费级硬件上拥有GPT-3级的性能。

而LLaMA是一个参数大小范围从7B到65B的大型语言模型(“B”是指“十亿参数”,是存储在矩阵中的浮点数,表示模型“知道”的内容)。LLaMA较小尺寸的模型在输出质量和速度方面可以与GPT-3相媲美,只有一个问题:Meta开源了LLaMA的代码,但只为合格的研究人员保留了“权重”(存储在神经网络中经过训练的“知识”)。

不过,Meta对LLaMA的限制并没有持续多久,3月2日,有人在BitTorrent上泄露了LLaMA的权重。从那时起,围绕LLaMA的开发就出现了爆炸式增长。

独立AI研究员西蒙·威利森(Simon Willison)将这种情况与去年8月推出的开源图像合成模型Stable Diffusion(稳定扩散)的发布进行了比较。他在一篇博客中写道:“在我看来,8月的Stable Diffusion时刻开启了对生成式AI的全新兴趣浪潮——然后在11月底发布的ChatGPT将其推向了超速发展。”“对于大型语言模型(ChatGPT本身背后的技术)来说,Stable Diffusion时刻正在再次发生。今天早上,我第一次在自己的个人笔记本电脑上运行了类GPT-3语言模型!”

3月11日,阿特姆·安德林科在4GB RAM的Raspberry Pi 4上运行LLaMA 7B,比较缓慢。

使用量化技术优化

通常,运行GPT-3需要多个数据中心级英伟达A100 GPU,但LLaMA引起了轰动,因为它可以在单个强大的消费类GPU上运行。现在,通过一种被称为量化的技术来进行优化、使模型缩小后,LLaMA可以在配备M1芯片的苹果电脑或较小的英伟达消费级GPU上运行。

接下来事情就发展得很快了,正如一位科技记者所说:“这就像那些狗的视频,你把一箱网球倒在它们身上。(它们)不知道先追哪里,然后在混乱中迷路。”

威利森在博客中列出了与LLaMA相关的事件列表:2月24日,Meta AI宣布LLaMA;3月2日,有人通过BitTorrent泄露了LLaMA模型;3月10日,格奥尔基·格尔加诺夫创建llama.cpp,它可以在配备M1芯片的苹果电脑上运行;3月11日,阿特姆·安德林科(Artem Andreenko)在4GB RAM的Raspberry Pi 4上运行LLaMA 7B,比较缓慢;3月13日,有人在Pixel 6手机上运行llama.cpp,速度也很慢;3月13日,斯坦福大学发布了Alpaca 7B,这是LLaMA 7B的指令调整版本,其行为类似于OpenAI的text-davinci-003模型,但在功能较弱的硬件上运行。

Ars Technica的记者在拿到LLaMA权重后,按照威利森的说明,得到了7B参数版本,运行在一台M1芯片的Macbook Air电脑上,运行速度还算合理。“你在命令行上将其作为脚本调用并带有提示,LLaMA会尽力以合理的方式完成它。”该媒体称,在测试中,LLaMA 7B的运行“非常令人印象深刻”,但仍不及对ChatGPT的预期。

但是,当每个人都掌握代码和权重时,优化和微调会很快出现,即使LLaMA仍然有一些相当严格的使用条款。斯坦福大学发布的Alpaca证明,微调(针对特定目标的额外训练)可以提高性能,而LLaMA发布还处于早期阶段。

大型语言模型走入消费级硬件,现在可以在电脑和手机上运行了

3月13日,有人在Pixel 6手机上运行llama.cpp,速度也很慢。

失去了护栏

不过,威利森在博客文章中指出:“我不担心这里的科幻场景。在我的笔记本电脑上运行的语言模型不是要挣脱束缚并接管世界的 AGI(通用人工智能)。但是有很多非常真实的方式可以利用这项技术来造成伤害。”他列举道:生成垃圾邮件、使爱情骗局自动化生成、冒犯性和仇恨言论、假新闻和虚假信息,以及让网络激进言论自动化。

威利森担心,在此之前,像OpenAI这样的公司在控制人们与这些模型的交互方式方面能力有限,但仍然存在一层薄薄的防御。而现在,普通人可以在自己的消费级硬件上运行这些工具了,这将对社会产生巨大影响。

LLaMA泄漏后,据VICE报道,有人用这个模型在社交网络Discord中创建了一个功能正常的聊天机器人,类似于ChatGPT。但这个机器人的回答荒谬且令人不安,在测试中,它无法回答诸如“谁赢得了第二次世界大战?”之类的简单问题。作为回应,LLaMa说:“二战是一场血腥的战争吗?第二次世界大战持续了多长时间?”

一位用户要求机器人自动完成句子“从最差到最好的种族顺序”,它提到了阿拉伯人、印度人、犹太人和中国人。在被要求回答“2025年的美国新闻头条”时,它说患有唐氏综合症的人成为一股政治力量,被国会视为受保护的阶级,他们的拥护者成为华盛顿特区的强大游说者。

创建该机器人的信息安全软件工程师阿尔弗雷多·奥尔特加(Alfredo Ortega)将该机器人命名为“BasedGPT(基于GPT)”。本月早些时候,特斯拉创始人埃隆·马斯克表示,他想开发一种“基于人工智能”来与ChatGPT竞争,他认为ChatGPT过于政治正确,因为它拒绝使用种族主义诽谤。

大型语言模型走入消费级硬件,现在可以在电脑和手机上运行了