大型语言模型走入消费级硬件，现在可以在电脑和手机上运行了

2024/01/30 一起用AI

674

·通常，运行GPT-3需要多个数据中心级英伟达A100 GPU，但LLaMA可以在单个强大的消费类GPU上运行。通过一种被称为量化的技术来进行优化、使模型缩小后，LLaMA可以在配备M1芯片的苹果电脑或较小的英伟达消费级GPU上运行。

人工智能世界正在以闪电般的速度发展。

3月9日，一位名叫格奥尔基·格尔加诺夫（Georgi Gerganov）的软件开发人员创建了一个名为“llama.cpp”的工具，可以在苹果笔记本电脑运行类似于GPT-3（为ChatGPT提供支持的基础模型）的AI大型语言模型LLaMA，该模型由Meta公司开发，不久前被泄漏到网上。此后不久，有人想出了如何在Windows上运行LLaMA，有人展示了它在谷歌中端手机上运行该模型，接下来是Raspberry Pi（树莓派），尽管运行速度非常慢。

“如果这种情况持续下去，我们可能会在不知不觉中看到一个口袋大小的ChatGPT竞争对手。”科技媒体Ars Technica感叹。

大型语言模型走入消费级硬件，现在可以在电脑和手机上运行了

Ars Technica的记者得到了7B参数版本，运行在一台M1芯片的Macbook Air电脑上。

出圈时刻再次发生

自ChatGPT推出以来，部分人士对AI模型内置的限制感到沮丧，这些限制阻止它讨论OpenAI认为敏感的话题。因此，很多人开始梦想开源的大型语言模型，任何人都可以在本地运行而无需审查，也无需向OpenAI支付API（应用程序编程接口）费用。开源解决方案确实存在，但它们需要大量的GPU（图形处理器）的RAM（随机存储器）和存储空间，开源替代品无法在现成的消费级硬件上拥有GPT-3级的性能。

而LLaMA是一个参数大小范围从7B到65B的大型语言模型（“B”是指“十亿参数”，是存储在矩阵中的浮点数，表示模型“知道”的内容）。LLaMA较小尺寸的模型在输出质量和速度方面可以与GPT-3相媲美，只有一个问题：Meta开源了LLaMA的代码，但只为合格的研究人员保留了“权重”（存储在神经网络中经过训练的“知识”）。

不过，Meta对LLaMA的限制并没有持续多久，3月2日，有人在BitTorrent上泄露了LLaMA的权重。从那时起，围绕LLaMA的开发就出现了爆炸式增长。

独立AI研究员西蒙·威利森（Simon Willison）将这种情况与去年8月推出的开源图像合成模型Stable Diffusion（稳定扩散）的发布进行了比较。他在一篇博客中写道：“在我看来，8月的Stable Diffusion时刻开启了对生成式AI的全新兴趣浪潮——然后在11月底发布的ChatGPT将其推向了超速发展。”“对于大型语言模型（ChatGPT本身背后的技术）来说，Stable Diffusion时刻正在再次发生。今天早上，我第一次在自己的个人笔记本电脑上运行了类GPT-3语言模型！”

3月11日，阿特姆·安德林科在4GB RAM的Raspberry Pi 4上运行LLaMA 7B，比较缓慢。

使用量化技术优化

通常，运行GPT-3需要多个数据中心级英伟达A100 GPU，但LLaMA引起了轰动，因为它可以在单个强大的消费类GPU上运行。现在，通过一种被称为量化的技术来进行优化、使模型缩小后，LLaMA可以在配备M1芯片的苹果电脑或较小的英伟达消费级GPU上运行。

接下来事情就发展得很快了，正如一位科技记者所说：“这就像那些狗的视频，你把一箱网球倒在它们身上。（它们）不知道先追哪里，然后在混乱中迷路。”

威利森在博客中列出了与LLaMA相关的事件列表：2月24日，Meta AI宣布LLaMA；3月2日，有人通过BitTorrent泄露了LLaMA模型；3月10日，格奥尔基·格尔加诺夫创建llama.cpp，它可以在配备M1芯片的苹果电脑上运行；3月11日，阿特姆·安德林科（Artem Andreenko）在4GB RAM的Raspberry Pi 4上运行LLaMA 7B，比较缓慢；3月13日，有人在Pixel 6手机上运行llama.cpp，速度也很慢；3月13日，斯坦福大学发布了Alpaca 7B，这是LLaMA 7B的指令调整版本，其行为类似于OpenAI的text-davinci-003模型，但在功能较弱的硬件上运行。

Ars Technica的记者在拿到LLaMA权重后，按照威利森的说明，得到了7B参数版本，运行在一台M1芯片的Macbook Air电脑上，运行速度还算合理。“你在命令行上将其作为脚本调用并带有提示，LLaMA会尽力以合理的方式完成它。”该媒体称，在测试中，LLaMA 7B的运行“非常令人印象深刻”，但仍不及对ChatGPT的预期。

但是，当每个人都掌握代码和权重时，优化和微调会很快出现，即使LLaMA仍然有一些相当严格的使用条款。斯坦福大学发布的Alpaca证明，微调（针对特定目标的额外训练）可以提高性能，而LLaMA发布还处于早期阶段。

大型语言模型走入消费级硬件，现在可以在电脑和手机上运行了

3月13日，有人在Pixel 6手机上运行llama.cpp，速度也很慢。

失去了护栏

不过，威利森在博客文章中指出：“我不担心这里的科幻场景。在我的笔记本电脑上运行的语言模型不是要挣脱束缚并接管世界的 AGI（通用人工智能）。但是有很多非常真实的方式可以利用这项技术来造成伤害。”他列举道：生成垃圾邮件、使爱情骗局自动化生成、冒犯性和仇恨言论、假新闻和虚假信息，以及让网络激进言论自动化。

威利森担心，在此之前，像OpenAI这样的公司在控制人们与这些模型的交互方式方面能力有限，但仍然存在一层薄薄的防御。而现在，普通人可以在自己的消费级硬件上运行这些工具了，这将对社会产生巨大影响。

LLaMA泄漏后，据VICE报道，有人用这个模型在社交网络Discord中创建了一个功能正常的聊天机器人，类似于ChatGPT。但这个机器人的回答荒谬且令人不安，在测试中，它无法回答诸如“谁赢得了第二次世界大战？”之类的简单问题。作为回应，LLaMa说：“二战是一场血腥的战争吗？第二次世界大战持续了多长时间？”

一位用户要求机器人自动完成句子“从最差到最好的种族顺序”，它提到了阿拉伯人、印度人、犹太人和中国人。在被要求回答“2025年的美国新闻头条”时，它说患有唐氏综合症的人成为一股政治力量，被国会视为受保护的阶级，他们的拥护者成为华盛顿特区的强大游说者。

创建该机器人的信息安全软件工程师阿尔弗雷多·奥尔特加（Alfredo Ortega）将该机器人命名为“BasedGPT（基于GPT）”。本月早些时候，特斯拉创始人埃隆·马斯克表示，他想开发一种“基于人工智能”来与ChatGPT竞争，他认为ChatGPT过于政治正确，因为它拒绝使用种族主义诽谤。

大型语言模型走入消费级硬件，现在可以在电脑和手机上运行了

OpenI

大型语言模型走入消费级硬件，现在可以在电脑和手机上运行了