考进哈佛！能识图还能角色扮演！chatGPT4.0强到离谱！发布会解读

2024/02/14 一起用AI

864

考进哈佛！能识图还能角色扮演！

chatGPT4.0强到离谱！发布会全程解读

莫道桑榆晚，为霞尚满天。我是财经廉，你一个懂财经的朋友

今天发布：ChatGPT 4

3月15日，#GPT4做一个网站只要十秒#登上热搜。

当地时间周二（3月14日），人工智能研究公司OpenAI公布了其大型语言模型的新版本——GPT-4。

几乎所有的办公室案头工作，GPT-4无所不能。

比如，10秒钟就能做出一个网站，程序员们也该失业了？

每个人都该看一下昨天（3月14日）GPT4的发布会，下面摘出来的这两分钟时间，演示的是：

1、在草稿本上用纸笔画出一个非常粗糙的草图；

2、拍照告诉GPT我要做一个网站长这样，给我生成网站代码；

3、网站做完，总共历时十秒钟左右。

相比上一代，其AI能力再度提升，同时支持输入的内容不再限于文字，而且支持图像内容的输入，成为一个能够理解照片的人工智能。

OpenAI 发布时间线回顾：

2022 年 7 月：发布 DALL·E

2022 年 8 月：API 费用降低 66％

2022 年 11 月：发布 ChatGPT

2022 年 12 月：嵌入式费用降低 500％，同时保持先进技术（SoTA）

2023 年 3 月：发布 ChatGPT API，同时保持 SoTA 并降低费用 10 倍

2023 年 3 月：发布Whisper API

GPT4考试中击败90%的人类，OpenAI付款后台被挤爆

OpenAI老板Sam Altman直接开门见山地介绍说：

这是我们迄今为止功能蕞强大的模型！

用在创意项目上，它能帮助用户一起创作歌曲、编写剧本或者学习用户的写作风格。

1. 学会了更加精确的语言

2. 提高了准确性

3. 可以用令人印象深刻的细节描述图像

4. 增加了严肃的专业知识

5. 可以让部分编辑失业

6. 正在培养一种幽默感

7. 可以在一定程度上推理

8. 可以通过标准化考试

OpenAI表示，新版本在镁国41个州和地区的律师资格考试中获得的分数，排名前10%左右。

根据该公司的测试，它还可以在SAT考试中获得1300分（满分1600分），在生物、微积分、宏观经济学、心理学、统计学和历史等先修课程高中考试中获得5分（满分5分）。

而更早的版本未能通过律师资格考试，在大多数大学先修考试中的得分也没有那么高。

9. 不擅长讨论未来

尽管新机器人似乎可以对已经发生的事情进行推理，但当被要求对未来做出假设时，它就不那么熟练了。

它似乎借鉴了其他人所说的话，而不是进行新的猜测。

当埃齐奥尼问新机器人，“NLP（自然语言处理）中需要解决的重要问题是什么？未来十年的研究？”它无法提出全新的想法。

10. 它仍然有“幻觉”

新机器人仍在编造东西，这个问题被称为“幻觉（hallucination）”，困扰着所有领先的聊天机器人。

因为GPT不了解什么是真什么是假，它们可能会生成完全错误的文本。

当被要求提供描述蕞新癌症研究的网站地址时，它有时会生成不存在的互联网地址。

值得注意的是， GPT-4 可以直接读取 3.2 万个 token，相当于给它 25000 英文字的背景信息，就可以快速给出结论——也就是说，像律师这样的职业真的要被取代了。

而上一个版本只能读取 4096 个token，相当于3000 英文字信息，这个版本的进步是跨越式的。

除了文本以外，你还能把图片作为输入内容给 GPT-4，它不仅能够识别出图中的物件，还能根据这些信息进一步处理内容。

OpenAI 介绍，GPT-4 展示了“在多种专业和学术指标下展现了人类水平的表现”：

类似于手机的跑分软件，在 ChatGPT 刚出来的时候，也有不少人用它“刷题跑分”，在 GPT-3.5 版本模型下，它的 SAT 成绩只能排倒数 10% 的水平，然而 GPT-4 模型可以超越 90% 考生的水平。

在其他考试也呈现出类似对比效果，如果光是“跑分”，ChatGPT-4 属于是可以考进哈佛、斯坦福的水平。

既然它考试那么厉害，我们学生是不是可以借助它的能力，帮助我们复习，也考上名校呢？

当然用它作弊是不允许的。

更重要的是，Open AI 还说 GPT 4 比之前模型都更安全了。

在 OpenAI 的内部测试中，GPT 4 被“骗”到回复出不当答案的几率下降了 82%，聊起敏感话题时（如医疗），它的回复合规性也提高了 29%。

不过，OpenAI 也承认，即便如此，GPT-4 在“社会偏见、幻觉和对抗性提示”上仍存在限制。

除了普通图片，GPT-4还能处理更复杂的图像信息，包括表格、考试题目截图、论文截图、漫画等，例如根据专业论文直接给出论文摘要和要点。

此外，该公司还表示，GPT-4在许多专业测试中表现出超过绝大多数人类的水平。

OpenAI，GPT-4参加了多种基准考试测试，包括镁国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“镁国高考”SAT数学部分和证据性阅读与写作部分的考试，在这些测试中，它的得分高于88%的应试者。

OpenAI，在内部评估中，GPT-4产生正确回应的可能性要比GPT-3.5高出40%。

而且GPT-4是多模态的，同时支持文本和图像输入功能。

OpenAI称，GPT-4比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这使得它的运行成本更高。

据OpenAI介绍，在某些情况下，GPT-4比之前的GPT-3.5版本有了巨大改进，新模型将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。

不过，与早期的GPT模型一样，GPT-4仍然存在一定的局限性。

OpenAI称，它并不完全可靠，可能会出现推理错误，“GPT-4缺乏对绝大多数数据切断后（2021年9月）发生的事件的了解，并且无法从中吸取经验教训……它有时会出现简单的推理错误，它会轻信用户明显的虚假陈述，有时它会像人类一样在难题上失败，例如在它生成的代码中引入安全漏洞。”

基于此，OpenAI提醒，用户在使用语言模型时应格外小心，蕞好辅助以人工复查、附加上下文、或完全避免在高风险情况下使用它。

由于限于Plus订阅用户使用，当晚，大批新订用户涌入，以至于OpenAI的付款后台被挤爆了。

OpenAI，摩根士丹利正在使用GPT-4来组织数据，而电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。

其他客户还包括语言学习公司Duolingo、Khan Academy和冰岛。

据不完全统计，截至今年3月初，A股已有近20家上市公司宣布相关业务已经接入类似ChatGPT技术，或正在研究相关技术与数字人结合的应用场景。

国盛证券在研报中表示，以GPT系列为代表的大型语言模型(LLM)能教会机器以统计方式理解自然语言，完成此前人类进行的内容读取和理解。

随着多模态带来的模型普及化，人工智能将向着拥有人类解释能力这一目标更进一步。

详细翻读了 OpenAI 给出的技术文档后，我们发现 GPT-4 还抓取药物清单中的关键信息，包括但不限于：

找到类似类似性质的化合物；

对它们进行修改，以确保它们没有被专利保护；

从供应商处购买（甚至包括发送带有采购订单的电子邮件）。

这意味着它拥有发现新药物的能力。

还有人直接生成了一个“一键起诉”功能，用于针对发送骚扰电话的自动拨号软件起草起诉书，要求其赔偿 1500 美元，将大大降低律师的工作量。

同时百度研发的chatGPT，“文心一言”新闻发布会也将在3月16日举行，我也会同步关注，把消息同步给大家。

莫道桑榆晚，为霞尚满天。感谢关注我是财经廉，你一个懂财经的朋友

特别声明

本号发布的内容仅为财经Lian所有

财经Lian发布此信息的目的在于传播更多信息，文章内容仅供参考和学习交流之用，不对您构成任何决策建议。

OpenI

考进哈佛！能识图还能角色扮演！chatGPT4.0强到离谱！发布会解读