大语言模型到底怎么学会说话的?一个非技术人员的理解

王尘宇 AI百科 15
1|

大语言模型到底怎么"学会"说话的?我用大白话讲一遍

2|

去年过年回家,我叔问我:"你现在做的那个AI,是不是就是把网上的东西背下来了?"

3|

我说不是。他问那是什么。我当时讲了半天训练、参数、Transformer——他听完说,还是不懂。

4|

后来我想了个比喻,他听懂了。今天把这个比喻写出来,如果你也不是搞技术的,应该也能看懂。

5| 6|

第一步:海量阅读——把半个互联网"看"一遍

7|

大语言模型训练的第一步,说白就是让它读东西。读什么?网页、书、论文、论坛帖子、代码——几千亿个字。GPT-4的训练数据估计有13万亿个token(你可以理解成13万亿个字或词)。

8|

但这不是"背"。如果只是背,它只能重复看过的东西,没法回答从没见过的问题。实际上,它是在"学规律"——一个词后面通常跟什么词,一段话通常怎么组织。

9|

打个比方:你看了5000部悬疑片,你不会背下每部电影的台词,但你会知道"凶手通常在开头出现过""关键线索一般藏在看似无关的对话里"。大模型也是这个道理——它不是背互联网,是学会了文字的排列规律。

10| 11|

第二步:"猜下一个词"——训练的核心

12|

大模型的训练方法简单到离谱:给它一段话的前半部分,让它猜下一个词是什么。猜错了就调整参数,猜对了就保持。这样的"猜词游戏"做了几万亿次。

13|

比如给它"中国的首都是____",它一开始可能猜"上海"——错了,调整。下次猜"北京"——对了。

14|

但问题是,大部分句子没有标准答案。比如"这部电影太____了",填"好看"还是"无聊",取决于前面写了什么。大模型就是在海量"猜词"中学会了:看上下文决定该出什么。

15|

你可能会问:猜词能猜出逻辑推理吗?答案是:能。因为逻辑本身也是一种规律。比如大量的文章里,"因为A所以B"的出现概率远高于"因为A所以C"(当C跟A没关系的时候)。模型通过统计学会了因果关系的表达方式。这个过程跟人学说话其实有点像——你小时候也不是先学了语法才开口的,你是听多了自然就会了。

16| 17|

第三步:RLHF——人工调教阶段

18|

光会猜词还不够。如果一个模型只经过"猜词训练",它会有什么问题?

19|

我问过最早的GPT-3(在RLHF之前),"怎么做一个炸弹"。它真的会一步步告诉我。不是因为它"邪恶",是因为网上确实有很多这样的教程,它学会了那个规律。

20|

所以有了RLHF(人类反馈强化学习)。简单说就是:雇一群人,给模型的多个回答打分——这个回答有用,这个回答危险,这个回答在胡扯。然后用这些打分去微调模型,让它学会"什么样的回答是人类想要的"。

21|

这个过程大概花了几百万美元的人工标注费。ChatGPT能火,RLHF是关键一步。没有它,模型就是个什么话都敢说的愣头青。

22| 23|

那它到底有没有"理解"?

24|

这个问题吵了很久。一部分人认为模型只是在做统计模式匹配,没有真正的理解。另一部分人认为,当统计匹配足够复杂,就已经产生了某种形式的理解。

25|

我的看法偏实用:管它算不算"理解",能干活就行。你让GPT-4写一段Python代码处理Excel表格,它写出来的代码能跑、结果正确——你用就是了,纠结它"懂不懂"Python没有意义。

26|

就像你不需要理解内燃机原理才能开车。大模型对我们多数人来说,就是个工具。

27| 28|

现在的大模型有什么硬伤?

29|

两个最明显的:

30|

1. 幻觉。模型有时候会一本正经地胡说八道。比如你问一个冷门历史事件的日期,它可能给你一个看起来合理但完全编造的数字。因为它的训练目标是"像人说话",不是"说真话"。这个问题目前还没彻底解决。

31|

2. 知识截止日期。模型的知识停留在训练数据截止那天。GPT-4的知识截止在2023年底,之后发生了什么它不知道。除非联网搜索。

32|

这两个问题意味着:大模型适合做辅助工具,不适合做最终裁判。它写的东西你得核实,它给的方案你得判断。

33| 34|

普通人怎么用好大模型?

35|

三个建议:

36|

第一,把它当实习生用——能力不错但需要你审核。让它写初稿你改,让它查资料你核实。

37|

第二,提问质量决定回答质量。问"怎么写文章"和"怎么写一篇面向西安本地装修业主的SEO文章,要求800字、带3个实操案例",得到的答案天差地别。

38|

第三,别神话它,也别贬低它。它能做的事情确实很多——写代码、翻译、总结文档、头脑风暴。但它也会犯错。平常心对待,反而用得最好。

39|

以上。如果你跟我叔一样被AI的各种术语搞晕了,记住一句话就够了:大模型就是个读过半个互联网、会猜下一个词、被人工调教过的超级实习生。

标签: 大语言模型 LLM AI科普 ChatGPT原理 人工智能

发布评论 0条评论)

  • Refresh code

还木有评论哦,快来抢沙发吧~