李沐《大语言模型的实践经验和未来预测》
攻城狮M  2024-09-04 11:14  发布于中国

核心观点

1. 机器学习与深度学习

  • 机器学习像是老中医,而深度学习则有点像玄幻小说中的“炼丹”。需要将一些材料(即数据)投入丹炉,并遵循丹方(即算法)进行炼制,最终炼成一颗丹药(即模型)。语言模型本质上仍是一个机器学习模型,只不过换上了新的架构,并且规模更为庞大。

2. 硬件限制

  • 带宽是最关键也是最难提升的环节。

  • 内存的重要性甚至超越算力,很可能在未来几年内,单个芯片内的内存容量会停滞在200GB左右,这意味着模型规模在一定程度上将受限于内存大小。

  • 购置GPU自建服务器的成本不会比租用GPU便宜太多,主要原因是利润大部分被NVIDIA攫取。

3. 模型规模与未来趋势

  • 受限于内存和数据规模,100B到500B的模型可能会成为主流。

  • 智能手机的"杀手级应用"是短视频,然而,大模型的"杀手级应用"尚难预测,因为只有随着用户习惯的逐渐改变,新的应用形态才会涌现。

  • 音乐模型方面,未来很多人会通过音乐这种形式来表达自己的思想和情感,这可能会产生巨大影响。但这不仅仅是技术问题,更是一个商业难题。

4. 模型训练与优化

  • 摩尔定律依然适用,训练的成本会在线性时间内以指数级速度降低。因此,训练好的模型一年之后价值可能会折半。

  • 预训练和后训练同等重要。两年前,预训练是技术问题,如今却演变为工程问题。而后训练才是当前的技术题。

  • 评估模型是解决任何关于模型实际问题的50%。

5. 数据与算法

  • 只要能够收集到充足的数据,就可以实现自动化。反之,如果期望模型完成某项任务,首先需要考虑的是如何收集足够的数据。

  • 算法决定了模型的下限,数据决定模型的上限。

  • 垂直模型的通用能力至关重要。极度偏科的模型几乎不存在。

640.webp


  • 题目:大语言模型的实践经验和未来预测

  • 演讲人:李沐,BosonAI联合创始人

  • 时间:2024年8月23日

  • 地点:上海交大

  • 视频链接:https://www.bilibili.com/video/BV1dHWkewEWz/?spm_id_from=333.999.0.0&vd_source=d563647159bee405a1678506e6b0289e

  • (内容有修订以便于阅读)

640.webp

第一部分,我会讲稍微技术一点的内容,关于整个语言模型的现状,以及我认为可能对未来几方面的预测会是什么样子。语言模型有三大要素:一是算力,二是数据,三是算法。

语言模型也好,整个机器学习也好,本质上就是将数据压缩到模型里。通过算力和算法,将数据输入模型,使模型具备一定的能力,能够在新数据中找到与原始数据相似的特征,并对其进行一定的调整,从而输出你需要的结果。

如果大家对这方面不了解,我打个比方。很多年前,深度学习刚出现时,我曾说机器学习像是老中医,而深度学习则有点像玄幻小说中的“炼丹”。如果你们中有人看过这些小说,可能会比较熟悉这个体系。如今的语言模型就很类似炼丹的过程。你需要将一些材料(即数据)放入丹炉,并按照丹方(即算法)进行炼制,最终炼出一颗丹药(即模型)。

数据就是你要找的材料。在小说中,主角大部分时间都花在寻找这些材料上,比如深入深山寻找,或是在拍卖会上竞拍。因此,搞数据其实是很难的,这是一项体力活,但又是必不可少的。而且你可能需要更多数据,因为你也不知道哪些会用得上,哪些会被舍弃。

接着是算力,你需要一个丹炉来炼制这些数据。算力的重要性在于,炉火越旺(即设备越先进),炼出的丹药效果就越好。

算法就是你的丹方。与小说不同的是,丹方(即算法)每年都在进步,而且对细节的把控非常重要。即使别人告诉你如何操作,你在实际场景中仍然会发现很不一样。这有点像发射火箭,你需要手动调试,而一旦调试不当,火箭就会爆炸。

最后,这次的语言模型与上次深度学习的一个显著区别在于,上次可能炼一颗什么丹药来治一种什么病,而现在则是希望炼出的丹药具备“灵魂”,能够解决很多问题。这实际上代表了技术的一次进步。

640.webp

硬件。

接下来,关于算力、数据和算法这三个最重要的方面,未来几年会发生什么变化。这其中是有规律性的,并不是跳跃性的。

带宽。

我首先强调的是带宽,带宽非常重要。虽然大家可能更关注GPU的算力有多强,但实际上带宽是最关键也是最难提升的部分。因为现在的模型训练很难由单台机器完成所有任务,如果要进行分布式训练,通常瓶颈就在带宽上。当前每根光纤的带宽是400Gb,随着技术进步,每一代的带宽都会翻倍,上一个世代是200Gb,现在是400Gb,下一代将达到800Gb。

这是半年前NVIDIA发布的一个名为GB200的系统,目前已被延期。这个系统的优点在于,它在设计上克服了传统GPU的体积和散热问题。以前如果大家见过GPU,会发现它占据了很大的空间,虽然可能只是一台8卡的机器,但实际上在数据中心的机架上,它就占据了一个完整的机柜。过去,一个机柜可以容纳很多刀片服务器或其他厚度适中的服务器,而现在换成GPU后,一个机架位只能放两台机器,这主要是因为供电、散热等问题。NVIDIA表示,通过优化设计,可以将72块GPU卡压缩在一个机架位中,这个设计中采用了水冷技术。

此前,我们很少使用水冷技术,主要是因为水冷存在许多问题,比如阀门未做好导致漏水,一旦漏水就可能导致整个机架位出问题。此外,水冷对基础设施有较高的要求,水的进出管道都需考虑到位。水冷的好处在于,水可以带走大量热量。相较于空气冷却,水的密度更高,散热能力更强。因此,采用水冷后,计算密度可以提高,意味着一个机房可以容纳更多机器。目前,机房内的大型空调设备非常难以购买,很多时候无法安装更多机器,就是因为空调的制冷能力不够强。改用水冷后,机器的散热效率提升,整体设计可以更紧凑。水冷的另一个好处是,散热装置的厚度可以大幅减少,机器变得更加扁平。

机器变得扁平化后,芯片之间的距离缩短,这有助于提高芯片之间的通信效率。虽然光纤通信速度极快,但在高精度计算中,光纤长度带来的延迟也会影响性能。比如,在设计机房时,我们需要精确计算光纤长度,因为光纤长度的微小差异都会带来光速传播时间的变化,从而影响分布式训练的性能。因此,将GPU放在一起,尽量缩短芯片之间的距离,是提高通信效率的有效方法。

这与多核处理的发展趋势相似。过去,当单核处理器达到瓶颈时,我们转向多核,并将多个核封装在同一块芯片中。现在,多核已经不够用了,我们开始采用多卡架构。以前多卡架构中的GPU通常分布在一个房间里,而现在的趋势是将这些GPU尽量放在一起。同样,芯片面积的扩大面临制造和散热的挑战,因此尽量将相关组件集中在一起已成为业界趋势。

当然,还有GPU和CPU之间的通信速度,这每几年也在翻倍,但确实要慢一些。

内存。

带宽讲完之后是内存。内存的重要性甚至超过算力,因为当前的语言模型核心在于将大量数据压缩进模型中。模型通常非常庞大,达到数百GB,因此在运行时需要处理大量中间变量,这就需要大量内存。目前,我们可以在一个芯片内封装192GB的内存,下一代内存的带宽会更高,但内存已经成为一个瓶颈。内存占据了芯片的面积,一个芯片空间有限,当分配一部分给内存后,就无法再容纳更多的组件。因此,很有可能在未来几年内,一个芯片内的内存容量会停滞在200GB左右,除非工艺上有重大突破。如果这种情况发生,意味着我们的模型规模在一定程度上会受限于内存大小,因为在模型进一步增大的情况下,效率会显著降低。因此,内存的大小决定了模型的上限,而不是算力。如果内存不足,模型的规模就无法扩大。

尽管NVIDIA在这一领域处于领先地位,但在内存技术上,实际上NVIDIA并不如AMD,甚至不如当年的Google TPU。

640.webp

算力。

再说算力,当你解决了带宽和内存问题后,就可以关注算力。根据摩尔定律,制程的纳米级别提高,频率也随之提升。机器学习的一个优势在于可以使用4位浮点数计算,而现在8位浮点数计算已经非常成熟。4位浮点数的优势在于占用的硬件资源更少,同时对带宽的利用率也更低,因为每次计算所需的浮点数更少。近年来,NVIDIA的几代芯片都通过降低浮点数的精度来带来硬件上的显著优势。

资源。

当要扩展到更大规模时,会发现资源成为瓶颈。当达到一定规模时,供电就成为一个问题。在设计数据中心时,我们曾认真考虑过自己建设发电厂供电的可行性,发现自建电厂的成本可能低于支付电费的成本。我们确实花了几个月时间研究如何建造电厂。想象一下,一个芯片消耗1000瓦,1000个芯片就需要一兆瓦的电力,而整个校园的用电量可能还达不到一兆瓦。

理论上,在一个公平的市场中,每次算力翻倍,价格应保持不变,这是市场竞争带来的优势。过去多年中一直是这样,但近年来由于NVIDIA的垄断,价格未能下降。我认为短期内价格可能不会随着算力的翻倍而持平,反而可能会增加1.4倍。但从长期来看,随着竞争加剧,摩尔定律的作用下,算力成本最终会下降,因此长期来看算力会变得越来越便宜。

其他选择。

当然,除了NVIDIA的芯片外,也有其他选择,尤其是在推理任务上表现不错。但目前来看,其他芯片在训练任务上的门槛仍然较高,可能还需要几年的发展。因此,在训练芯片市场上,NVIDIA依然处于垄断地位。

640.webp

在硬件方面,摩尔定律依然适用。训练的成本会以线性时间内的指数级速度降低,或者说训练会变得更快、更大。

因此,结论是:今天训练一个模型,一年之后,该模型的价值可能会减半。许多人不应只关注当前能够训练多大的模型,而是要考虑到模型的长期价值。大模型不一定具有较高的性价比,因此需要从长期角度评估模型所带来的实际价值,以确保其保值。

640.webp

模型。

语言模型。

接下来讲模型,以语言模型为例。目前,语言模型的预训练数据量通常在10T到50T的token之间。一个中文字约为两个token,而英语中的一个词约为1.5个token。开源模型的数据量基本上在10T token以上,这个数量级已经相对足够。尽管人类历史上的数据量远超这个数字,但从数据的多样性和质量来看,10T到50T的规模已经较为适合。即使可以使用更多的数据,通过数据清洗和处理之后,也难以显著提升模型性能。当前的主流模型大小在100B到500B之间。虽然较小的模型也可以有效,但一线模型的规模通常在这个范围内。超过500B的模型虽然可以训练,但在服务部署(serving)时会非常困难。Google历史上没有上线过500B以上的模型,OpenAI也未上线过有效大小超过500B的模型(不包括MoE模型,换算成稠密模型的话)。未来一段时间,由于内存和数据规模的限制,100B到500B的模型可能会成为主流。闭源模型可以更大,但通常使用MoE技术,其有效大小每次激活的量也可能在500B左右。

语音模型。

语音模型的好处主要有两点。首先,当我们说话时,语音中包含了大量的信息,如情绪、语调等,甚至可以通过声音判断出说话者的方言和个人特征。语音信号中还包含背景音乐和场景音乐,甚至在唱歌时的节奏感。传统的处理方式已经无法全面捕捉这些信息,因此语音模型通过保留大量的语音信息来进行处理,能够利用文本模型的强大功能来挖掘这些信息。在输出时,模型可以根据输入的情境调整语调和情感,使输出更加自然和符合人性化需求。

其次,语音模型的实时响应得到了显著提升。过去,从说话到模型生成语音的延迟可能达到一秒钟,而现在可以缩短到约300毫秒。这种低延迟的优势在于,人与人之间的对话常常是中断和回应的,减少延迟可以使对话体验更加流畅和真实。此外,用户可以根据需要用文本定制语音的风格和特征,这比传统的录音方式更具灵活性和实用性。

音乐模型。

另外一个商业化做得挺好的领域是在国内发展较好的音乐生成。最近出了很多做音乐的工具,我认为这一块的进展从来不是技术问题。尽管音乐的技术比语音复杂,因为音乐比人说话更复杂一些,但实际上它还是一个版权问题。

现在大家逐渐开始解决版权问题,大公司去购买版权,小公司则利用其灵活性(“光脚不怕穿鞋的”),直接进入市场。所以你会发现市面上已经有了很多很好的音乐工具。以“抖音快歌”为例,虽然做成爆款很难,如果你不是音乐专业的人,听起来也没有问题。

我之前看到一个同事写歌的经历,他在午饭时间写了一首歌。他的歌词大概是这样描述的:我在公司只有一个朋友,这个人去吃饭了一个半小时还没回来,我在想他是不是出了什么事,是否要打电话给他的女朋友问一下。我自己很社交恐惧,也不敢打电话,所以他写了一首歌来表达这种感受。

你任何一种感觉,都可以通过音乐来表达。音乐是一种表达方式,也是个人互动的一种形式。之前很难用音乐这种富有情感的方式来表达感受,相比之下,写诗可能更容易一些。

现在,掌握了表达工具之后,我认为未来很多人会通过音乐这种形式来表达自己的想法和情感。之前我们用表情符号和标点符号,现在可以用音乐了。门槛的降低很有可能解决这一问题,也有可能使得未来在社交媒体或人与人交互中更多地使用这种表达方式。我认为这可能会产生非常大的影响。但这不仅仅是技术问题,更是一个商业问题。

640.webp

图片模型。

可能大家应该看过,最近几天他们制作的一些非常逼真的TED演讲图片。目前来看,AIGC领域做得最早且效果最好的就是这些图片生成技术。现在,大家已经能够生成超过100万像素的图片。大家常说图片要有灵魂,之前你会发现一些纹身图的工具,即使有风格也显得很假。但现在你会看到这些生成的图片与真实的非常接近,几乎难以辨别。然而,它们仍然缺乏一些灵魂,在情绪表达和细微表达上还不够成熟,但这一领域很可能很快会取得突破。

视频模型。

Sora推出后引起了大家的广泛关注,但实际上还处于比较早期的阶段。通用的视频生成技术仍然非常昂贵,因为视频数据的处理极其复杂。过去一年中,大家已经清洗了大量数据,但视频数据的训练成本可能低于数据预处理的成本。因此,市面上还没有出现特别优秀的开源模型,而且这一领域还处于早期阶段。其主要问题在于,生成一张图片相对容易,但生成一个连贯的视频则难度很大。例如,生成一个人的视频时,头发和眼睛等细节会发生变化,这种不一致性对观众来说非常敏感。

多模态模型。

各个模块中,目前一个趋势是多模态技术。利用文本,因为文本的信息含量最高且获取最为容易,可以将其与其他模块结合使用。通过文本模型学到的能力可以推广到不同的模块需求,包括图片、视频和声音。这有两个好处:一是可以借用文本模型之前在泛化学习方面的能力,二是可以进行定制化,通过文本来控制语音、图片和视频的生成。过去可能需要专业工具来完成这些任务。

例如,写代码是一个专业的过程,通常需要编写代码来控制某些功能。现在可以让ChatGPT帮着写代码,只需要告诉它需求。未来,生成其他模块的内容也可以通过文本来控制,使用自然语言进行交互可能会成为一种常态。

640.webp

总结下来,我觉得目前语言模型的评分大约在80到85分之间。音频模型的水平可接受,处于能够使用的阶段,大约在70到80分之间。现在这一块的进展比较快。视频方面整体较弱,大约在50分左右。在某些特定领域,例如用一张图片生成一个人的情况下,能够实现报告中上半身不动的效果,但更通用的视频生成能力仍然有限。

这里的推论是,人机交互可能会发生一些变化。在ChatGPT推出之前,人与手机的交互主要是通过刷屏和点击完成的。这种方式是最简单的,通过点击菜单或按钮进行操作,对于人类来说,这是最省力的选择,尽可能减少言语和敲击。然而,ChatGPT的出现打破了这一观念。用户愿意输入较长的文字来完成任务,这是因为设计好的系统不一定能满足所有需求,虽然可以满足80%的需求,但对于某些特定需求,系统可能无法满足所有细节。因此,用户可以通过长文本输入详细要求,但长文本输入仍不如口头表达来得简便。因此,尽管有些人觉得语音留言不够方便,可能需要再听一遍,但确实在输入方面更为便捷。

但现在的语音技术确实进步了,未来大家可能会越来越接受通过长语音描述一件事情来完成任务。之前语音控制做得不是很好,因为它通常只能处理简单的任务,如开窗等。用户可能习惯于点击按钮,因为按钮的位置是明确的。然而,对于一些复杂的任务,需要与模型进行详细沟通,未来语音技术有可能会变得更加自然。因此,这涉及到用户习惯的问题。有观点认为当前的技术革命还没有出现所谓的“杀手级应用”,即一种技术出现后,可能会涌现出一个受到大家广泛欢迎的应用形式。

比如说,大家知道智能手机的“杀手级应用”是什么吗?最后的“杀手级应用”是什么?有人知道吗?我们经常使用的手机应用是什么?是短视频。五年前,你可能很难想象大家会如此频繁地刷几秒钟的视频。那么这一次的“杀手级应用”是什么?上一波的顶流应用基本上已经衰退了,包括Character.AI、Inflection,以及被出售的Adept。目前只有Perplexity搜索还在支撑,但下一代的“杀手级应用”还不确定。可能是技术逐渐成熟,然后用户习惯慢慢改变,新的应用形态才会涌现出来。所以今天很难预测未来的“杀手级应用”会是什么。

640.webp

应用。

第三个是应用方面,你认为AI模型可以用来做什么事情?人工智能的本质是帮助人类完成一些任务,因此其核心应用是提供无限的人力资源。

我将这些应用分为三类。第一类是文科白领。白领工作主要涉及通过自然语言与人和世界进行交互,包括写文章、个人助理、呼叫中心、电话处理、文本处理、游戏和娱乐中的故事策划等。教育领域中,老师也通过自然语言与学生交流。在这一领域,语言模型的应用相对较好,语言模型在这些方面表现优异。一个文科白领可能需要一小时完成的工作,语言模型通常能够百分之八九十地完成。

640.webp

第二个是工科白领,可能在座各位从事代码编写和问题解决。大家可以认为,目前模型还远未能取代你们。虽然有模型可以帮助写代码,但你要了解它实际做了什么事情。以前编写代码时,我可能会去网上查找资料,例如在Stack Overflow上复制代码,修改变量名后运行就可以了。现在模型可以帮你完成这些任务,因为它已经在训练过程中爬取了Stack Overflow上的内容。模型可以在其数据库中搜索相关代码,调整变量名,并提供代码示例,这节省了搜索和修改变量名的时间。但它并不是在真正地编写代码。考虑到你一个小时可以编写出复杂的代码,模型目前还无法取代工科白领完成的复杂任务。如果你要求模型从设计到实现完成一个复杂的项目,这仍然是一个遥远的目标。

最后一个是蓝领阶级,这是最难实现的领域。唯一做得比较好的领域是自动驾驶。自动驾驶之所以能取得进展,是因为它是在一个相对封闭的环境中进行的。交通路况较为固定,比如在上海,尽管变化较快,但在其他地方,交通状况可能10年内变化不大。因此,在封闭的路况下,驾驶相对较为简单。尽管无人驾驶技术尚未完全解决问题,但取得了很大进步。其原因在于车辆数量众多,每辆车配备了传感器,能够采集大量的数据。这些数据用于训练模型,特斯拉等公司采用了end-to-end的技术,通过大量摄像头和车辆数据,尽管路况变化不大,操作相对简单,技术因此得以逐步成熟。

然而,对于蓝领工作,例如端盘子、运货等,涉及与现实世界的复杂互动,机器人要理解房间中的物品是非常困难的。虽然机器人可以处理一些简单任务,但要使其理解环境,需要大量类似的数据作为支持。这是一个技术突破的问题,因为数据采集和传感器的部署仍存在局限。没有足够多的传感器,无法获取足够的数据;没有足够的机器人,数据采集也受限。要在物理世界中广泛部署这种技术,需要很长时间,可能至少需要5年才能建立基础设施,积累足够的数据,使得蓝领工作中的自动化成为可能。

640.webp

对于文科白领的简单任务,当前技术已经能够完成。然而,复杂任务仍然是一个挑战。工科白领的简单任务,虽然模型可以在一定程度上完成,但复杂任务依然困难重重,类似于“登月计划”。对于蓝领工作,除了在无人驾驶和特定场景工厂中(如特定场景下变化不大且能够采集大量数据的情况),技术进展较快,其他简单任务仍难以实现,而复杂任务更加困难。然而,蓝领是世界上最主要的劳动群体,因此,技术对蓝领工作领域的变革仍需时间。整个技术进步还需要许多年,因此,未来10至20年内依然有很多机会可以参与和发展。

640.webp

总结一下,对于应用而言,只要能够采集到足够的数据,就可以实现自动化。这一直是整个AI领域面临的主要挑战。算法和统计模型需要大量数据来进行训练,因此,如果一个职业或行业能够收集到足够多的数据,就有可能实现自动化。因此,反过来说,如果希望模型完成某项任务,首先需要考虑的是如何采集足够的数据。许多传统企业会选择安装大量传感器,以便先收集数据,并在经过几年运行后,逐渐积累起有用的数据。这是一个发展规律,很多时候急于求成也不可能实现。

640.webp

经验之谈:模型

预训练和后训练同样重要。

在这段时间的学习中,创业大约一年半,我学到了一些更细节的内容。

首先,之前可能大家会认为预训练很重要,例如训练一个几百B参数的模型。但现在看来,预训练已成为一个工程问题,而后训练才是技术问题。两年前,预训练是技术问题,现在却变成了工程问题。后训练阶段依然非常困难,高质量的数据和改进的算法能够显著提升模型的效果。

所谓的高质量数据,是指在预训练阶段需要的数据应该包含结构化信息,具有一定的多样性,并且能够贴合实际应用,满足模型的需求。高质量数据不仅包括互联网数据,还应根据具体应用需求进行筛选和优化。最近,OpenAI发布的RLHF(强化学习从人类反馈)算法曾受到广泛关注,但我个人在读到相关算法时认为其可能有些牵强。Yann LeCun最近也表示,这套技术仍然比较原始,虽然在过去一两年中有了很大的变化。然而,对于哪个算法更好,我无法给出明确答案,因为每个人使用的数据不同,导致算法的适用性也不同。一篇论文中提到的目标函数,在某些应用中可能效果很好,但实际应用时可能会发现无法使用,因为你的数据和论文中的数据不匹配,目标函数对结构化问题的假设可能不适用。因此,这个问题无法仅通过技术解决,需要进一步的研发。

我这里展示了一个图,使用的是LLaMA 3 70B模型,并进行了角色扮演任务。角色扮演任务涵盖了多种角色,包括老师、保险销售以及游戏中的虚拟角色。我们在LLaMA 3基础模型上进行了后训练,调试了两个版本:V1和V2。目前,V2在角色扮演任务中的表现优于所有其他模型。然而,LLaMA 3.1 405B模型排名第四,LLaMA 3.1 70B的调试版本排名第五十三。作为一个创业公司,我们的资金有限,而LLaMA团队在标注数据上花费了5000万美元,并拥有一个庞大的团队进行训练。

尽管如此,我认为他们的数据标注存在问题,而且他们在算法方面的投入也不够。因此,我想告诉大家,开发大型语言模型时,可以专注于后训练阶段而非预训练阶段。后训练部分对于模型的实际应用更为重要,包含了算法创新。预训练阶段已成为工程问题,需要大量计算资源和人力。虽然当前的门槛仍然较高,8B和70B模型在调优上的要求不同,但总体上,门槛已经降低了许多。

640.webp

垂直模型的通用能力非常重要。

第二点是,大家可能会想做一个垂直模型,原因在于通用模型存在一些问题。通用模型需要处理海量的指数级数据,才能在各个方面有所提升。以OpenAI为例,即便它在角色扮演等特定任务上有所关注,其通用模型的改进也需要处理大量数据,使得模型变得庞大且难以优化。因此,专注于垂直领域的模型是大家一年前普遍认同的看法,但实际上,我们发现这一观点并不完全正确,没有真正的“垂直模型”。

举例来说,我们曾经有一个客户要求开发一个游戏主持人(Game Master)模型。虽然这听上去很简单,但实际操作中,模型需要理解复杂的指令,并对大量的规则进行推理。此外,它还需要懂得数学,计算游戏中的各种数据。因此,即使在一个看似垂直的领域,通用能力仍然是不可或缺的。

我们最近对V2模型进行的角色扮演任务表明,V1到V2的改进主要体现在通用智能的提升,而非仅仅是知识面的增加。V2模型在角色扮演上取得了显著进步,并且在评测中表现优异。这表明,在通用智能的提升使得模型能够与GPT-4O和Claude 3.5相抗衡的情况下,才能在某些垂直领域中表现突出。

要在特定学科或领域中取得领先,模型的通用能力仍然非常重要。极端偏科的模型几乎不存在,大多数情况下,模型在某个通用领域的强大能力才有可能使其在特定任务中胜出。这是我们在实践中学到的另一个重要经验。

640.webp

评估模型很难且关键。

还有一个问题是评估模型的困难。尽管前述的讨论可能会引起怀疑,许多评测结果并不总是能真实反映模型的实际表现,因为这些评估往往过于简化。实际应用中,模型的表现非常复杂,仅依靠简单的评估标准无法准确衡量模型的优劣。因此,我们过去一年多看到许多模型在排行榜上表现良好,但实际使用时却表现不佳,这往往是因为评估方法不够完善,没有涵盖实际应用中的复杂情况。评估在应用开发中至关重要,首先需要确保评估方法的准确性,然后再考虑其他问题。

由于我们的模型通过自然语言进行交互,语言的二义性使得评估变得非常困难。确定模型的逻辑是否正确以及其语言风格是否符合要求并不容易。通常,我们不希望使用人工评估,因为成本过高,而用其他模型进行评估可能会引入偏差。例如,GPT-4在评估时倾向于生成较长且华丽的文本,喜欢特定的用词。所以评估是解决任何实际问题的50%,因为一旦评估完成,你就能进行优化。第二,评估的完成也意味着你已经获得了一些数据。

640.webp

经验之谈:数据

算法决定了模型的下限,数据决定模型的上限。

目前我们离AGI还有很远的距离。AGI能够进行自主学习,而我们目前的模型仍然是“填鸭式教育”。因此,模型的上限取决于数据。比如Claude 3.5,一个相对较小的模型,能够在各种榜单上战胜许多大型模型,如GPT-4,并且在实际使用中表现也相当不错。我与他们的团队交流过,发现他们的数据处理做得非常出色,他们在数据准备上投入了大量的时间和精力。因此,如果希望模型在某个领域表现突出,必须将相关数据准备好。技术本身并没有多么花哨,百分之七八十的时间还是花在数据准备上。

640.webp

经验之谈:算力

算力方面,购买GPU自建服务器的成本不会比租用GPU便宜太多,主要原因是利润大部分被NVIDIA占据。NVIDIA的利润率高达90%,一块3000美元的GPU,实际售价达到3万美元。无论你与NVIDIA关系如何,他们都不会提供折扣,因此现在的GPU类似奢侈品。根据三年的成本计算,你会发现GPU在三年内的整体运营成本中占据了50%。因为NVIDIA从中获得了50%的利润,所以对剩下的成本优化几乎没有意义。

这幅图中的上面一行是自建,下面一行是租用。租用小型GPU云服务可以接受,但大型云服务则租不起。尽管我曾在Amazon工作了七年半,但实际上使用Amazon的服务成本过高,无法负担。只能使用那些较小的云服务,这些小型云服务往往是以前挖比特币的公司转行做的AI云,他们在成本控制上做得不错,因为他们有电力资源。购买GPU的成本占比达到50%,其他硬件成本虽然贵一点,但电力费用不会太高。相比之下,挖比特币的公司需要大量电力资源,如20兆瓦,他们在早期就已经建立了这些资源。自建服务器的运营成本相对较高,因为GPU经常出现故障。我们在多伦多有一个数据中心,有三个人轮班维护,出现故障时需要赶紧修复,运营条件很差。云服务虽然稍微赚点钱,但利润仅有20%,所以整体上看,差别并不大。

自建服务器的唯一好处是可以节省CPU计算能力、存储和网络带宽,这些方面相对便宜,而云服务则成本较高。在过去十年中,这一方面的技术变化不大。举个例子,使用AWS存储数据的成本相当于购买硬件设备的成本,而且存储容量能提高十倍。在AWS上存储10PB的数据成本,等于购买一个100PB的存储集群使用几年。因此,当数据量非常大的时候,自建服务器具有一定的优势。其实我们最初并没有预估到这一点,最后才发现这方面可以赚一点钱。

640.webp

语言模型实际上还是一个机器学习模型,只不过换了一个架构,而且规模更大了。规模的增加带来了许多困难,但本质上你仍然可以用传统的机器学习方法去理解它。模型仍然依赖于数据,评估仍然非常重要。因此,很多之前的经验仍然适用。大家不必对新技术过于神话,但需要认识到规模扩大了100倍,会带来更大的困难。目前主要的问题在于,预训练已经成为一个因规模巨大而产生的工程性难题。然而,对于后续的工作,尽管规模更大,但算法上的探索仍然不够深入,需要仔细研究算法的改进方向。这是我们在技术上的一些体会。

640.webp

第二部分可能会更有趣一些,涉及一些个人经历。

如果大家对AI本身不太感兴趣的话,我可以讲讲我从交大毕业后的经历。我做了许多不同的事情,我称之为“打卡式人生”,包括发表论文也是如此。我在交大待了六年多、七年。在港科大待了两年,在CMU待了五年。在伯克利和斯坦福,每个学校待了六个月,这些都是我去过的学校。

在大公司方面,我在百度工作了两年。戴文渊曾经过来过,他其实是我的Tech Leader。我在Amazon工作了七年。这是我第二次创业,我在创业公司也干了两年半。

640.webp

给大家分享一下不同工作经历的体验。大公司、PhD和创业公司的目标是什么?在大公司,你的基本目标是升职加薪,这虽然是基础目标,但并非最终目标。PhD的目标是毕业,而创业公司的目标则是退出,要么上市,要么卖掉。这些都是你每天考虑的基本需求。

在大公司,你需要解决公司关心的问题。这一点很重要,大公司一定要做清楚公司要干什么事情,你的工作最好与公司的目标一致。如果你喜欢的事情与公司的方向不符,会觉得非常不舒服。PhD时,你的任务是解决有研究价值的问题。创业公司则要求你解决用户愿意支付的实际问题,如果没有人付钱,你的公司也就无法维持。然而,投资人愿意给你资金也是可以的。总之,你需要解决问题,但在不同环境下,解决问题的方式和内容会有所不同。

还有一个驱动力,就是你的动机。大公司还行,只要你不是家里有矿,按部就班地上班就可以。PhD的动机需要更高,因为你不是为了赚取钱财。创业公司的动机则需要更高,否则很难坚持下去。待会我们再来讲讲为什么。

640.webp

打工人。

打工人的好处是什么?在一个相对简单的环境中,你可以学习各种业界知识,了解技术如何落地到产品中,产品如何设计、运营以及管理。此外,另一个好处是你可以按时完成安排的任务,避免夜晚的焦虑,同时拥有相对稳定的收入和空闲时间。特别是当有了孩子时,很多生活方面的需求会消耗大量时间,比如购房、孩子教育和照顾父母等。因此,作为打工人,你相对拥有更多时间,即使是996工作制,尽管大家对其有诸多抱怨,但至少在9:00下班后,你还有相对固定的休息时间。相比之下,其他两个选择可能是7×24小时的工作模式。

但打工人的坏处在于,你可能会停留在职业经理人的思维模式中,这种思维模式与公司和学校所创造的简化环境密切相关。从小学到现在,学校是一个非常简单的社会环境,公司也是如此。公司将复杂的世界抽象为简单的任务,让你逐层执行。越往下,你可能会觉得自己只是一个螺丝钉,而螺丝钉的好处在于,你只需找到螺母将其固定,而无需关注机器的复杂性或外部世界的复杂性,这些都由大机器处理。

然而,这种简化的环境也有其弊端。待得越久,你会在一个简化的世界里工作,可能会感到厌倦,学到的东西也会减少,导致你停留在打工人或职业经理人的思维模式中,而未能更广泛地思考问题和面对困难。这是其好坏之处。

640.webp

PhD。

PhD的好处是,你可以在几年的时间里专注于某一领域的探索,尽管这段时间没有收入,也没有升职加薪。完成PhD后,你能够获得个人或小团队的研发能力。许多人能够独立完成项目,也有人能带领学生和团队完成研发工作。另外,PhD期间你有50%的时间花在写作和演讲上,这非常重要,因为在我那一代的教育体系中,这部分内容往往被忽视。很多公司的研发岗位要求PhD学位,不是真要,反正PhD是市场上量大管饱,反正要个PhD没错。

坏处是什么?很少有实验室能参与到非常大的项目开发中,尤其是那些真正的大规模研发项目。另一个问题是,你需要适应研究课题和导师的风格,你是否对研究课题感兴趣,是否能够适应导师的研究方法,这实际上是一个个人适应的过程。这取决于你的适应能力和导师的适应能力,如果你们无法适应,过程会非常痛苦。在公司里,你可以通过调换部门来解决问题,但在PhD阶段,这种调整更加困难。最好是你真的热爱研究,否则很难坚持下去。你需要明确你写作的目的,以及你希望通过研究达到什么目标。你应有一个更远大的目标,真正热爱这个领域,以便在研究中取得突破。因此,这种选择不是对于每个人都适合。

640.webp

创业。

创业的好处在于享受当海盗的乐趣。你这个海盗需要不断寻找可以抢夺的船只,抢到一艘船会带来满足感,抢不到则可能面临失败。创业的过程就是要不断关注市场动态,跟人交流,寻找机会。一旦机会出现,你必须all in去搏一把,否则可能就错失良机。如果你没有all in,就容易被淘汰。而且,创业的生死存亡往往在一瞬间,这种刺激感在其他地方可能无法体验到,因为这是唯一合法的海盗活动。

另外一个好处是,你能直接面对复杂的社会现实。创业者直接与社会互动,没有人将问题抽象化或替你理清楚,因此你必须自己理解社会,快速学习。复杂的环境能够锻炼你的抽象能力,你需要将复杂现象简化,这也是我认为创业的优势之一。这种经历能够让你在面对其他挑战时感到相对简单。此外,经历艰难困苦也是成长的一部分,比如生育孩子就是一种经历艰难的过程。多生几个孩子可能会带来极大的痛苦,特别是婴儿期每三小时醒一次,这种痛苦让人怀疑自己是否能继续坚持下去。

我曾经问过许多成功人士,包括张一鸣以及一些可能已经成为世界首富的人。我问他们在创业时的感受,他们也曾对自己的事业感到怀疑,但最终熬过来了。在创业过程中,所有的困难都由你自己承担,没有人会替你解决。在学校时,导师可以帮你分担,在公司时,上级可能会帮你背锅。但在创业过程中,你必须自己面对所有困难,没有逃避的空间。只有真正热爱创业本身,你才能坚持下去,否则可能会在困境面前选择放弃。

我说创业要求的动机要比PhD高一点,PhD的动机要比工作的动机高。核心原因在于不同的活动有不同的延迟享受。公司中的升职加薪通常会在完成任务后得到立即的奖金或表扬,而PhD的研究成果可能需要几年时间才能得到认可,创业可能需要五年才能得到肯定和正反馈。因此,在没有即时正反馈的情况下,你必须非常热爱这项事业,自我激励,否则难以坚持下去。

640.webp

动机。

选择哪条道路往往取决于动机。你需要一个非常强烈的动机,而不仅仅是短暂的兴趣。简单的欲望和恐惧容易被满足,真正的动机必须来自于深层次的欲望和恐惧。你需要从旁观者的角度审视自己,思考内心是否有不愿意分享的深层次的事情。探究你的动机是追求什么还是害怕什么,欲望应当是根植于底层的,例如名利和权力,这些都是根植于底层的欲望。考虑一下,大猩猩是否关心这些欲望?如果我让大猩猩做猩猩的头,它会愿意吗?大猩猩可能会说可以。但如果我问它是否愿意吃一些好东西,大猩猩也会愿意。真正重要的是愿意跟随你的欲望,这些欲望并不复杂,关键在于直面自己的欲望和恐惧。恐惧可能会导致抑郁,让你感受到生死的压力。

我小时候曾有些抑郁情绪,感到对人生的虚无感。我常思考,这一辈子究竟追求什么,感觉到一种虚无的恐惧。绝大多数人,99.99%的人,在历史上不会留下任何记忆。以前,中国传统认为人生的意义在于子孙后代的延续,但现在许多人选择不生育,这种传统观念也被打破了。那么,这时该怎么办?

核心在于将欲望和恐惧转化为积极向上的动机。这一点非常重要,你的动机必须正确,并符合价值观。尽管听起来可能有些奇怪,但实际上,逃避或放纵都无法真正满足欲望,也无法缓解恐惧。唯一克服这些挑战的方法是将它们转化为积极向上的动机,最终解决符合社会价值的问题。

人是社会动物,虽然许多人可能在特定年龄段认为自己能主导一切,但实际上,你需要选择一个符合主流价值观的积极向上的方向。电影,无论是国内还是国外,不论是正面题材还是负面题材,甚至是颂扬反派角色,其核心都是积极向上的动机。电影的本质是对人性的抽象表现。

640.webp

有了动机后,你需要确定要解决什么问题。你所要解决的问题本身可能就是你的动机所在。如果你恐惧某种事物,就去解决那个恐惧;如果你想要钱,就去赚钱,这就是解决赚钱的问题;如果你想要名声,你可以选择成为网红,解决出名的问题。或者你可以间接地满足这个动机,比如,如果你觉得某个问题有学术价值,可以考虑攻读PhD;如果某个问题有商业价值,可以考虑创业。如果这两个属性都不那么理想,至少选择一个对个人成长有价值的方向,成为打工人也是一个选择。

例如,具体一点,在学术方面,语言模型为什么能够有效工作,目前尚未完全明确,尽管深度学习领域尚未完全搞清楚,语言模型已经取得了显著进展,这本身具有很高的学术价值。在商业价值方面,语言模型能否孵化出新的应用,创造出杀手级应用,如果没有新的应用,可以考虑将语言模型应用于某个现有产品上,通过这个过程,你也能够学习到如何完成一个相对较小的项目。尽管这是一个简单的任务,但你可能需要定期回顾自己的动机,重新做出选择。

每次做选择时,都要回到你的动机上。

640.webp

非常有用的方法。

最后,我认为一个非常有用的方法是,从导师、上级或以客观的角度总结自己。你需要每周回顾自己做了什么,为什么这些目标没有达成。这个问题很重要,因为目标未达成的原因可能是懒惰。你需要面对这个问题,考虑如何让自己更加勤奋,例如找一个学习伙伴,每天一起去图书馆,相互监督,这是一种办法。另一种办法是如果你觉得自己很笨,你有两种选择:一种是放弃这一块,去做其他你擅长的事情;另一种是接受这一块,投入比别人多两倍的时间去完成。无论如何,你需要搞清楚自己是懒惰还是能力不足,或者是其他问题。这是一个本质的问题。如果对自己狠,你克服了对自己狠,你就会成为一个非常牛逼的人。如果对自己狠不下来,进步会很慢。最后拼的是你对自己有多狠。

你可以设定一个习惯,例如每周一晚上花30分钟总结一下自己的工作进展。一旦养成这个习惯,你可以坚持几十年。每个季度也要进行总结,检查上个季度的目标是否完成,并计划下个季度的任务。这对于规划学期考试、期末考试或暑假实习等都有帮助。

这个方法的好处在于它能帮助你在更长时间的范围内思考目标,例如本科四年内你希望达成什么目标。这种思考有助于明确方向。创业过程中,选择的重要性常常被认为超过了努力,你需要清楚自己的目标是什么。此外,每年或每五年,你需要反思自己的动机。如果去年不开心且没有取得进展,可能是因为缺乏足够强烈的动机,或者是因为你的动机与现实不符。如果是前者,你需要继续努力;如果是后者,可能需要重新审视并调整方向。定期检视自己的动机,并考虑如何解决当前的问题是重要的。每五年回顾一次你的动机和未来目标,可以避免陷入“打卡式人生”,即没有明确方向地随意行动。如果你能早早明确目标,这是一种幸运;如果还没有明确,也没关系,可以在未来几年再做调整。

640.webp

基本上是两段内容,涉及整个技术未来和我这几年打卡的理念。

我认为这是一个最好的时代。新的技术带来了许多新的机会。我能看到语言模型对社会的影响,即使未来没有更先进的技术出现,当前的Transformer技术对世界的影响在未来几年内也将非常巨大。这并不是我个人的看法,我询问了许多世界500强的CEO,他们也持相同意见,他们的内部数据支持这一点。因此,这将带来许多新的机会。不管是本科生、硕士生、博士生,还是刚刚进入职场的人,大家都能在未来几年内享受到技术带来的变革。

然而,这也是一个最坏的时代。因为现在竞争越来越激烈。例如,在座的各位可能需要付出的努力比我们那一代多出10倍。所以,我们这一代人取得的成就和所获得的回报,在你们那里可能不一定适用。我们可能比较幸运,而你们的挑战则更大。因此,这也是一个最坏的时代。很多时候,一些报告所述的成就是时代的福利,而不一定是个人的福利。各位的好消息是,时代福利依然存在。坏消息是,大家需要付出的努力也更多。

谢谢大家,这是我想跟大家分享的所有的东西。


---【本文完】---

本文转载自:Andy730 

全部回复(
回复
回复