TL;DR
我们面临这样一个时代的机会。它既是机会,也是挑战。我们建议你就这个机会做全方位思考。 —— 陆奇
陆奇是中国著名的企业家和技术领袖,现任奇绩创坛董事长。他曾经担任过百度公司CEO和微软公司全球副总裁等职务,是中国互联网和人工智能领域的重要人物之一。陆奇在百度任职期间,带领公司实现了从搜索引擎到人工智能的转型,并推动了百度在人工智能领域的创新和发展。他在人工智能、大数据和云计算等领域拥有深厚的技术背景和丰富的管理经验,被誉为“中国人工智能第一人”。2018年,陆奇创办了奇绩创坛,旨在为创新企业提供技术、资金和市场等全方位支持,推动中国科技创新的发展。奇绩创坛已经成为中国创新创业领域的重要力量,陆奇也因此被誉为中国创新创业领域的领军人物之一。
面对当前全世界对大模型的高度关注,他做了“我的大模型世界观”的演讲,其中分享了他对大模型时代的宏观思考.他指出,技术的进步驱动着人类社会结构和范式的不断更迭。我们目前正处于一个新范式的重要拐点,其中包括信息生态系统、模型系统和行动系统三个体系的组合。我们已经走过了信息无处不在的互联网范式阶段。在当前阶段中,“模型”知识无处不在,基于大模型的新一代认知思考能力工具正在逐渐替代重复的脑力劳动。陆奇认为,大模型技术的创新将模型的成本从边际走向固定,未来人类的见解将是唯一有价值的。而在大模型之后,他对下一个可能的范式进行了畅想,即行动无处不在的时代,也就是自动驾驶、机器人、空间计算的到来。在国内,大模型的发展机会巨大,需要奋起直追。他还为创业公司提供了一些建议,包括勤学、有规划地采取行动以及明确未来的导向等。最后,他还介绍了当前的机会板块,主要包括改造世界和认识世界两部分。
陆奇的演讲深入浅出,具有很高的启发性和指导意义,本文对陆奇最新演讲实录:我的大模型世界观进行了梳理。他的思考和观点不仅对于广大人工智能和数字化技术领域的从业者、创业者提供了深刻的启示,也对于整个行业和社会具有重要的参考价值。通过他的演讲,可以更好地了解大模型技术的内在动因、发展趋势和商业机遇,同时也能够更好地把握技术和社会变革的脉搏,为自己的职业发展和个人成长提供更多的思考和方向。
演讲要点
PC互联网的拐点在哪里? 由“三位一体结构演化模式”可以推断,1995-1996年PC互联网迎来了第一个拐点(信息),目前我们处于第二个拐点(模型),随着技术发展将引来第三个拐点(行动)。
什么是“三位一体结构演化模式”? “三位一体结构演化模式”是指,复杂体系可以由以下几个部分组成:
1.“信息”系统(subsystem of information),从环境当中获得信息;
2.“模型”系统(subsystem of model),对信息做一种表达,进行推理和规划;
3.“行动”系统(subsystem of action),我们最终和环境做交互,达到人类想达到的目的。
PC互联网作为数字化体系,也是由这三部分组成,也就是说需要逐步发展,以完成:1)获得信息;2)表达信息;3)行动解决问题或满足需求。
出现拐点的原因是什么? 出现拐点的根本原因是技术进步和创新,从边际成本变成固定成本,导致社会、产业发生了结构性改变。这种技术进步和创新可以是新的生产工艺、新的产品或服务、新的商业模式等等,它们将原本分散、高昂的成本转化为集中、低廉的成本,从而改变了现有的市场格局和商业生态。
什么是“从边际成本变成固定成本”? “边际成本”指的是“每一单位新增生产的产品(或者购买的产品)带来的总成本的增量”,“固定成本”指“不随产品产量的变化的各项成本费用”,“从边际成本变成固定成本”,意味着在产品或服务的生产中,随着产量的增加,单位成本不再随之增加,而是保持不变或者逐渐降低。在这种情况下,成本的主要组成部分是固定成本,而不是边际成本。
举个例子,如果一家公司生产汽车,每生产一辆汽车需要花费一定的成本,包括零部件、人工、能源等。在生产的早期阶段,公司需要购买大量的设备和机器,这些成本是固定的,无论生产多少辆汽车,这些成本都不会改变。但是,随着产量的增加,边际成本逐渐下降,因为每生产一辆汽车需要的边际成本(如零部件、人工等)会逐渐降低。如果公司的规模足够大,每辆汽车的边际成本可能会降低到很低,甚至接近于零。这时,公司的主要成本就是固定成本,而不是边际成本。
再举个例子,比如打印东西,打印第一张的时候,需要买打印机,墨盒之类的东西,成本很高,但是当需要打印第二张的时候,这时候就可以直接去打印了,所以第二张纸的 边际成本 就变得很低,接下来第三张,第四张….直到第N张,可能随着操作的熟练度的增加,边际成本变得越来越低。
从边际成本变成固定成本,对企业来说有很多好处,例如可以实现规模经济,降低单位成本,提高利润率。但也有一些风险,例如需要承担较高的固定成本,一旦市场需求下降,可能会导致亏损。因此,企业需要在决策时充分考虑成本结构的变化和风险。
这种结构性改变可以带来巨大的商业机会和社会福利,也可能带来激烈的竞争和产业淘汰。在Google的例子中,技术进步和创新使得获取地图信息的成本从边际成本变成了固定成本,从而改变了整个产业和社会。
为什么这个过程中边际成本逐渐降低? 随着产量的增加,企业可以更有效地利用其生产资源,例如工人、机器和原材料等,从而降低生产成本。例如,当生产量增加时,企业可以通过采购更多的原材料来获得折扣,或者通过更有效地安排工人和机器的使用来提高生产效率,从而降低边际成本。因此,随着产量的增加,企业可以实现规模经济,降低单位成本
当前2022-2023年的拐点是什么? 大模型,因为模型的成本开始从边际走向固定,大模型成为技术核心、产业化基础。
为什么模型这么重要、这个拐点这么重要? 因为模型和人有内在关系,未来,如果大模型会逐步学会人的所有的模型,替代人类的一部分基础能力,那会怎样?对每个人的价值产生重大影响,未来唯一有价值的是你有多大见解。
人类有哪些基础模型? 我们对社会所有贡献都是以下三种模型的组合,每个人不是靠手和腿的力量赚钱,而是靠脑袋活:
- 认知模型,我们能看、能听、能思考、能规划;
- 任务模型,我们能爬楼梯、搬椅子剥鸡蛋;
- 领域模型,我们有些人是医生,有些人是律师,有些人是码农。
大模型引发的拐点将影响每个人、整个社会 这一次大模型拐点会让所有服务经济中的人、蓝领基本都受影响,因为他们是模型,除非有独到见解,否则你今天所从事的服务大模型都有。下一时代典型的职业,我们认为是创业者和科学家。
技术进步对社会的影响? 以农业时代为例,从农业时代,人用工具做简单劳动,最大问题是人和土地绑定,人缺少流通性,没有自由。工业发展对人最大变化是人可以动了,可以到城市和工厂。早期工业体系以体力劳动为主、脑力劳动为辅,但随着机械化、电气化、电子化,人的体力劳动下降。信息化时代以后,人以脑力劳动为主,经济从商品经济转向服务经济——码农、设计师、分析师成为我们时代的典型职业。
下个拐点是什么? “行动无处不在”,“行动”的边际成本走向固定成本。如,20年后,这个房子里所有一切都有机械臂,都有自动化的东西。我需要的任何东西,按个按钮,软件可以动,今天还需要找人。
陆奇看到的三个拐点
- 目前处于“信息无处不在”,接下来15-20年是“模型无处不在”,或“知识无处不在”;
- 未来,自动化、自主化的“行动无处不在”;
- 任何数字化技术共同进化,达到通用智能。
通用智能四大要素 涌现(emergence)+ 代理(agency)+ 功能可见性(affordence)+ 具象(embodiment)。
OpenAI如何带来大模型时代的拐点?
回顾OpenAI技术路线:
- GPT-1是第一次使用预训练方法来实现高效语言理解的训练;
- GPT-2主要采用了迁移学习技术,能在多种任务中高效应用预训练信息,并进一步提高语言理解能力;
- DALL·E是走到另外一个模态;
- GPT-3主要注重泛化能力,few-shot(小样本)的泛化;
- GPT-3.5 instruction following(指令遵循)和tuning(微调)是最大突破;
- GPT-4 已经开始实现工程化。
- 2023年3月的Plugin是生态化。
其中,体现出Ilya Sutskever(OpenAI联合创始人兼首席科学家),或OpenAI,坚信的两件事:
- 模型架构要足够深,只要到了一定深度,bigness is betterness(大就是好)。只要有算力,只要有数据,越大越好。
- 任何范式、改变一切的范式永远有个引擎,这个引擎能不断前进、不断产生价值。(信息 -> 知识 -> 对齐)
OpenAI坚信的引擎 这个引擎基本是一个模型体系(model system):
- 它的核心是模型架构Transformer,就是sequence model(序列模型):sequence in、sequence out、encode、decode后者decode only。但最终的核心是GPT,也就是预训练之后的Transformer,它可以把信息高度压缩。Ilya有个信念:如果你能高效压缩信息,你一定已经得到知识,不然你没法压缩信息。所以,你把信息高效压缩的话,you got to have some knowledge(你得有一些知识);
- 更重要的是用增强学习,加上人的反馈,与人的价值对齐。因为GPT已经做了4年多,知识已经封装在里面了,过去真的是用不起来,也很难用;
- 最大的是对齐(alignment engineering),尤其是instruction following和自然语言对齐。当然也可以跟代码、表格、图表对齐。
- 做大模型是很大难度是infra(基础设施)。因为Transformer是密度模型,它不光是算力问题,对带宽要求极高,你就想GPT-4需要24000张到25000张卡训练,试想世界上多少人能做这种系统。所有数据、data center网络架构都不一样。它不是一个三层的架构,必须是东西向的网络架构。所以这里要做大量的工作。
- Token很重要。全世界可能有40-50个确定的token,就是语言的token和模态,现在有更多的token化(指多模态)。当然现在更多的模型的参数小型化、本地化,任务领域的专业知识可以融入这些大模型当中。它的可操纵性主要是靠提示和调试,尤其是根据指令来调,或者对齐来调试,或者in-context learning(上下文学习),这个已经贯彻比较清晰了。它的可操作性是越来越强。可拓展性基本上也足够。
为什么OpenAI的大模型能到达拐点?
- 它封装了世界上所有知识。自然语言处理没有知识永远没用。正好Transformer把这么多知识压缩在一起了,这是它的最大突破。
- 它有足够强的学习和推理能力,GPT-3能力在高中生和大学生之间,GPT-4不光是进斯坦福,而且是斯坦福排名很靠前的人。
- 它的领域足够宽,知识足够深,又足够好用。自然语言最大的突破是好用。扩展性也足够好。
未来模型世界的发展 核心是模型的可延伸性和未来模型的生态。是一个模型无处不在的时代:
- 首先,是将有更多大模型会出来。更多更完整的模态和更完整的世界知识在这里。你有大量的知识、更多的模态,学习能力、泛化能力和泛化机制一定会加强。
- 此外,会有更多的对齐工作要做。使得模型足够平稳、综合,大部分人能接受。自然语言也好,代码也好,数学公式也好,表单也好,有大量对齐工作要做。
- 还有更多的模态对齐。目前是语言和图形,以后有更多的模态会接入。
大模型之上建立的模型 两类模型与大模型的组合
- 事情的模型:人类每一类需求都有领域/工作模型,其中有结构模型、流程模型、需求模型和任务模型,尤其是记忆和先验。
- 人的模型:包括认知/任务模型,它是个体的,其中有专业模型,有认知模型、运动模型和人的记忆先验。人基本是这几类模型的组合,律师也好,医生也好,大量领域会有大量模型往前走。
人的模型和学的模型之间的本质区别
- 人一直在建立模型
- 优点:
- 泛化的时候更深、更专业,基本是用符号(例如数学公式)或结构(例如画流程图)
- 缺点:
- 模型是静态的,不会场景变化。
- 人表达知识倾向运用结构,不能直接用于解决具体问题,但真正能解决问题的是过程,人不适合用过程来表达。
- 优点:
- 学出来的模型
- 优点:
- 它本质是场景化的,因为它的token是场景化的;
- 它适应性很强,环境变了,token也变了,模型自然会随着环境变;
- 它的泛化拓展性有大量理论工作要做,但是目前子概念空间的泛化,看来是很有潜在发展空间的这样一种模型的特性。
- 计算性内在是过程性的,能真正用于解决具体问题。
- 优点:
大模型对每个人的结构性影响 对每个人都将产生深远和系统性影响。我们的假设是每个人很快将有副驾驶员,不光是1个,可能5个、6个。有些副驾驶员足够强,变成正驾驶员,他自动可以去帮你做事。更长期,我们每个人都有一个驾驶员团队服务。未来的人类组织是真人,加上他的副驾驶员和真驾驶员一起协同。
大模型对每个行业的结构性影响 生产资本从两个层次全面提高,每个行业也会有结构性影响,会系统性重组
- 生产资本广泛提高:所有动脑筋的工作,可以降低成本、提升产能;
- 生产资本深层提升:一些行业的生产资本本质是模型驱动,产业的发展速度会加快,因为科学的发展速度加快了,开发的速度加快了,每个行业的心跳都会加快。
什么是模型驱动的行业 如医疗产业,本质是强模型驱动,一个好医生是一个好模型,一个好护士是一种好模型。。
机会点的结构性拆解 上图是整个人类技术驱动的创业创新,所有事情的机会都在这张图上
- 数字化基础(数字化是人的延申):
- 数字化的基础里有平台,有发展基础,包括开源的代码、开源的设计、开源的数据;平台有前端、后端等。这里有大量机会。
- 数字化应用(用数字化能力解决人需求):
- C端:通讯、社交、内容、游戏消费、旅游、健身……;码农、设计师、研究员
- B端:供应链、销售、客服……
- 满足需求,数字化看得见的体验结构:
- 给你信息的,二维就够;
- 给你三维交互体验,在游戏、元宇宙;
- 人和人之间抽象的关系,包括信任关系、Web 3;
- 人在物理世界环中自动驾驶、机器人等;
- 人的内在的用碳机植入到里面,今天是脑机接口,以后有更多,以后是可以用硅基;
- 最后是给你模型。
- 改变世界:
- 我们在满足世界时,也要获得更多能源,所以需要有能源科技;
- 需要转化能源,用生命科学的形式,biological process转化能源或者使用mechanical process,材料结构来转化能源,或者是新的空间。
数字化平台的结构 核心是前端和后端——前端是完整可延伸的体验,后端是完整可延伸的能力
- 前端:
- 有设备端,比方说电脑、手机、眼镜、汽车等等,设备端里面是芯片、模组加上操作系统。
- 其次是体验的容器,二维的容器,三维的容器,内在嵌入的容器。
- 容器之上,写代码都知道画布,画布可以是文档,可以是聊天,可以是代码,可以是空间,可以是世界,可以是数字人,也可以是碳基里的蛋白质等等。
- 后端
- 底层式设备,服务器、交换机、数据中心等等,也是芯片、模组、操作系统。
- 中间这一层非常重要,网络数据堆栈,分布式系统,区块链等等。
- 最上面是云,是能力的供给。能力供给像自然水源,打开就是算力,有存储和通讯能力。今天的模型时代,打开就是模型。
- 数字化基础:符号计算,或者所谓的深度学习,叠加向量的浮点计算,硅基的,碳基的。
这个时代跟淘金时代很像。如果你那个时候去加州淘金,一大堆人会死掉,但是卖勺子的人、卖铲子的人永远可以赚钱。- 首先搬运信息,这个时代还有很多可以做。
- 如果你是做模型的,我现在判断什么都要重做一遍。大模型为先。很多设备也要重做,你要支持大模型,容器要重做,这些都有机会。云、中间的基础设施、底层的硬件,包括数字化发展核心的基础,尤其是开源的体系,这里是真正意义上是有大量机会。
- 第三代系统,即已经开始做机器人、自动化、自主系统。孙正义今天all in。这个也能用大模型做。马斯克也看到这种机会。都是在第三代下一个拐点,创业公司完全可以把握的机会。
- 同时并行的,我把它称作“第三代++系统”,是碳基的生物计算,这一类公司有大量的量子计算,有很多机会。元宇宙和Web 3今天点冷,但从历史长河角度来讲,只是时间问题,因为这些技术都能真正意义上带来未来的人类价值。
以模型为先的平台特征 以模型为先的平台,将比以信息为先的平台体量更大,有以下几个特征
- 开箱即用;
- 要有一个足够简单和好的商业模式,平台是开发者可以活在上面,可以赚足够的钱、养活自己,不然不叫平台;
- 他有自己杀手级应用。ChatGPT本身是个杀手应用,今天平台公司就是你在苹果生态上,你做得再好,只要做大苹果就把你没收了,因为它要用你底层的东西,所以你是平台。平台一般都有它的锚点,有很强的支撑点,长期OpenAI设备机会有很多——有可能这是历史上第一个10万亿美元的公司。
对创业者的几点建议 不要轻举妄动,首先要思考
- 不要浮夸,不能蹭热。我个人最反对蹭热,你要做大模型,想好到底做什么,大模型真正是怎么回事,跟你的创业方向在哪个或哪几个维度有本质关系。蹭热是最不好的行为,会浪费机会。
- 在这个阶段要勤于学习。新范式有多个维度,有蛮大复杂性,该看到的论文要看,尤其现在发展实在太快,非确定性很大。我的判断都有一定灰度,不能说看得很清楚,但大致是看到是这样的结果。学习花时间,我强烈推荐。
- 想清楚之后要行动导向,要果断、有规划地采取行动。如果这一次变革对你所在的产业带来结构性影响,不进则退。你不往前走没退路的,今天的位置守不住。如果你所在的产业被直接影响到,你只能采取行动。
每个公司是一组能力的组合
- 产品开发能力方面,如果你的公司以软件为主,毫无疑问一定对你有影响,长期影响大得不得了。尤其是如果你是做C端,用户体验的设计一定有影响,你今天就要认真考虑未来怎么办。
- 如果你的公司是自己研发技术,短期有局部和间接影响,它可以帮助你思考技术的设计。长期核心技术的研发也会受影响。今天芯片的设计是大量的工具,以后大模型一定会影响芯片研发。类似的,蛋白质是蛋白质结构设计。不管你做什么,未来的技术它都影响。短期不直接影响,长期可能有重大影响。
- 满足需求能力,满足需求基本就要触达用户,供应链或运维一定受影响。软件的运维可以用GPT帮你做,硬件的供应链未必。长期来看有变革机会,因为上下游结构会变。你要判断你在这个产业的结构会不会变。
- 商业价值的探索、触达用户、融资,这一切它可以帮你思考、迭代。
关于人才和组织
- 首先讲创始人。今天创始人技术能力强,好像很牛、很重要,未来真的不重要。技术ChatGPT以后都能帮你做。你作为创始人,越来越重要、越来越值钱的是愿力和心力。愿力是对于未来的独到的判断和信念,坚持、有强的韧劲。这是未来的创始人越来越重要的核心素养。
- 对初创团队,工具能帮助探索方向,加速想法的迭代、产品的迭代,甚至资源获取。
- 对未来人才的培养,一方面学习工具,思考和探索机会,长期适当时候培养自己的prompt engineer(提示工程师)。
- 最后讲到组织文化建设,要更深入思考,及早做准备,把握时代的机会。尤其是考虑有很多职能已经有副驾驶员,写代码也好,做设计也好,这之间怎么协同