PG电子官网- PG电子试玩- APP下载从爆火的 ChatGPT 讲起:它的前世今生和你想了解的一切
2026-04-10PG电子,PG电子官方网站,PG电子试玩,PG电子APP下载,pg电子游戏,pg电子外挂,pg游戏,pg电子游戏,pg游戏官网,PG模拟器,麻将胡了,pg电子平台,百家乐,捕鱼,电子捕鱼,麻将胡了2
颇有些风水轮流转的感觉,如同年初大火特火的web3一样,AIGC是现在的当红炸子鸡,创业投资讨论里如果不带点 AIGC 就是妥妥的落伍。
不久之前,备受关注的开源 AI 绘画模型 Stable Diuffusion 推出了2.0版,引起了更多关注和焦虑:「我连1.0的门道都还没摸清楚,怎么就2.0了啊?」
有趣的是,作者前面看到一些 AIGC 文章, 基本都是围绕着最近大热的AI绘画来讨论的。
当然了,生成式 AI 绘画模型的突破是一件值得大书特书的事情,在作者上一篇文章《AI 绘画何以突飞猛进?从历史到技术突破,一文读懂火爆的 AI 绘画发展史》里也已经做了深入的探讨。
但是,必须指出的是,当下在 AI 绘画或者 AI 生成其他形式内容的大模型里,对自然语言的理解是一个首要的关键环节,而之所以 AI绘画能火爆出圈,有至少一半的功劳必须归结于,当下最新的 AI 绘画模型可以直接「理解」用户的语言输入,以及在模型内部里把语言内容理解和图像内容理解紧密结合起来。
生成式 AI 就像人工智能皇冠上的一颗明珠,不是唯一的一颗,但绝对璀璨耀。尽管 AI 在信息分析处理等各个方面都发挥着重要作用,但「生成式 AI」的出现无疑影响更深远:生成即创造。生成式 AI 的突破,意味着 AI 开始走向了创造新内容世界的大道。
罗马不是一天建成的,就让我们一起回顾和尝试理解,这激动人心的一切究竟是怎么发生的。
在回顾历史前,首先要跟风提一下几天前发布的 ChatGPT,一个绝对神仙级别的自然语言生成式 AI。
ChatGPT 诞生的重要意义恐怕不亚于 Stable Diffusion 等 AI 绘画生成模型的出现。有兴趣的朋友可以感受去感受一下这个当今最牛逼没有之一的自然语言问答式 AI 的巨大威力。
ChatGPT 是明星人工智能公司 OpenAI 的 GPT 自然语言生成式模型的最新衍生品。在这之前,坊间已经传闻 OpenAI 的下一代自然语言生成模型 GPT4 即将出现。而且,有一个让人震惊的江湖传言:GPT4 据称通过了图灵测试!
图灵测试究竟是什么意思?简单的说,就是隔着一个小黑屋问各种话题,然后是否能分辨小黑屋里回答问题的究竟是机器还是人类。如果无法辨别,就就说明了机器具有和人一样等级的智能,通过了图灵测试。
迄今为止,还没有 AI 模型能真正通过图灵测试。看来临界点已经到,笔者都迫不及待的期待 GPT4 的真正推出了。
顾名思义,ChatGPT就是「聊天 GPT」,以对话的方式交互,用户问问题,它来回答。
咋听起来,似乎也没有很新鲜。但情况是。ChatGPT 的智能化远远超出了那些它的聊天 AI前辈们。
网上有越来越多的文章开始安利 ChatGPT,不过多是拿了外网英文问答的截图,其实 ChatGPT 可以直接上中文!
(要知道, 这可不是某个特地为了中文导航优化的 AI,ChatGPT 是从它通用的知识积累里得到的理解)
对龙珠的剧情理解,回答中规中矩,80 分+,本来作者期望它能讲得更详细些:
美帝问题来一问(看来 ChatGPT 果然经过了特别设置过滤了敏感问题):
而更有想象力的,是让 ChatGPT 来生成 AI 绘画的输入关键词!让 AI 自己来指导 AI 作画,多美妙的主意。
这仅仅是一个开始,随着 ChatGPT 在全网的各种自来水安利,相信还有更多古灵精怪的玩法不断被网友们挖掘出来。
ChatGPT 的回答给人的感觉是,这是一个特别靠谱的聊天 AI,真正的上知天文下知地理,最关键的是,它不胡说八道!正因为它回答的准确性,看起来 ChatGPT 有了替代通用搜索引擎 Google 的可能性。
OpenAI 的 CEO 萨姆・阿尔特曼(SamAltman)对 ChatGPT 的未来发展表示很有信心。他在推特上说,语言接口是未来的一个发展方向,OpenAI 只是一个先行者,相信很快大家就能用上真正智能的提供建议的 AI 助手了。
测试版的 ChatGPT 仍有一些缺点,但这都只是战术级别的;在战略上,ChatGPT 的前景已经相当令人期待,特别是 OpenAI 下一代 GPT4 加持下的 ChatGPT,其能力恐怕更加突破天际。
我们也许正在经历又一个 AI 突破的时刻,一如 2022 年初到年中 AI 绘画的势如破竹。而这次,则是人类通用信息生成的突破!
从某种意义上,语言表达是人类信息和思想交流的窗口。人类并没有第七感,也没有脑电波直达的交流(目前没有:P),信息沟通都通过口头语言和书面语言来传递。
针对语言信息的人工智能处理,或者学术一点,「自然语言处理 NLP」,是科学家们最早研究,人工智能最早发源的领域。
远在 1956 年,美国的达特茅斯学院举行了一次具有传奇色彩的学术会议(DartmouthConference),计算机专家约翰麦卡锡提出了「人工智能」一词。这被广泛认为是人工智能正式诞生的日子。
这个会议很有意思,事后诸葛亮的我们,一起来看看这个会议 7 个特别有前瞻性的主要议题:
「如果一台机器可以完成一项工作,那么就可以对一台自动计算器进行编程来模拟这台机器。目前计算机的速度和内存容量可能不足以模拟人脑的许多高级功能,但主要的障碍不是缺乏机器容量,而是我们无法编写充分利用我们所拥有的机能。」
现代第一台电子计算机 ENIAC 的发明日期是 1946 年 2 月 14 日,也就是说,当时距离第一台电子计算机的诞生仅仅过去了 10 年。先驱们的遗憾是当时高级程序技术还基本没有,无法充分发挥计算机的作用:)
「可以推测,人类思想的很大一部分是根据推理规则和猜想规则来操纵词语的。从这个观点来看,形成泛化就是承认一个新词和一些规则,其中包含这个新词的句子暗示和被其他句子暗示。这个想法从来没有被非常精确地表述过,也没有例子。」
先驱们对语言文字的机器理解充满了预期,而直到现在,有了 GPT 这些当超大规模的自然语言 AI 模型,我们才堪堪敢说,先驱们的期望逐渐在实现,计算机开始线. Neuron Nets 神经网络:
「一组(假设的)神经元如何排列以形成概念。很多当下的计算机科学家等人已经就这个问题做了大量的理论和实验工作。已经获得了部分结果,但这个问题还需要更多的理论工作。」
「如果给一个很好的问题(一个可以机械地测试所提出的答案是否是有效答案的问题),解决它的一种方法是按顺序尝试所有可能的答案。这种方法是有效的,要排除它,必须有一些计算效率的标准。一些考虑将表明,为了获得计算的效率的度量,必须手头有一种测量计算设备复杂性的方法,如果有函数复杂性理论,这反过来也可以做到。香农和麦卡锡已经获得了关于这个问题的一些部分结果。」
「也许真正智能的机器会进行自我改进的活动。已经提出了一些这样做的方案,值得进一步研究。这个问题似乎也可以抽象地研究。」
「许多类型的「抽象」可以被清晰地定义,而其他一些类型则不那么清晰。直接尝试对这些进行分类并描述从感官和其他数据中形成抽象的机器方法似乎是值得的。」
通过机器智能来对各种信息自动加以分类和抽象,这正是当今各种牛逼闪闪的AI大模型正在达成的成就。
「一个相当吸引人但显然是不完整的猜想是,创造性思维和缺乏想象力的有效思维之间的区别在于注入了某种随机性。随机性必须由直觉引导才能有效。换句话说,受过教育的猜测或直觉在其他有序的思维中包括了受控的随机性。」
其实, 当前 AI 绘画生成机制里很好践行了这个洞察:在每一幅 AI 绘画背后都是一个 AI模型(比如 Stable Diffusion)+ 一个确定的输入(一组关键词)+ 一个系统生成的随机数。同样的「关键词组 + 随机数」输入到 AI 模型里,必然生成一个完全相同的 AI 绘画作品。这不就是「受控的随机性」嘛。
克劳德香农(Claude Shannon),通信科学鼻祖,大名鼎鼎的香农定理是所有通信制式最基本的原理。和计算机鼻祖并驾齐驱的香农同学就不需要图灵奖了,因为在通信领域有以他的名字命名的的最高奖香农奖
达特茅斯会议之后,AI 进入了一个大时代,人们惊奇的发现,计算机居然可以证明数学定理,学习使用语言。在众多AI研究方向中,搜索式推理,自然语言处理最有影响力。
而这个时候,明斯基自己回到哈佛任教,申请国防项目却遭到了挫折,让明斯基特别郁闷的是,自己曾服役的海军把经费投给了学弟,支持的却是自己好几年前就玩过的神经网络。数学背景深厚的明斯基拿起数学武器对人工神经网络进行了扎实的理论分析,并在 1969 年出版了《感知机》,通过数学理论推演指出罗森布拉特的感知机功能有限,甚至不能解决线性不可分问题。(如不能用一个直线或者一个直面把二维或者三维坐标系中的两类数据很好的划分。就是线性不可分。)
在 80 年初,一类名为「专家系统」的 AI 程序开始为全世界公司青睐,人工智能研究又迎来一波高潮。
专家系统是一个智能计算机程序系统,其内部含有大量的某个领域专家水平的知识与经验,它能够应用人工智能技术和计算机技术,根据系统中的知识与经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题,简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统。
一句话说,专家系统根据过往的知识经验积累来模拟人类专家从而进行逻辑推理和判断。
专家系统的一个典型项目是专家配置器 XCON(eXpert CONfigurer), 由卡内基梅隆大学为 DEC 公司设计开发。该系统可以说是世界上第一个(特定领域的)推荐引擎,通过几千条规则来对计算机部件的选择进行最优化。从 1980 年投入使用以来,它为 DEC 公司制造 VAX 系列电脑节省了数千万的成本。随着 XCON 的成功被更多企业所了解,专家系统在 80 年代中期迎来了它的繁荣,造就了一个数十亿美金的市场。
答案是肯定的,就在最近,Meta 提出的人工智能 Cicero 成为了 AI 领域的热门新闻,Meta 做出了这个史上最复杂的多人外交策略 AI,和人玩在线版「外交」游戏。 在每场比赛中,Cicero 可以自己查看比赛情况,了解各个玩家的行动历史,模拟真人和不同玩家沟通,从而预测其他玩家的行动。它能自行制定计划,并通过人类语言与其他玩家进行协调执行策略,没有人察觉出它是 AI。
在当年的专家系统开始走向低谷之时, 深度学习的前身人工神经网络却取得了革命性的进展,在1986年戴维鲁梅哈特(David Rumelhart)、杰弗里辛顿(Geoffrey Hinton)等人推广了由保罗韦尔博斯(Paul Werbos)发明的反向传播算法(BP 算法),使得大规模多层神经网络训练终于成为可能。
符号主义可以对形式化表达的问题(比如下棋、数学定理证明)有效,但人类很多的常识,以及接收的很多信息都无法用符号表达,比如视觉听觉等基本感知能力,虽然不像逻辑推理这样高大上,但符号主义至今都没有好的办法处理;而类似想象力、创造力、情感和直觉这些人脑特有的认知能力,目前更是符号主义无法企及的领域。
和符号主义功能模拟这种自上而下的思路相反,神经网络就是彻底的自底向上的结构仿真路线。直接模仿人脑智能的物质基础神经网络,希望通过人工方式构建神经网络,从而产生智能。从罗森布拉特的感知机,一直到当下大众所知道的深度学习网络,这个路线把智能活动看做是大量简单神经单元通过复杂连接和并行运行之后的结果,所以也被世人称为「连接主义(connectionism)」。
2006 年,杰弗里辛顿(Geoffrey Hinton)在 science 期刊上发表了重要的论文,提出深度信念网络(Deep Belief Networks,DBNs),「深度学习】正式诞生,基于人工神经网络的第三次 AI 发展浪潮开始了,且一直延续至今。
除了算力之外,限制前两次 AI 浪潮发展的另一主要因素就是数据的缺乏。在深度学习理论模型提出之后,最早之一意识到了 AI 学科发展的数据钳制并着手去解决的是华人女 AI 科学家李飞飞。年轻的李飞飞以坚韧不拔的大无畏精神推动完成了一个超大规模的开源图片标注数据库,这就是著名的 ImageNet 项目。在 2009 年正式发布时,ImageNet 有超过 1000 万数据,两万多个类别。
大家都知道,「深度学习」顾名思义,就是具有很多层级的神经网络模型。现代神经网络模型的网络结构层数很深,动则几百万上千万参数量。而这些神经网络模型在能做特定任务之前,都是需要经过「训练」的,即根据标注好的特定训练数据去反复调整模型里的参数,最后所有参数调整到位,模型能匹配训练数据集的输入和输出。
人们开始动脑筋了,既然是这样,那么是不是可以先用标准的大数据集比如ImageNet来做深度学习网络的「预训练」呢?反正那么多层的神经网络里,大多数的层级都和特定任务关系不大,我们只需要把通用大数据预训练得到的网络模型结果,再结合任务相关的那点可怜的标注数据去微调(Fine-tuning)高层的网络参数,使得高层参数输出更匹配当前领域的任务,不就 OK 了吗?
首先呢,自然语言处理的研究里,有个基本概念叫做「语言模型】,大致理解起来也简单,就是想办法打造一个核心函数 P,这个函数通过一个句子里前面的所有单词来计算下一个单词的概率大小。一句话里的单词总是顺序出现的,每个单词都可以通过前面所有单词计算出这么一个概率,把所有这些单词的概率乘起来,总概率数值越大,说明这越像是人说出的话。
在 2013 年,AI 研究人员倒腾了一个自然语言处理的处理模型 Word2Vec。顾名思义,「Word2Vec」就是「word to vector,从词到向量」。研究人员的目标是把一个单词变成一个数学向量,这个数学量在 NLP 里有个专门的名词,叫做Word Embedding(词嵌入)。
NNLM 和 Word2Vec 使用了类似的神经网络结构,不过因为目的不同,其训练方法理念是截然不同的。NNLM 作为语言模型,是要看到上文预测下文,所以训练时输入的是句子上文单词;而 Word2Vec 呢?因为它的目标是要找出所有单词之间意义远近的数学关系,所以训练时都使用句子上文和下文作为输入。
采用 WordEmbedding 来初始化 NLP 神经网络有那么点效果,但没有期待的那么好。这里面还有一个逻辑上的原因:一个单词有多义词问题。所以企图在一个数学空间里用一个固定的数学向量来表征一个单词的意义,还要求含义相近的单词都聚在一起。在面对多义词的时候,这在逻辑上显然就是矛盾的。
当然了,聪明的 A 研究人员肯定还是有办法。既然一个单词存在多义性,固定的 WordEmbedding 向量无法表达单词的多个含义,那么是不是可以先训练好一个单词的 WordEmbedding,然后在实际使用中,根据句子里的上下文语义去动态调整这个 WordEmbedding 数值,这样经过调整后的「动态 WordEmbedding」更能准确表达单词在上下文的具体含义,同时自然的,解决了多义词的问题。
再说一次,「预训练」为什么是一个特别重要的概念?这是因为好的「预训练」可以直接利用大量标准通用的的训练数据(图像领域就是图片,NLP 领域就是语料),把深度学习模型调整到了 90% 甚至更高程度的可用状态,预训练好的模型最后通过任务相关的少量训练数据,就能微调至完全胜任各种特定任务,这真是一个很美妙的事情。
因为技术原因,ELMO 模型在抽取文字特征方面还比较弱,这是一个技术上的缺陷,意味着这个模型就无法很好完成 NLP 的「预训练」梦想:特征都抽取不好,怎么让网络里每一层具体表达不同逻辑层级的特征呢...而从技术细节上对比,也会发现 ELMO 这种「预训练」方法和图像领域的预训练方法,两者在模式上还有很大差异。
除了逻辑上看起来更有道理,Self Attention 自注意力机制还附带了一个很大的好处:因为网络层面抛弃了传统的 RNN(循环神经网络)模型,彻底规避了 RNN 不能很好并行计算的困扰,极大提高了模型并行训练计算的效率。更不用说,Self Attention 自注意力机制只关注部分信息,参数较少,容易训练。
上面又提到了 Google BERT 语言模型。这里要插一句,Google 引以为傲的语言大模型 BERT 的架构和 OpenAI GPT 其实非常像,但有一个简单而本质的区别,在训练阶段,Google BERT 输入上文和下文来训练,OpenAI GPT 系列一直坚持只输入上文训练,而结果就是,Google BERT 在体现 AI 分析能力的各种阅读理解等问题上,都表现上佳;而 OpenAI GPT 术业有专攻,在生成式 AI(比如回答各种问题、创造各种文字内容)一骑绝尘。
可能有读者会继续问,有了预训练好的模型版本后,GPT 怎么能以适应各种各样的特定任务(或者专业一点,「下游任务」)呢?GPT 论文里给出了简单的改造施工图,附在这里读者们有点直观感性感知即可。总之通过简单的改造操作,GPT 就能很好适应不同的任务。只需要在输入部分调整一下就可以了,非常方便。
ChatGPT 还有一个很重要的特点,就是针对输出有效性上做了非常好的调整。使用过 ChatGPT 的同学一定能感觉到,ChatGPT 并非每一个问题都能回答详尽,但它绝对没有胡说八道,ChatGPT 的回答和真实世界的情况是相当一致的。做到这点很不容易,也是 ChatGPT 和之前容易乱说一气的问答 AI 模型前辈最大的不同。
另一个和确保回答有效性同样值得关注的改进是,ChatGPT 在道德约束上做得很出色。如果我们去询问一些逾越了道德边界的问题,或者一些特别敏感的问题,ChatGPT 基本都能察觉和回避。这让我们想起了 AI 绘画大模型最让人诟病的地方,那就是通过 AI 生成 18+ 图片,尽管这不是一个技术问题,但对于一个智能内容生成平台,我们显然要有方法管理好内容的质量,以及内容的道德边界。在这一点上,ChatGPT 带了一个好头。
ChatGPT 的试用版在 OpenAI 的 RLHF 论文发出半年之后刚刚推出,根据 OpenAI 研究人员自己的说法,内部经过了大量调优,而且即使当下,ChatGPT 还是有很多需要改进的地方。但无论如何,ChatGPT 已经展示给我们所有人,自然语言生成式 AI 所能达到的全新高度。
如果能耐着性子读到这里,读者应该自然语言的生成式 AI 的前世今生有了一点概念。
不过,在更高的一个角度去畅想,当我们把全世界的文字信息直接灌进拥有数千亿参数的 AI 模型里,模型在网络的各个层级上抽取和记忆这些文字里的特征信息。那么,GPT 这样的超级模型实际上就在通过所谓预训练方式,学习到了人类所有文字信息的全部特征,直接把人类的语言智慧记在了自己几千亿量级的神经网络大脑里。


