为全面系统高质量的掌握ChatGPT相关背景知识,破除对当前碎片化知识的雾化状态,促进对AI工具的高效利用,特整理以下内容,在梳理逻辑框架的同时确保思维紧跟时代逻辑,明确学习路径,提升工作效率。本文完全参考摘取公众号机器之心的付费文章,仅自用。

  1. ChatGPT及OpenAI的大事件时间轴
  2. 真正搞懂ChatGPT(3篇文章)
  3. 研究GPT的家族更迭(16篇文章)
  4. 专家谈ChatGPT(8篇文章)
  5. 行业的应用与探索(23篇文章)

一、ChatGPT及OpenAI的大事件时间轴

2015年

12月由Elon Musk, Sam Altman, Peter Thiel创立。

2018年

2月Elon Musk退出

6月GPT-1推出,《Improving Language Understanding by Generative Pre-Training

2019年

2月GPT-2推出,《Large Language Models are Unsupervised Multitask Learners;

3月Sam Altman出任Open AI CEO,公司转为营利公司;

7月微软投资10亿美元,成为独家云计算服务提供商。

2020年

5月,GPT-3推出《Language Models are Few-Shot Learners》。

2022年

11月底,ChatGPT上线,使用人类反馈强化学习(RLHF)大幅减少模型不真实输出;

12月,用户破百万。

2023年

1月,微软追投10亿美元;

2月月活用户突破1亿(2月4日,谷歌4亿美元投资Anthropic-Open AI前核心成员创立的公司,使用谷歌云计算服务,参与竞争;2月7日发布Brad)

2月8日,微软发布AI加持的Bing,融合了比ChatGPT更强大的Open AI大型语言模型;

3月,OpenAI 发布了最新 GPT-4 语言模型,并应用于最新的Bing搜索;

3月16日,微软宣布将推出Copilot人工智能服务,将其加入到Word、PowerPoint、Excel等Office办公软件中。

(国内外的大型LLM模型:OpenAI-GPT 4;Google-LaMDA PaLM Imagen MusicLM;DeepMind-Gogher Chinchilla;智源-GLM;华为-“盘古”;百度-“文心”;浪潮-“源 1.0”。)

二、真正搞懂ChatGPT

(1)关于ChatGPT

ChatGPT 是 OpenAI 发布的最新语言模型,ChatGPT 能以不同样式、不同目的生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现,在设计上非常注重交互性。OpenAI 使用监督学习强化学习的组合来调优 ChatGPT,使用人类反馈强化学习(RLHF)

(2)机器学习模型的能力和一致性冲突

机器学习是指专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习中,模型的能力是指模型执行特定任务或一组任务的能力,通常通过优化其目标函数(衡量模型能力,例如准确性的函数)的程度来评估。模型的一致性是模型目标和行为在多大程度上符合人类的期望。能力一致性存在冲突,即训练目标(死板的优化目标函数能力)和实际最终目标(模型实际的生活应用)不一致。

(3)原始GPT-3的一致性问题

原始的 GPT-3 就是非一致模型目标函数是词序列上的概率分布,用来预测序列中的下一个单词是什么,基于来自互联网的大量文本数据进行训练,能够生成类似人类的文本,但它们可能并不总是产生符合人类期望的输出,即一致性很差。而人类其实是通过选择最适合给定情境的文本序列来生成语言,并使用已知的背景知识和常识来辅助这一过程。

一致性问题通常表现为:

  • 提供无效帮助:没有遵循用户的明确指示。
  • 内容胡编乱造:虚构不存在或错误事实的模型。
  • 缺乏可解释性:人们很难理解模型是如何得出特定决策或预测的。
  • 内容偏见有害:一个基于有偏见、有害数据训练的语言模型可能会在其输出中出现这种情况,即使它没有明确指示这样做。

(4)一致性问题的来源

训练语言模型的核心技术:

1.Next-token-prediction(按顺序预测下一个词)

模型被给定一个词序列作为输入,并被要求预测序列中的下一个词,语言模型实际上能够评估给定先前序列的每个可能词的可能性。

2. masked-language-modeling(预测句子中间的某个词)

句子中的一些词被替换为特殊 token,模型被要求预测应该插入到 token位置的正确的词。

这些目标函数的优点是,它允许模型学习语言的统计结构,例如常见的词序列和词使用模式。这通常有助于模型生成更自然、更流畅的文本,并且是每个语言模型预训练阶段的重要步骤。但这些训练策略可能会导致语言模型在一些更复杂的任务中出现不一致,因为一个仅被训练来预测文本序列中的下一个词的模型可能不一定会学习其含义的某些更高级表征。

(5)GPT-3对一致性问题的解决方案

使用人类反馈强化学习(RLHF):

  • 有监督的调优:调优预训练的语言模型(GPT-3.5 系列中的),在少量已标注的数据上进行,学习从给定的 prompt 列表输出有监督的策略(即 SFT (supervised fine-tuning)模型);
  • 模拟人类偏好(训练目标函数):人工标注者们对相对大量的 SFT 模型输出进行投票,这就创建了一个由比较数据组成的新数据集。在此数据集上训练新模型,被称为训练回报模型(Reward Model,RM);
  • 近端策略优化(PPO):使用RM 模型用于进一步调优和改进 SFT 模型,所使用的特定算法称为近端策略优化(PPO)。PPO 是一种用于在强化学习中训练 agent 的算法,使用价值函数来估计给定状态或动作的预期回报,可以根据所采取行动的估计价值对策略进行更明智的更新。PPO 模型由 SFT 模型初始化,价值函数由 RM 模型初始化。该模型基于三个标准进行评估:帮助性(判断模型遵循用户指示以及推断指示的能力);真实性(判断模型在封闭领域任务中有产生虚构事实的倾向);无害性(标注者评估模型的输出是否适当、是否包含歧视性内容)。

三、研究GPT的家族更迭

(1)Word Embedding(词嵌入)

对于要被机器学习模型处理的单词,它们需要以某种形式的数字表示,从而在模型中使用这些数字(向量)Word2Vec的思想就是我们可以用一个向量(数字)来表征单词的语义词间的联系(近义、反义、包含等)以及语法联系(时态、人称等),所以出现了word2vec和 Glove这种可供下载的预训练词向量表(每个词都有自己对应的词向量)。

(2)ELMo(Embedding from Language Model)

ELMo使用了 “语言模型” 任务来完成语境的学习,语言模型其实就是给定一个模型一串词,然后让模型预测下一个词。由于模型看到的是前文,看不到后文,因此无法通过全文来判断语境。为了解决这个问题,ELMo 就用双向 LSTM 来获取双向语境,但是Word Embedding词嵌入不应该是不变的,也就是说,不同的句子里同一个词可能有不同的意思,那么词嵌入肯定也该不一样,因此 ELMo 又提出要在看完整个句子的前提下再给定这个词的嵌入,词嵌入的来源不再是过去的查表了,而是通过预训练好的模型来获得,也就是ELMo(Embedding from Language Model)。

(3)Attention

attention 机制里主要有三个向量 – key, query 和 value,其实可以将 Attention 机制看作一种软寻址(Soft Addressing),具体细节专业性太强,暂时不看。

(4)Transformer

self-attention 的引入让 Attention 机制与 CNN、RNN 等网络具有了一样的地位。

(5)BERT & GPT & 其他

  • Transformer-decoder
  • GPT-1用预训练好的模型做下游任务;
  • BERT 选择了 Encoder 给其带来的一个很重要的问题,Encoder 不具备 Decoder 的自回归特性(Auto Regressive),而自回归特性可以让模型有很明确的概率依据;
  • transformer XL让 transformer 回归了 AR 的本性,也让 Transformer 可以处理的序列更长了,但是 AR 模型之所以没有这些缺陷是因为他们没有使用 Masked LM 方法,而 Masked LM 的提出正是为了解决 AR 模型的限制之一——AR 语言模型仅被训练用于编码单向语境(前向或后向),而下游语言理解任务通常需要双向语境信息。XLNet把输入乱序,找到所有的排列组合,并按照这些排列组合进行因式分解。

(6)GPT2&3&4

到了 GPT-2,就开始跨出了创造性的一步——去掉了 fine-tuning 层,再针对不同任务分别进行微调建模,而是不定义这个模型应该做什么任务,模型会自动识别出来需要做什么任务。GPT-3 做到 few-shot 甚至 zero-shot learning,整个英语维基百科(约 600 万个词条)仅占其训练数据的 0.6%。

四、专家谈ChatGPT

(1)AI 与人和环境的协同与交互:多模态学习的新机遇

  • 人工智能的下一个突破会从纯虚拟的存在转到帮助人在物理世界、生物世界和信息世界更高效洞察并形成新知识、完成任务,创造更高价值场景。
  • 下一代人工智能亟需加强知识(包括暗知识)、计算、推理的组合能力。这种组合能力非常重要,但我们认为人工智能与人、环境的高效交互+协同是组合这些能力的核心。目前 AI 在计算方面进展很大,但在知识和推理及模块的有效组合之间还存在很大的瓶颈。将人和环境的协同和交互加进来,能够帮助去弥补 AI 在这些方面的一些瓶颈。
  • 关于多模态我们有三个判断:一,多模态理解与生成是协同和交互的重要基石;二,过去两年间,不同模态之间的表征学习趋于统一,这是一个非常好的基础条件;三,最近大热的 ChatGPT 作为人机协同共创和交互的未来范式雏形,未来必将演变成多模态,将为多模态学习带来新机遇。

(2)剖析ChatGPT

  • ChatGPT 并不是黑科技,是持续开放科研的产物。
  • ChatGPT 是工程、产品的胜利。
  • ChatGPT 不会让人失业,反而会带来更多的机会。
  • Infrastructure 会是这一场仗当中的赢家,但是要聪明地设计Infra。

(3)理工科神器Wolfram|Alpha注入超强计算知识

  • Mathematica 支持几何、数值以及符号式计算,并且具有强大的数学以及科技图形图像的可视化功能,所以 Wolfram Alpha 能够回答多种多样的数学问题,并将答案以清晰美观的图形化方式显示给用户。
  • Wolfram|Alpha 与 ChatGPT 风格迥异,所做之事也大不相同。但二者又有连接点:自然语言。ChatGPT 可以像人类使用 Wolfram|Alpha 一样,与 Wolfram|Alpha “对话”,Wolfram|Alpha 会用其计算知识能力将从 ChatGPT 获得的自然语言转变为精确的符号化计算语言。

(4)人工智能的危机时刻

威胁的核心在于以下三个事实:

  • 从本质上来说,这些系统并不可靠,它会经常在推理和事实上犯错误,并且容易产生离谱的回答。
  • 它们很容易自动化,并且产生大量的错误信息。
  • 它们的运营成本几乎为零,因此它们正在将制造虚假信息的成本降至零。

社会如何应对这种新的威胁?在技术本身无法停止的地方,本文看到了四条道路:

  • 每个社交媒体公司和搜索引擎都应该支持 StackOverflow 的禁令,并且延长其期限;自动生成的具有误导性的内容是注定不会受到待见,而定期发布这些内容会大大减少用户数量。
  • 每个国家都需要重新考虑其应对虚假信息的政策。
  • 来源比以往任何时候都更重要。
  • 需要建立一种新的人工智能来进行对抗。大型语言模型擅长生成错误信息,但不擅长对抗错误信息。这意味着社会需要新的工具。大型语言模型缺乏验证真相的机制;目前需要找到新的方法,将它们与经典的人工智能工具集成,比如数据库、知识网络和推理。

(5)封神榜推出燃灯模型

为赋能中文 AIGC 行业,IDEA-CCNL 封神榜团队宣布公开最新的研究成果,开放首个因果推理生成 API,并开源对应 50 亿参数模型—燃灯,包括演绎推理生成(Randeng-Deduction)与反绎推理生成(Randeng-Abduction), 在部分推理生成任务上其效果甚至可以超过 ChatGPT。

基础推理能力:多步推理

给定具体的一个事实推理前提条件,Randeng-Deduction 模型能够以自然语言的形式迭代地产生该事件可能导致的结果与影响,最终形成庞大的因果推理树。

基础推理能力:演绎 + 反绎推理

将 Randeng-Deduction 模型与 Randeng-Abduction 模型结合,能够同时进行演绎和反绎多步推理,让模型分析导致事件发生的一系列原因以及该事件产生的结果,赋予了语言模型思考因果关系的能力。

基础推理能力:三段论和反事实推理

Randeng-Deduction 模型具备丰富的常识知识,但其强大的推理生成能力并非依赖于对于知识的记忆。采用三段论的形式,Randeng-Deduction 模型既能在正确的事实上进行演绎推理,同时也能运用常识知识进行反事实推理。

高级推理能力:问题制导下的自动推理

利用 Randeng-Deduction 模型的推理能力,加上蒙特卡洛树搜索(MCTS)算法,可以实现问题制导下的自动推理。

高级推理能力:无限推理

借助于 Randeng-Deduction 模型强大的因果推理生成能力,构建自动推理系统,让机器无休止地自主思考和推理。但受限于资源及缺乏对应结果评估和选择模型,ChatGPT 目前还无法做到无限推理。

(6)文本生成研究进展

文本生成的任务和主流的框架

文本生成的任务定义是输入结构化的数据、图片或者文本来生成一段新的自然语言文本。例如输入结构化的数据、输入一张图片,或者输入若干关键词来生成文本。目前的主流生成模型都是基于 Transformer 架构的编码器 – 解码器框架。可控文本生成是指我们希望生成文本不是随意生成的,而是能够把一些要素添加进去,比如情感的要素,关键词的要素,主题的要素和事实的要素。

面向文本生成的预训练模型

GPT ——自回归解码器模型、BART——自编码解码器模型、T5——多任务编码器 – 解码器模型。

  • 基于Transformer神经网络模型,语言特征提取能力强。
  • 自监督学习目标,能够从大量无标注数据学习丰富的语言知识。
  • 多任务、跨语言联合建模,模型通用性强。

文本生成面临的问题很多:常识错误;内容逻辑错误;内容发散;语句重复。

第一是如何来改进文本生成的可控性;

文本生成中的可控方法:

  • 第一种是调整解码策略,使得生成的结果尽可能地包含目标的内容,也就是我们所指定的主题关键词
  • 第二种是调整训练的目标函数,构建面向特定任务的可控训练目标函数
  • 第三种是调整模型输入,通过输入控制元素来影响生成的结果

第二是如何改进事实的正确性;

第三是如何改进文本生成的前后一致性和连贯性;

第四是如何克服重复生成,如何增加多样性。

文本生成中如何融入常识和知识:一种通用的方法是根据文本生成的输入和关键词或要素,来触发相应的知识库条目,并融入到生成模块中,以产生一个更好地体现知识和常识的输出。另一种方法是隐含地融合常识和知识,就是我们把常识 – 结构化的三元组转换成常识的自然语言描述形式,并把这些自然语言的描述形式加入到训练数据中继续训练,GPT 就是这种文本生成模型。我们也可以显式地融合常识和知识,具体流程如下:首先根据上文来预测未来的关键词,从常识和知识库中检索相应的常识和知识条目,把检索结果加入到原有的上文中,并依此得到一个新的输出结果。还有一种方法是根据输入得到一个结果,动态地生成一些参考知识条目,把这些知识条目再融入原输入来得到一个输出。

长文本生成的方法:一种简单的方法就是两阶段生成方法。首先我们做一个 planning 的阶段,生成一些关键词来代表 storyline。把输入和 storyline 都加入到文本生成模块中,作为输入来产生一个更长的句子。这样的过程可以迭代分层,每次产生更多的 storyline,直到产生足够的 storyline,然后再去得到一个文本生成的结果。还有一种方法是基于隐变量的长文本生成方法。一篇自然的文本可以分割为多个连续的语义片段,每个片段围绕一个主话题展开;提出片段级词袋重构目标,使离散隐变量建模每个语义片段中的话题信息;利用话题感知的隐变量序列指导文本生成,使生成的内容与输入更相关且语义片段之间具有语义关联。基于动态规划来做长文本生成。现在的两阶段长文本生成,规划和生成二者是分离的,存在错误累积问题。基于动态规划的方法就是将规划和生成联合在一个模型中,并给定一个文本生成的输入来动态产生一个隐变量(SN),再生成组成下一个句子的单词序列,同时生成代表下一个句子的隐变量,然后持续生成。

澜舟科技AI cognitive.langboat.com

五、行业的应用与探索

(1)搜索引擎

微软在上个月宣布投资 OpenAI,未来几年将向人工智能工具 ChatGPT 的创建者注资 100 亿美元。新必应搜索的其中一种模式将传统搜索结果与 AI 注释并排显示,而另一种模式让用户直接与 AI 聊天机器人对话,你可以在 ChatGPT 一样的聊天界面中向其提问。

新版必应和 Edge 将搜索、浏览和聊天整合为一种统一的体验:

  • 更好的搜索体验:新版必应将会改进用户搜索体验,在一些简单的事情如体育比分、股票价格和天气等,新必应会提供更相关结果,如果你需要,它还会提供一个新的侧栏,显示更全面的答案。
  • 完整的答案:必应会审查从网络上搜索到的结果,从而找到并总结你想要的答案。例如这一问题「如何用鸡蛋代替蛋糕中的另一种成分,」新版必应能够给出详细说明,而无需滚动浏览多个结果。
  • 全新的聊天体验:对于更复杂的搜索,比如计划详细的旅行行程或研究要买什么电视,新版必应提供了新的交互式聊天功能。聊天体验使你能够通过询问更多细节、清晰度和想法来优化搜索,直到获得你正在寻找的完整答案 ,并提供可用链接,以便你可以根据搜索结果采取行动。
  • 激发创造性火花:有时你需要的不仅仅是答案,还需要灵感必应可以通过生成内容来帮助你达到此目的。例如它可以帮助你编写电子邮件、为你期待已久的夏威夷梦幻假期创建 5 天的行程、预订旅行和住宿的链接、准备工作面试等。必应还引用了信息所有来源,你可以看到它引用网络内容的链接。
  • 全新的 Microsoft Edge 体验:Edge 浏览器进行了更新,包括 AI 功能和外观,并添加了两个新功能:聊天和撰写。借助 Edge 侧边栏,你可以得到一份冗长的财务报告摘要,从而获得报告关键要点,之后,你也可以使用聊天功能来获得与竞争公司财务状况的比较,并自动将结果放入表格中。

微软 Prometheus 模型。我们开发了一种使用 OpenAI 模型的专有方法,使我们能够最好地利用它的能力。我们将这种能力和技术的集合称为 Prometheus 模型。这种组合将提供更相关、更及时和更有针对性的结果,同时提高了安全性。

人工智能应用于核心搜索算法。我们还将 AI 模型应用于我们的核心必应搜索排名引擎,从而实现了二十年来相关性的最大跃升。有了这个 AI 模型,即使是基本的搜索查询也更加准确和相关。

(2)撰写稿件

后 AI 文本时代,文章质量将与个人能力逐渐脱钩。ChatGPT 一个很大的优势就是大模型,使得它可以轻而易举地输出横跨多个领域和学科的观点并融会贯通。其模型背后的语料量级和覆盖领域,已经完全超过了个人能够掌握的极限。

我们会先向 ChatGPT 输入需求:阐释基因与亲情的关系,第一次输出的是一篇较平实的文稿,缺乏更深的思辨性。因此我们进一步向 ChatGPT 提出,要强调两个观点:生命是基因的载体以及亲情的利他本能,写得要有深度。模型就会在我们的训练下,优化输出。这样的过程循环往复,直到产出满意稿件。

“其实与人类产出稿件的过程有相似之处,AI 写稿也并非一蹴而就,需要分多步完成。首先要明确需求,对所需要的文稿有初步的观点轮廓,而后从模型中得到输出,再从模型输出中得到灵感,优化模型完善输出,多次往复,从而逐步产出一个比较满意的稿件。需要指出的是,需求方在引导生成过程中,必须始终有一个明确的需求内核,否则可能就会被模型的一些中间生成结果带偏,最终,因需求不明导致稿件形神散落。

金融领域的应用场景

强大的语言理解能力和语意推理能力能够支撑其强大的对话能力,可以帮助智能客服精准地理解用户意图,形成完整的智能问答,从而大幅提升用户体验;而其强大的数据分析能力和学习能力则能够帮助用户识别欺诈检测、帮助金融机构分析市场趋势,研判市场风险等等…… 类似场景不一而足。

(3)引入自动驾驶

ChatGPT 的技术思路和自动驾驶认知决策的思路是不谋而合。

  • 第一个阶段是引入了个别场景的端到端模仿学习,直接拟合人驾行为。
  • 第二个阶段是通过大模型,引入海量正常人驾数据,通过 Prompt 的方式实现认知决策的可控可解释。
  • 第三个阶段就是引入了真实接管数据,在其中尝试使用「人类反馈强化学习(RLHF)」。一般来说,人类司机的每一次接管,都是对自动驾驶策略的一次人为反馈;这个接管数据可以被简单当成一个负样本来使用,就是自动驾驶决策被纠正的一次记录。同时也可以被当作改进认知决策的正样本来学习。

(4)处理Excel问题

需要做的是创建有效提示,从而使得 ChatGPT 可以生成 Excel 公式和宏。我们对一个 Excel 表格有多个问题,这时我们也可以对 ChatGPT 连续提问。

目前OFFICE套件已经支持AI

(5)写邮件、算KPI、做会议纪要、做销售

ChatGPT 可以自动帮你生成会议记录,推荐任务,或者帮你创建会议模板。即使你没有参加会议,「智能回顾」也能生成会议记录和要点笔记、提到的内容和完整的文字记录都是可用的,每个发言者的贡献都会在一个整齐的主题和章节的时间轴上突出显示。如果有同事在会议中提到你,你甚至会得到个性化的时间线标记,以快速查看分享和讨论的内容。

微软推出了 Viva Sales 基于生成式 AI 驱动经验的预览功能,帮助销售人员更有效地与潜在客户和消费者沟通。Viva Sales 现在将为各种场景生成推荐的电子邮件内容,比如回复询问或创建提案,比如提供与收件人具体相关的数据,包括定价、促销和截止日期。在回复电子邮件时,Viva Sales 根据「提出建议」、「回复询问」或「自身建议」等类别,为卖家提供即时的建议回复。

(6)游戏

游戏公司 Cyber Manufacture Co. 发布了最新的 AIGC 技术预览 Quantum Engine,用户可以用自然语言随意与 NPC 互动,AI 会根据用户的表达,实时生成剧情互动,支持英文、中文、日本等多种自然语言的交互。“用户自主上传故事” 的功能,AI 在学习了故事、角色设定后,用户可以自由选择任何角色与其他角色对话,体验全开放式的故事互动。

在游戏上线后,剧情、地图、关卡都可以通过 AIGC 来动态生成,玩家可以享受自己独有的专属剧情和人物,一个游戏实现千人千面,NPC 也不再是简单规则约束的玩偶,可以对玩家行动做出自己的反应,游戏产品的可玩性将大大提升。因此,在 AIGC 加持的游戏体验将得到极大提升,市场规模将挤压其他娱乐形态的空间。

将 AI 划分为了传统的 “分析型 AI” 和 “生成型 AI”前者常常用于内容推荐算法,分析已经存在的东西;后者则用于创造,生成新的东西。AI 绘图、AI 写代码以及上面介绍的 AI 实时生成游戏剧情,都是生存型 AI 的技术结果。

这篇文章认为当下的市场阶段,平台层开始巩固,模型继续变得更好、更快、更便宜,以及模型的使用趋向于免费和开源,应用层的创造力爆发的时机已经成熟,正在孕育一款生成型 AI 的杀手级应用。

(7)金融AI

金融行业是人工智能应用最具潜力和最为活跃的领域之一,一方面是因为近年来金融机构的盈利空间持续压缩,行业同质化竞争严重,通过大数据和 AI 打造创新产品和差异化服务已成为金融机构的重要选择;另一方面,金融业的信息化程度最高,银行等金融机构沉淀了海量的业务数据,率先进行基于金融大数据的智能化转型水到渠成。大家所熟知的交易反欺诈、智能营销、智能信贷、智能客服等已成为各大金融机构标配的数智化能力。

金融数智化解决方案开始呈现出严重的同质化现象:在智能营销领域,“汇集客户在生活消费、网络社交、金融交易等领域的大数据,深度分析客户的真实需求和偏好,并通过系统形成更具个性化的金融产品解决方案”,此类方式已成为行业常规;在渠道服务领域,基于自然语言理解(NLU 和 NLG)的智能客服、智能外呼等系统也被大量金融机构普遍采用,用于解决金融机构的人力成本高企问题;在智能信贷风控领域,“通过利用机器学习模型、图分析等技术实现对公客户的贷前、贷中和贷后等风险识别与预警” 等场景已成为 AI 技术的热门演武场。

金融 AI 技术主要应用于金融机构 IT 总体架构的中台层和渠道层,由 AI 平台、AI 技术、AI 应用以及 AI 安全等几部分组成。中台层属于技术层,一般由科技部门负责,中台服务于算法开发者,用于场景应用模型的开发、测试和部署;渠道层属于应用层,一般由业务部门主导,服务于具体业务,与用户直接产生交互。而 AI 安全在平台层和应用层均有涉及,嵌入于 AI 平台或相关应用。

  • 一是下一代平台侧重于模型运营,关注模型上线后的精准性和有效性,重点发展以数据为中心的模型工作流自动化,解决实时数据分布快速变化等问题。
  • 二是下一代平台更注重领域专用性,正从通用性 AI 平台演化到领域专用 AI 平台,用领域专用平台解决行业长尾业务问题。
  • 三是下一代平台关注数据成本问题,收集大量数据并进行标注的成本太高,有些金融场景因为数据管控问题甚至不愿或不能提供足够的数据,这些问题越来越令科技部门头疼。

金融 AI 应用来看,核心应用场景可归纳为智能营销、智能风控与合规、客服与渠道、安防与身份认证、智能运营以及保险与投研投顾等六大应用领域,基本涵盖金融机构前中后台中的市场营销、产品设计、风控与合规、客户服务、运营管理等。这六大应用主要由数据智能、自然语言处理、计算机视觉、知识图谱和智能语音等五大技术支撑实现,互相之间的支撑关系如下图所示。

数据智能:从点面分析到立体分析,从预测到决策

以信贷风控发展为例来解释这几个的区别,早期的风控方式采集和汇总大量优质客户的信息,形成优质客户共性指标及数据报告,并依据专家规则和人工经验判定客户风险;之后的风控系统基于传统评分卡等统计量化技术,它会筛选出高风险客户并诊断出其特征;当前,以高维模型自动决策为主的风控方式不仅可以分类客户风险等级,还可预测贷款客户什么时候开始有风险并提前预警,该方式属于预测性分析。目前预测性分析占据数据智能领域的主流。下一阶段,数据智能正朝着更立体和更深度两个方向发展。

知其然,更要知其所以然,下一阶段,数据智能应用将走向决策性分析。未来,更高阶的企业智能需要的是自动化的 “决策” 而不仅仅是对未来的 “预测”。以银行信贷业务为例,现有的数据智能水平可以进行客户的风险识别,或者对未来某段时期内的信贷业务收入进行预测,其本质是根据历史数据进行模型拟合;而对于 “银行如何实现信贷业务收入增长和风险降低” 等更高级问题束手无策。决策是企业价值维度更高的领域,决策性分析综合利用因果推断和自动学习技术进行业务分析。

如在银行信贷资料审核和国际贸易结算场景,客户利用 OCR 技术对各类银行单据和证照进行自动识别和录入;在保险产品营销场景,保险公司利用智能双录系统对营销过程进行录音录像,并用语音识别和视频分析技术自动识别或质检影像内容;在银行客服领域,智能外呼、智能客服等解决方案大量利用意图识别、实体抽取和语义比对等 NLP 技术实现客服的无人化和少人化;在内部管理场景,金融机构利用 NLP 技术对合同的文本内容进行识别、抽取、比对和知识管理。在诸如此类 “端到端数字化流程和交互渠道重构” 等场景中,感知智能已广泛地被应用,大幅提升了流程执行和渠道交互的效率,降低了企业成本。

(8)编程和代码Debug

有开发者打造了一款可以在几秒钟内修复并解释问题代码的 Debug 神器 ——Adrenaline。使用 Adrenaline 的前提是,用户必须从 OpenAI 控制台提供自己的 OpenAI API 密钥。

该工具由 OpenAI Codex 提供支持,Codex 是 OpenAI 与 GitHub 联合发布的 AI 代码补全工具 GitHub Copilot 背后的技术支撑。鉴于 Codex 的补全功能是基于 GPT-3 的,所以 Adrenaline 也多了一项特色 Debug 功能:解释 Bug。

如果代码没有引发异常,但可能仍然存在错误,Adrenaline 还可以使用 OpenAI Codex 扫描代码以查找问题并提出修复建议,即有一定的代码审计功能。

VScode 构建了一个 ChatGPT 插件,把 VS Code 和 ChatGPT 结合使用,用户将获得来自 AI 的编程指导,包括代码解释、找 bug 等功能。鉴于 ChatGPT 未面向中国大陆开放服务,因此很多大陆网友无法使用自己的手机号码注册 OpenAI 账号。但作者表示,目前 VSCode ChatGPT 的免登录、免注册、免代理版本已经上线,并在 VSCode 的插件商店提供了更新。开发者只需简单安装即可使用插件,然后可以通过「ChatGPT: 切换国内 / 国外模式命令」将当前模式切换到国内,实现免登录、免注册、免代理。

(9)搜索论文

网站名为 arXiv Xplorer,专门用于对 arXiv 上的论文进行语义搜索。根据项目作者介绍,该网站的内部算法使用了 OpenAI 的最新嵌入模型,可以为用户进行搜索查询,从而找到最相关的论文。借助 arXiv Xplorer,你可以找到所需论文,即使是你的描述非常模糊,甚至只是输入「有趣的 ML 论文」这种没有信息含量的描述,该引擎也能帮你完成。如下所示,输入几个关键字后该网站展示的查询结果。除此以外,你还可以点击上图红框中的小三角,之后界面变成下图所示,显示论文参与者和摘要,下面还有两个功能:「More Like This」将会显示更多相似论文;「View」会链接到论文在 arXiv 的主页。

arXiv Xplorer地址:https://arxivxplorer.com/

(10)做数据分析

这款应用程序名叫 RTutor,通过 API 调用 OpenAI 的 Davinci (ChatGPT 兄弟模型),可以将自然语言翻译为 R 脚本,然后在 Shiny 平台执行,几秒钟内生成 R Markdown 源文件和 HTML 报告。

在本地, RTutor 以 R 包的形式提供服务,帮助用户进行初步分析和可视化,即使没有 R 经验也可以使用。但如果你有 R 经验效果会更好,能够省去将请求转换为 R 的过程,直接通过提供代码作为起点来节省用户时间。

项目地址:https://github.com/gexijin/RTutor
试用地址:http://rtutor.ai/

(11)生成图片

为了让 DALL-2 的生成效果更佳,Eric Zelikman 首先让 ChatGPT 为故事的每一段生成一个插图描述,然后反复要求它重复第一个 / 下一个插图描述。之后,再让它提供一个简短(<70 token)但精确的图像描述,就像向不了解故事上下文的人解释该图像一样。

人们可以借此构建一个互动工具,激发孩子们对写作和艺术的兴趣。有人建议他用 Midjourney(一款 AI 绘画工具)再试一遍,因为后者可以接受非常长的 prompt。

ChatGPT 虽是一个对话式的语言模型,它本身不能生成多模态内容,但我们可以把它看作一个中间模型,比如把 ChatGPT 和 Stable Diffusion 结合使用有网友要求 ChatGPT 生成随机的艺术 prompt,然后把 prompt 作为 Stable Diffusion 的输入,结果生成了一副艺术性很强的画作。

以上。