bwin (www.ad6868.vip):让AI说中文的难度往往被低估了,GPT的「母语」到底是什么?
澳门百家乐网址(www.ad6868.vip)实时更新最新最有效的澳门百家乐网址登录网址、澳门百家乐网址备用网址、澳门百家乐网址最新网址、澳门百家乐网址手机网址、澳门百家乐网址管理网址、澳门百家乐网址会员网址。提供澳门百家乐网址APP下载,澳门百家乐网址APP包含澳门百家乐网址代理登录线路、澳门百家乐网址会员登录线路、澳门百家乐网址信用网开户、澳门百家乐网址现金网开户、澳门百家乐网址会员注册、澳门百家乐网址线上投注等业务。
Google BARD最近向所有用户开放,问题是,出人意外的是,目前还不支援中文。
或许你会想,让AI可以用中文沟通,这件事那么难吗?ChatGPT不就做出来了?Google你家大业大,为什么花了这么多时间却还做不出中文的AI?
没错,这件事还真的有那么难。
- 延伸阅读:Google全面反击战!Bard全面开放,整合旗下各类服务,部份能力超越GPT-4
你不妨想想,每次在跟ChatGPT聊天时,就算你指定他用繁中来回答,有时候我们聊到一半,它会突然冒出简中的回答,甚至把他逼急了,他还会用英文来回答你。再不然有的时候,你问一些比较「在地」的问题,往往会觉得他的回答不怎么「在地」,甚至好像在糊弄你。
有时候,你会觉得,你是在跟一个去中国学过中文的外国人在聊天。
其实,这样的想法,似乎也不算错。
ChatGPT这样的大语言模型,「母语」到底是什么?
要解释这个问题,或许就需要知道ChatGPT到底是怎么「说话」的。这可以从GPT三个字母的全称,Generative Pre-trained Transfomer(生成型预训练变换器)得到答案。
生成型,意思就是依靠上文,预测下文。而预训练变换器,则意味着它使用了 Transfomer 架构,也就是通过模仿人类的「注意力机制」,学习词与词之间的关系,并预测下一个单词。
而对于 ChatGPT 来说,它使用的是一种自回归式的生成模式,也就是模型每生成一个字,都会加入到上文中进行下一次预测,这使得模型的学习能力和精准度都有显著提升。
从结果来看,ChatGPT可以和我们用「语言」进行对话,从原理上看,ChatGPT 是一个可以通过数学运算预测,完成接下句的工作的模型。我们完全可以说,ChatGPT 其实本人并不知道它输出的「答案」背后到底是什么意思,但可以输出从语言角度上来讲正确的答案。
GPT-4的中文挺好的,是怎么做到的?
GPT-4 发布以后,我们可以看到几个例子,比如一本书你自己看花了三天,给GPT-4看,发现它完全可以理解,非常厉害,试用了以后也发现,GPT-4 在中文理解和输出上也已经有了很强的能力了。
那它是怎么做的?
GPT-3 的论文里其实有部分解释 ChatGPT 的「few-shot学习」机制。简单来说,就是举例子。
比如我要让AI翻译「上山打老虎」,我会在输入问题的时候,同时给他几个中译英的例子,像这样:
Promot:上山打老虎
example1:天王盖地虎 ---- sky king gay ground tiger
example2:上阵父子兵 ---- go to battlefield together
然后再让 AI 根据这个上下文进行输出,这个就叫 In-contex learning,是 OpenAI 训练模型的实际方式。真正的原理目前恐怕一时半会儿解释不清楚,但从 GPT-3 的论文标题《Language Models are Few-Shot Learners》我们就能知道结果很明显:好用。
到了 GPT-4,它的多语言理解能力更强了,但这次论文里公开的技术细节很少,而且从某些角度来讲,ChatGPT 能做到的,和大家能解释的内容开始逐渐发生偏差。
- 延伸阅读:搭载 OpenAI GPT-3 ,首款繁中 AI 聊天浏览器「MixerBox ChatAI 」开放测试
那中文不行,影响什么了?
在很多人的测试中,指出中文差,导致语言模型在学习中文表达的时候遇到了很多的困难。但事实上照理来说,有了前面提到的 in-context learning 机制,其实现在的大语言模型在掌握一门新语言的时候,不需要这门语言的庞大语料库了。理论上说,不同语言对于AI来说都是资料,在大算力和深度学习面前,没有什么太大的区别。
道理是这样,但我们可以了解一下 ChatGPT 本身选取语料的办法,根据论文显示,GPT-3 模型用到的 Token(NLP研究对于词语的一个单位)数量高达499B,也就是4990亿个。而 GPT-4 到底用了多少外文语料,OpenAI 目前还没有公开。
▲ GPT-3论文里关于训练集的资料
虽然说名师出高徒,但臭皮匠的数量足够,外加正确的学习方法,还是能出高徒的。
那如果我们用文言文训练呢?
,,区块链百家乐公式(www.ad6868.vip)实时更新最新最有效的区块链百家乐公式登录网址、区块链百家乐公式备用网址、区块链百家乐公式最新网址、区块链百家乐公式手机网址、区块链百家乐公式管理网址、区块链百家乐公式会员网址。提供区块链百家乐公式APP下载,区块链百家乐公式APP包含区块链百家乐公式代理登录线路、区块链百家乐公式会员登录线路、区块链百家乐公式信用网开户、区块链百家乐公式现金网开户、区块链百家乐公式会员注册、区块链百家乐公式线上投注等业务。
在视讯的评论区里很多人提出了这个有趣的问题!还有人说文言文是不是人类最后的堡垒,那我们火星文是不是也有机会……
如果你理解了前面我们对于 ChatGPT 原理和训练过程的介绍,就会知道其实文言文可能对于资料模型来说,只是「要不要练,怎么练」的过程。
如果我们想要一个会说文言文的 AI,可能需要给他喂足够多的文言文语料,这背后带来更多的工作,比如说文献数位化、分类、提取……
人工智慧是个烧钱的生意,或许目前我们还不太需要一个会说文言文的 AI?
谁知道呢。
那如何让AI说好中文?
或许我们可以照猫画虎,通过ChatGPT和BERT的公开资讯,梳理一个工作表——到底需要做什么,才能让AI说好中文。
首先是语料,语料就仿佛是土壤,有好的土壤自然就有好的基础。或许我们需要一些除了维基百科之外的中文语料集来进行训练,同时或许也可以像 OpenAI 一样,先使用英文语料,再教会它翻译。
其次就是训练方式方法,技术路线各家有各家的不同,但具体采用什么样的技术手段,一定会直接影响产品的最终表现。
最后就是钱和时间。时间很简单,谁学说话不得花时间呢,其次就是钱。据估算,GPT-3 训练一次的成本是500万美元,而整体成本更是突破数亿美元。
这些都是白花花的银子。
AI 用英语训练,对多元文化的影响是什么?
这似乎是一个不太被目前所讨论的问题,但正如好莱坞对全球文化的影响,如果人工智慧真的会像一些人预期那样席卷全球,那么这基于英语的训练资料,是否会影响文化的多元性呢?
在 OpenAI 公布的论文里我们可以知道,ChatGPT 在进行 RLHF(基于人工反馈的强化学习)时,寻找了40个承包商(contractor)进行”打标签“(labeling),这些承包商是什么背景的,我们暂时不得而知。
▲ GPT-4 论文显示经过 RLHF 后做题得分有显著增加
又考虑到目前 Transfomer 和神经网路的黑箱特性,这些人工干涉的部分会对最终的模型产生什么影响,实际上是暂时不明确的。但从以往人工智慧的实例来看,偏见普遍存在,而通过参数调整解决这个偏见,还是个难题。
- 延伸阅读:微软宣布Bing Chat聊天机器人已向所有人开放,并将新增聊天记录、第三方外挂等功能
大型语言模型会影响语言本身吗?
网路上有一个笑话:
「有的公司在训练有意识的AI;有的公司在训练无意识的工人。」
现在各种 AI 使用指南“正在如同雨后春笋般冒出来,从实际效果来看,至少可以确定的是,用ChatGPT学习外语绝对是可行的,像是翻译、润色、理解,这些都是大语言模型所擅长的。
但也有人担心了,如果我们过度依赖大语言模型,我们会不会又从训练 AI 的人,变成被 AI 训练的人呢?如果 AI 底层有一些问题,那我们是否会受到影响呢?
结果谁也不敢说,因为AI发展的速度实在是太快了……就好像在人工智慧的牌桌上,在没有摊牌之前,每个人的手里都是一对ACE一样。
至于摊牌之后会怎么样?恐怕只有到时才知道。
Facebook LINE ,
bwin(www.ad6868.vip)实时更新最新最有效的bwin登录网址、bwin备用网址、bwin最新网址、bwin手机网址、bwin管理网址、bwin会员网址。提供bwinAPP下载,bwinAPP包含bwin代理登录线路、bwin会员登录线路、bwin信用网开户、bwin现金网开户、bwin会员注册、bwin线上投注等业务。
网友评论