今天让ChatGPT背了一下《木兰辞》,结果出现了2处错误:
错误一
错误二
这篇《木兰辞》比较长,对于人工智能来说,虽然出现2处错误,但是整体按字数来计算的话正确率达到了96%左右,在现阶段已经是很好的水平了(对于新技术要包容一些,多一些对未来的期待)。
那么,我们来分析一下为什么说这已经是一个很好的表现了。
首先,人工智能主要是使用神经网络技术来进行数据处理的,也就是说,它会把经过编码的文字信息(用嵌入表示的向量)输入到神经网络中,经过数学运算以后得出字库中每个字在该上下文中的正确概率(输出信息是逐字计算的),然后选择概率最大的字作为最终的输出信息。
神经网络示意图
其次,神经网络需要计算的数据量是极其庞大的。作为输入的文字信息,可以是我们所需的任何信息,所以输入信息的具体数量其实是无穷的。在这里我们做一个简化处理,假定我们常用的可以作为输入的信息有1亿个,然后神经网络需要能够计算全部的输入信息(根据用户输入的信息进行计算)。在输出时,假定我们常用的字库中有1万个字,那么神经网络对任意一个输入都会输出1万个数字(分别表示每个字的正确概率)。1亿个输入就会产生1亿乘以1万,也就是1万亿个输出数字(每次运算都会输出1万个),那么,神经网络(经过训练以后)有能力正确的输出上述1万亿个数字以应对各种具体的信息需求吗?
能否让上述的1万亿个输出数字个个都是准确的呢(准确率100%)?答案是否定的,而且在可以预见的未来都不可能做到100%的准确率。这是因为不管神经网络如何设计、如何计算,它最终只能有1套确定的参数。也就是说,每一个输入信息都是经过相同的1套参数进行数学运算的,而这是无法精确到让每个输出数字能够足够准确的。
最终,我们只能通过优化来尽量取得一个较高的准确率,比如该案例中的96%。更深层次来讲,神经网络会尽量侧重于优化常见的信息(是否常见,由训练数据集的数据特性而定)。也就是说,越是常见的信息,神经网络的准确率就是越接近100%。而较生僻的信息,比如《木兰辞》,神经网络的准确率就会较低(当然更生僻的信息会得到更差的结果)。
上述的特点是由神经网络技术本身的局限性导致的,在可以预见的未来都是这样的。所以我们在使用AI时,对于得到的回答是否准确,需要有所评估,不可盲目的全部采纳。
领取专属 10元无门槛券
私享最新 技术干货