思想领导

解读LLM幻觉:EDA应用的洞察力和驯服它们

于丹

在一个早期的博客我解释说,LLM的学习速度比人类快得多,在验证方面有很多可能的应用。两个月后,ChatGPT的最新版本以优异的成绩通过了许多更难的考试。这激发了许多人在包括EDA在内的更多领域应用法学硕士的兴趣。然而,不久的将来可能不会像我们想象的那么美好。

法学硕士最大的弱点之一是幻觉,例如两位律师他直接从ChatGPT上复制了虚构的假案例,没有经过事实核查,还因为一个不存在贪污投诉由ChatGPT生成。

法学硕士仍然需要时间来取代EDA工程师。幻觉和许多内在的限制将把他们牢牢地放在助理的位置上,直到法学硕士的工作方式发生根本性的变化。

普遍近似定理及其启示

为了更好地理解法学硕士是如何工作的,我们必须追溯到通用机器学习的工作机制。在基于规则的系统中,知识由领域专家学习,总结为明确且可解释的规则,然后由程序员编码为可执行的算法。这与以数据为中心的系统形成鲜明对比。与图中有监督的机器学习系统一样,它们利用训练数据的内在结构,从训练数据中隐式学习规则,并自动建立模型来近似目标函数。

普遍逼近定理证明了人工神经网络可以在一定范围内以任意精度逼近任意连续函数的行为。递归神经网络(RNN)的证明是由西门子的朋友Anton Maximilian Schäfer等人在2006年提出的[1]。开云体育平台登录UA定理有多重含义:

  • 人工神经网络只能近似一个给定的函数:除了一些非常特殊的情况,大多数人工神经网络只能是它们各自目标函数的足够好的TM近似值。
  • 它只能在给定的输入中这样做范围目前还不清楚超出范围的情况将如何处理。
  • 目标函数应为连续:在大多数情况下,我们甚至不知道目标函数是否是连续的,我们可能只从问题空间中获得非常有限的样本。

UA对法学硕士的启示

上面列出的影响是否适用于法学硕士?答案也是肯定的。变压器(一种特殊的ANN架构,作为所有llm的基础)的证明在一篇名为“变压器是序列到序列函数的通用逼近器吗?”[2]用法学硕士来解决EDA问题意味着什么?

法学硕士的答案只能被视为一个近似。根据模型性能的不同,不能将其视为准确或最优的答案。尤其是当所使用的训练数据本质上是不准确的,或者不太理想的,比如用于训练这些法学硕士的刮取或众包数据。它可能适用于一些自然语言问题,但当高度重视精确度和严谨性时,这种行为是不可取的。正如法学硕士仍然会犯语法错误一样,他们在解决EDA问题时往往会犯更多的错误。

对于任何答案超出范围对于法学硕士的训练数据,其结果将是不可预测的。在训练样本密集且模型训练良好的情况下,结果可能是合理的-但不能保证。上一篇博客中关于Verilog中5色交通控制器设计的故事只是许多例子中的一个,一些法学硕士可能会对一些超出范围的提示给出奇怪和意想不到的答案。

大多数现实世界的问题空间都很有可能不连续。许多ML模型都能很好地解决各自的问题,因为可以容忍低质量的答案,或者问题空间几乎是连续的。然而,对于自然语言或编程语言来说,情况并非如此。大多数自然语言都是高度不规则和模棱两可的。对于自然语言,看看英语动词的不规则变化形式。虽然编程语言可能具有定义良好的简单语法,但其实现的复杂性仍然是高度不连续的。例如,我们可以用两个赋值语句初始化两个变量,但我们很少为100个变量初始化。

EDA法学硕士的幻觉

分析UA的含义将帮助我们更好地理解llm的限制,从而帮助我们更好地在EDA中应用它们。

产生幻觉是因为EDA中的数据是稀疏的。截至2022年年中,我们的调查显示,在GitHub、RISC-V和OpenCores上托管的4万个HDL项目中,大约有1000万行代码和文档,无论其许可证如何。但与其他流行的编程语言相比,如JavaScript、Java和Python,其项目规模分别为680万、570万和350万[3]。由于样本稀疏,这些llm在HDL上的性能预计不如大多数流行的编程语言理想。这在一定程度上是可以补救的,因为许多编程语言可能共享从自然语言或其他编程语言中学到的类似概念。

由于(缺乏)数据质量而产生幻觉。高质量的数据不容易获得。尽管可以获得开源数据,但大多数大规模和最高质量的数据仍然被限制在各自的孤岛中。他们可能永远无法培养一个通用的法学硕士。我们谨慎乐观地认为,随着时间的推移,当社区和慷慨的贡献者提供越来越多的高质量设计时,情况可能会有所改善。RISC-V的兴起可能会进一步催化和加速这一开放进程。

当任务超出范围时产生幻觉。法学硕士对一些不存在的人和他们的出版物的矫情回答可能会让毫无准备的用户感到惊讶。当问题超出了用于训练的数据集范围时,就会发生这种情况。这可以通过将答案与数据集中的实际数据相结合来纠正。经过训练的模型会对真实参考的答案给出更高的排名,而不是那些自命不凡的答案。ChatGPT模型的最新更新尝试提供带有真实链接的引用。其中许多参考文献可能与问题不太相关,但至少它们确实存在。

法学硕士学位不适合就会产生幻觉。据估计,GPT-3的培训将花费数百万美元。虽然从未披露过,但GPT-4的培训费用将达到数千万美元。法学硕士的培训过去非常昂贵,据报道,许多法学硕士都没有得到充分的培训。在新一代gpu和llm专用加速器的帮助下,这种情况正在迅速改变。像LoRA这样的调优技术的出现也使得以更实惠的成本调优模型成为可能。新模型有望得到更好的训练,比以前的模型更适合数据。

前景

虽然幻觉是为生成式机器学习模型创造的一个新术语,但它与其他人工神经网络模型有许多共同的特征。由于UA定理的含义,如果法学硕士仍然基于神经网络模型,那么幻觉将永远不会从法学硕士中完全消除。我们将不得不忍受幻觉,并找到创造性的方法来减轻它对应用程序的不良影响。

除了上面讨论的对策之外,法学硕士生成的结果仍然必须由其用户和/或经过验证的方法仔细检查和验证。必须施加各种控制机制以最大限度地提高llm所带来的生产力,以满足EDA中更高的精度和严密性要求。

Questa验证产品所倡导的数据驱动的验证方法,帮助我们的用户专注于从整个验证周期中收集验证数据,并从数据中提取价值。开云体育KENO快乐彩一旦有了许多高质量的数据,一个训练有素的法学硕士将被证明是更强大的,更少的倾向于产生幻觉。

如果说历史教会了我们什么的话,那就是革命事件的短期影响往往被高估,而其长期影响往往被低估。法学硕士的发明似乎就是这样一件大事。在西门开云体育平台登录子,我们仍然坚信为用户带来价值,法学硕士将成为提高生产力的宝贵助手。与此同时,西门子严格的验证技术将小心翼翼地保护它们的缺陷。开云体育平台登录


[1]安东·马克西米利安Schäfer,汉斯·乔治·齐默尔曼。“循环神经网络是通用逼近器。”人工神经网络- icann 2006:第16届国际会议,雅典,希腊,2006年9月10-14日。论文集,第1部分。施普林格,柏林,海德堡,2006。

[2]刘建军,刘建军,刘建军。变压器是序列到序列函数的通用逼近器吗?arXiv预印本arXiv:1912.10077(2019).

[3]于丹,Harry Foster, Siemen开云体育平台登录s EDA;汤姆•菲茨帕特里克。机器学习在功能验证中的应用综述DVCon 2023

留言回复

本文最初发表于西门子数字工业软件博客https://blogs.sw.开云体育平台登录siemens.com/veri开云体育官方下载fic开云体育官网入口ationhorizons/2023/06/15/decoding-llm-hallucinations/
Baidu
map