Hammer-7B:轻量化器具调用模子的崛起之星
发布日期:2024-11-03 21:00 点击次数:146在AI技巧的马上发展下,器具调用已成为AI智能体扩充复杂任务不成或缺的中枢才气。它不仅要求模子无意准确识别并调用相宜的函数,还需确保函数输入参数的准确性。面对这一挑战,稠密讨论机构和企业纷纷推出自家的器具调用模子,但大多在特定评测基准上阐扬出色,难以泛化到新器具和新场景。然则,来自OPPO讨论院和上海交通大学的讨论团队却在这一领域获得了冲破性的进展——他们漠视了函数掩码(Function Masking)才略,并据此构建了具备遍及泛化才气的轻量化器具调用系列模子:Hammer。
一、器具调用的重要性与挑战
器具调用是AI智能体已毕自动化贬责复杂任务的要害一环。在智能办公场景中,AI模子不错调用文档剪辑、数据贬责和通讯等器具,高效地完成文档撰写、数据统计和信息换取等多项任务。然则,要已毕这一功能,模子需要具备高度的智能化和活泼性,无意把柄场景变化动态地选拔和调用相宜的器具。
但现时的器具调用模子普遍靠近泛化才气不及的挑战。好多模子在特定评测基准上阐扬出色,但一朝遭逢新的器具或场景,其性能就会大幅下跌。这不仅戒指了模子的期骗范围,也防止了AI技巧的进一步发展。
二、Hammer模子的降生与上风
为了应酬上述挑战,OPPO讨论院和上海交通大学的讨论团队漠视了函数掩码才略,并据此构建了Hammer系列模子。这一才略的中枢是通过哈希化函数称号和参数称号,减少模子对称号的依赖,使模子在扩充器具调用任务时不得不依赖更完备且可靠的功能形色信息。
这一改进不仅进步了模子在各种化定名格调处期骗场景中的踏实性和妥贴性,还显赫增强了模子的泛化才气。本质闭幕显现,Hammer系列模子在多个器具调用评测基准上均阐扬出色,异常是Hammer-7B模子,其概括遵循仅次于GPT-4等闭源大模子,在器具调用模子中概括排行第一。
此外,Hammer模子还具有轻量化的秉性。相较于GPT-4等闭源大模子,Hammer模子的参数范围较小,这使得它更容易在结尾建立上部署和期骗。这关于鼓舞AI技巧在智能办公、智能家居等领域的普通期骗具有重要兴致。
三、Hammer模子的教诲才略与技巧细节
Hammer模子的教诲经由引入了函数掩码技巧和不相干性检测增强数据集。函数掩码技巧通过哈希化函数称号和参数称号,减少模子对称号的依赖,进步模子在各种化定名格调中的期骗踏实性。而不相干性检测增强数据集则匡助模子在给定用户意图而现时无适用函数的情况下,无意正确判断并给出“不相干”信号。
具体来说,讨论团队在教诲经由中使用了无数的增强样本,这些样本包含了多种不同的函数称号和参数组合。通过不停学习和疗养,模子逐渐学会了若何把柄功能形色信息来识别和调用相宜的函数。同期,不相干性检测增强数据集也匡助模子学会了如安在给定用户意图而现时无适用函数的情况下,给出正确的判断。
四、Hammer模子在评测基准上的阐扬
为了考据Hammer模子的性能,讨论团队在多个器具调用评测基准上进行了测试。其中包括Berkeley Function-Calling Leaderboard(BFCL)、API-Bank、Seal-Tools等。本质闭幕显现,Hammer系列模子在这些评测基准上均阐扬出色。
在BFCL榜单上,Hammer-7B模子的总体准确率达到83.92%,接近闭源SOTA模子GPT-4的95.79%,并优于其他器具调用模子。这一闭幕充分展示了Hammer模子在器具调用任务中的准确性和踏实性。同期,在其他评测基准上,Hammer-7B模子的平均F1也达到了76.21%,接近闭源模子GPT-4的78.79%,并大幅起初其他器具调用模子。
五、函数掩码技巧的通用性与优化遵循
为了考据函数掩码技巧的通用性,讨论团队还将其期骗于不同的基础模子,并进行了对比本质。本质选拔了Qwen系列和Deepseek-Coder系列模子当作基准,并在通常的教诲和测试条目下进行了相比。本质闭幕显现,经过函数掩码技巧调优后的Hammer版块显赫进步了基础模子的器具调用准确性。这一闭幕证实了函数掩码技巧对不同模子架构均具有显赫的优化遵循。
同期,讨论团队还测试了不同比例的不相干性数据样本对模子阐扬的影响。本质闭幕标明,合理比例的不相干性增强数据(约占总和据的10%)无意在进步器具调用准确性的同期,显赫增强模子在不相干检测场景中的识别才气。这一发现为进一步优化Hammer模子提供了重要的参考。
六、Hammer模子的期骗出路与瞻望
跟着AI技巧的不停发展,器具调用模子在智能办公、智能家居、自动驾驶等领域的期骗出路越来越广袤。Hammer模子当作轻量化器具调用模子的代表,其遍及的泛化才气和踏实性为这些领域的期骗提供了有劲的复古。
改日,跟着技巧的不停超越和期骗的不停深远,Hammer模子有望在这些领域中证实更大的作用。同期,讨论团队也将链接优化和完善Hammer模子,以进步其性能和期骗范围。