研究人员开发了一种防止机器人使用有毒语言的方法

Cleaning up online bots' act – and speech 加州大学圣地亚哥分校的研究人员开发了一种算法，可以消除社交媒体和其他地方的在线机器人生成的攻击性语言。鸣谢:加州大学圣地亚哥分校的研究人员开发了一种算法，可以消除社交媒体和其他地方的在线机器人生成的攻击性语言。聊天机器人使用有毒语言是一个持续的问题。但最著名的例子可能是微软在2016年3月推出的Twitter聊天机器人Tay。在不到24小时的时间里，正在从Twitter上发生的对话中学习的Tay开始重复在机器人上发布的一些最具攻击性的言论，包括种族主义和厌恶女性的言论。

问题是聊天机器人经常被训练在对话中重复对方的陈述。此外，这些机器人接受了大量文本的训练，这些文本通常包含有毒的语言，并且往往带有偏见；某些人群在训练集中有过多的代表，机器人只学习代表该人群的语言。一个例子是一个机器人产生关于一个国家的负面声明，传播偏见，因为它从人们对那个国家有负面看法的训练集中学习。

该论文的第一作者、加州大学圣地亚哥分校计算机科学博士生徐灿文说:“工业界正试图推动语言模型的极限。”“作为研究人员，我们正在全面考虑语言模型的社会影响，并解决相关问题。”

研究人员和行业专业人士已经尝试了几种方法来清理机器人的语音——但都收效甚微。创建一个有毒单词的列表，排除那些单独使用时没有毒性，但与其他单词一起使用时会变得令人不快的单词。试图从训练数据中去除有毒言论既费时又远非万无一失。开发一个识别有毒言论的神经网络也有类似的问题。

相反，加州大学圣地亚哥分校的计算机科学家团队首先向预先训练的语言模型输入有毒提示，让它产生有毒内容。然后，研究人员训练该模型来预测内容有毒的可能性。他们称这是他们的“邪恶模型”然后，他们训练了一个“好模型”，这个模型被教导要避开所有被“坏模型”排名很高的内容。

他们证实了他们的好模型和最先进的方法一样好——消除了多达23%的言语毒性。

他们在2022年3月在线举行的AAAI人工智能会议上展示了他们的工作。

加州大学圣地亚哥分校计算机科学与工程系教授、该论文的高级作者朱利安·麦考利(Julian McAuley)说，研究人员能够开发出这个解决方案，因为他们的工作跨越了广泛的专业知识。

“我们的实验室在算法语言、自然语言处理和算法去偏方面有专长，”他说。"这个问题和我们的解决方案处在所有这些话题的交叉点上."

然而，这种语言模型仍然有缺点。例如，机器人现在回避代表不足的群体的讨论，因为这个话题经常与仇恨言论和有毒内容联系在一起。研究人员计划在未来的工作中关注这个问题。

该论文的合著者之一、计算机科学博士生何泽学说:“我们想制造一种对不同人群更友好的语言模型。”。

计算机科学博士生和论文合著者何占奎说，这项工作在聊天机器人以外的领域也有应用。例如，它还可以用于使推荐系统多样化和无害化。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/15602.html