人类主持人不能仅停止在线仇恨言论。我们需要机器人来帮助

互联网存在仇恨言论问题。

前往任何YouTube评论栏目或拖曳社交媒体仅需很短的时间,您就会发现不乏冒犯性的,经常有偏见的评论。但是您如何解决这个问题?而且,这样做如何避免意外使情况变得更糟?

这个月,两个讨厌讲话的人工智能宣布了一种算法:一种算法是在英国创建的,另一种算法是在美国创建的。有一天,这两种算法都可以用来搜索社交媒体或在线世界的其他区域,并突出显示仇恨言论或令人反感的言论,以便可以对其进行举报,删除,或被阻止。

第一个是由英国埃克塞特大学的研究人员开发的 名为Lola的工具 利用“自然语言处理和行为理论的最新进展”,每分钟扫描成千上万条消息,以发现可恨的内容。 “与市场上现有的解决方案相比,准确性水平非常出色。” 大卫·洛佩兹博士,洛拉(Lola)的一位创作者告诉《数字趋势》

二,工作 南加州大学的研究人员,声称具有类似功能。 “我们开发的算法是一种文本分类器,它接收社交媒体帖子(或可能包含其他文本),并预测该文本是否包含仇恨言论,” 布伦丹·肯尼迪,计算机科学博士学位。该项目的学生告诉《数字趋势》。

这是自动化的工作。有点儿

要了解为什么有必要使用自动化解决方案来解决这一最人为的问题,因此了解社交媒体的庞大规模至关重要。每天平均每秒发送6000条推文。这相当于每分钟350,000条推文,每天5亿条推文或每年2000亿条推文。在Facebook上,每天约有3500万人更新其状态。

即使对于人员配备精良的科技巨头,这些数字也使得人类主持人无法自行进行必要的主持。这样的决定必须非常迅速地做出,不仅要停留在每时每刻生成的新内容之上,而且还必须使大量用户看不到某些消息。设计良好的算法是解决此问题的唯一实用方法。

“每天平均每秒发送6000条推文。这相当于每分钟350,000条推文,每天5亿条推文或每年2000亿条推文。”

使用机器学习,至少在理论上,有可能开发出可以训练以找出仇恨言论或令人反感的言论的工具,以便将其删除或举报。但这并不容易。仇恨言论是一个广泛而充满争议的术语。试图在人类中合法甚至非正式地定义它是困难的。仇恨言论的某些例子可能非常清楚,以至于没有人可以对它们进行辩论。但是其他情况可能更微妙。行为的类型更有可能被归类为“微侵略”。正如美国最高法院大法官波特·斯图尔特(Potter Stewart)关于淫秽的著名说法:“当我看到淫秽物品时就知道。”

“仇恨言论有多种类型 [and] 冒犯性语言”,肯尼迪对《数字趋势》表示。 “有些仇恨言论很容易被标记-例如诽谤。但是大多数仇恨言论的言辞复杂,通过隐喻,特定于文化的刻板印象和“狗哨”来妖魔化和非人性化。”

使问题变得更糟,而不是更好

以前讨厌语音搜寻A.I.这些工具被证明是无效的,因为它们太钝了,无法在线发现更复杂的偏见实例。实际上,事实证明,设计不良的仇恨语音检测算法并不能阻止在线仇恨语音,它通过阻止少数群体发送的无攻击性推文来放大种族偏见。就像仇恨语音分类器对“黑色”,“同性恋”或“跨性别”之类的词过于敏感的事实一样简单,在某些情况下,这些词更可能与仇恨内容相关联。

就像Microsoft臭名昭著的Tay聊天机器人(在与用户互动后了解种族主义行为)一样,在原始社交媒体文本数据上经过训练的分类器在忽略或不了解周围环境的情况下,可能会严重依赖特定单词。

人类主持人不能仅停止在线仇恨言论。我们需要机器人来帮助 1s

两种新的AI可以更好地根据上下文分析在线消息检测系统的承诺。英国的Lola系统声称能够每分钟分析25,000条消息,以检测高达98%的准确性的有害行为,包括网络欺凌,仇恨和仇视伊斯兰的行为。部分原因不仅在于关键字,还在于使用“情感检测引擎”来计算文本中引起的情感-无论是爱情,愤怒,恐惧,信任还是其他。

同时,南加州大学检测系统承诺将查看上下文以及内容。

“我们在这项研究中的起点是一种标准方法,该方法将文本标记序列编码为数字矢量, [then] 布兰登说:“过去习惯于概率地输出“恨”或“不恨”的阶级标签。 “使用团队成员开发的’事后解释’算法,我们对仇恨语音分类器进行了编程,以使其对组标识符的重视程度降低,而对围绕组标识符的上下文的重视程度更高。”

通过分析白人至上主义者网站Stormfront和《纽约时报》更为中立的报道,对该系统进行了测试。它的创造者声称,它能够以90%的准确度对非仇恨内容中的仇恨进行分类。

两条战线的战争

但是,不仅有独立的研究人员正在开发检测仇恨言论的工具。社交网络也在努力解决这个问题。

“我们现在去除了1000万片 仇恨言论 一个季度,” Facebook社区诚信组织产品管理总监Amit Bhattacharyya告诉Digital Trends。 “其中大约有90%是在用户向我们报告之前被检测到的。我们已经在主动检测潜在的违法内容(包括仇恨言论)方面投入了更多资金,并且在这一方面做得更好。”

Bhattacharyya解释说,Facebook的检测技术专注于诸如文本和图像匹配之类的事情,在该技术中,它查找图像和相同的字符串,这些文本已被删除,作为平台上其他地方的仇恨言论。它还使用机器学习分类器来分析语言和其他内容类型。 Facebook还具有其他数据点,因为它可以查看帖子的反应和评论,以查看它们与以前在违反其仇恨言论政策的内容中看到的常见短语,样式和攻击的匹配程度如何。

“打击网络上的虐待行为并不一定是被动的。它也可以是主动的。”

Twitter还使用机器学习工具来打击可恨的内容。其中一些是基于关键字的,但Twitter还分析了用户行为,以尝试确定用户在交互中的舒适程度。例如,向另一个用户发推文并得到回复然后跟随的用户将被视为与重复向另一个人直接发推但被忽略或阻止的用户不同。这些行为动态可以帮助揭示骚扰或有害的有针对性的行为,然后Twitter可以使用这些行为来更好地了解其平台上正在发生的事情的内容。

但是,Twitter发言人告诉《数字趋势》,被标记为令人反感的邮件由人工(以机器优先顺序)进行人工审核,以确定已被正确识别。

持续的挑战

Facebook的Bhattacharyya说,多年来,该社交网络在遏制其平台上的仇恨言论方面取得了“巨大进步”,并且其团队为所取得的成就感到自豪。同时,Bhattacharyya说:“我们的工作永远不会完成,我们知道我们永远无法阻止所有可恨的内容出现在我们的平台上。”

令人沮丧的现实是,网上仇恨言论可能永远不会解决。至少,并非没有人做出改变。互联网可能会损害某些人类的声音,并嵌入和编纂特定的人类偏见,但这是因为它只是人类写的大字。现实世界中存在的任何问题在一定程度上都会进入在线世界。

特朗普与Facebook和Twitter徽标风格化的图像

就是说,打击网络上的虐待行为不一定是被动的。它也可以是主动的。例如,与Digital Trends交谈的Twitter发言人指出,在因违反规则而被禁止了12个小时的帐户的用户中,大多数确实再次冒犯了用户。这表明可以发生可教导的时刻。无论他们是真实地提示用户重新检查其行为,还是只是以破坏规则的方式停止用户的行为,都可以减少平台上令人不安的违反规则的行为。

该发言人还表示,Twitter现在正在探索一种基于“微动”的系统。这将在用户发推文之前提供提示,提醒他们要发布的内容可能违反Twitter的规则。这可能是由于特定的关键字。共享您尚未通过Twitter打开的文章时,它可能还会发出警告。该微调系统最近已在少数用户中进行了测试。尽管试验现已结束,但将来有可能将其作为一项功能推出给所有用户。

互联网话语的未来

社交媒体上的仇恨言论和其他令人反感的言论只会变得更加紧迫。例如,法国在5月通过了一项法律,要求在一小时内从社交媒体中删除某些犯罪内容。如果不是这样,所涉及的社交媒体公司将面临高达其全球收入4%的罚款。其他“明显是非法”的内容必须在24小时内删除。司法部长妮可·贝卢贝(Nicole Belloubet)告诉法国议会,该法律将有助于减少网上仇恨言论。

据我们所知,在美国还没有认真提出过这样的法律。但是,随着社交媒体成为我们交流方式中越来越重要的一部分,打击有毒行为将变得越来越重要。这不是人类主持人可以完全解决的问题。但是,在使用人工智能进行测试时,也必须谨慎行事-不仅要确保使问题变得更好,而且要保证它不会使问题变得更糟。

互联网上话语的未来取决于它。