人工智能 | 美国和中国研究领域之间的隔阂有多严重!!?

科技热点
315
0
0
2023-01-07
标签   人工智能

引言

美国和中国研究领域之间的隔阂有多严重?今天给大家分享的这篇文章,通过对NeurIPS的引文数据进行分析发现,欧美研究机构也很少引用了中国的研究成果,而中国也很少引用欧美的研究成果,进而探寻讨论中国研究人员和美国研究人员之间的差异。

背景介绍

近年来,随着中国人工智能研究的发展,机器学习研究领域发生了翻天覆地的变化。就 NeurIPS 论文的总发表量而言,中国现在一直是仅次于美国的第二多的国家。2020 年,中文在NeurIPS接受论文占所有接受论文的13.6%,次年增长到了17.5%,相对上一年增加了 28.7% 。

尽管中国是人工智能研究强国,但中国和美国机构之间的合作却比美国和西欧机构之间的合作更少。「参加机器学习会议的研究人员会形成了不同的群体,其中中国研究人员经常不会选择欧洲、北美研究人员群体进行交谈吃饭。这种鸿沟不仅限于社交互动」。一位机器学习研究领域的著名非华裔教授在Twitter上指出,不建议学生听中国作者的演讲,他认为这些演讲晦涩难懂且质量低劣。但是对于许多母语非英语的人发现用英语公开演讲是一种挑战,但回避中国研究人员的演讲可能会限制与会者接触新话题和新想法的机会。

研究方法

美国和中国研究领域之间的隔阂有多严重?为了定量地衡量该现象,本文将引文数据与按地区标记的机构进行了比较。将从Semantic Scholar上获得的NeurIPS论文的引用数据与从AMiner上获得的作者的机构信息结合起来,编制了一个引用图。具体分析方法如下:

首先从NeurIPS网站上收集了NeurIPS2012-2021年的所有论文标题,共计9460篇文章,这里对于每一篇论文,都采用使用S2AG API来识别作者,以及参考文献中的论文作者。

然后,使用AMiner识别每个作者的机构信息。这9460篇NeurIPS论文共有135,941位作者,其中我们发现机构有83,515家(61%)。在AMiner上有4038篇没有作者的论文,所以将它们从数据中删除了。接着自动标记了包含国家名称的学院,以及中国常见的城市和地区。最后,删除了主要的跨国公司实验室(例如谷歌、Meta、微软、腾讯、阿里巴巴或华为),因为它们通常不包括作者在当地办公室的信息。在剩下的5422篇论文中,我们删除了不在特定地区(中国、美国、欧洲)或包括多个地区合作者的论文,剩下1792篇。然后我们计算了每个地区论文的平均引用数量和比例,如下图所示:

img

结果分析

根据上图可以发现,美国和中国的论文在多大程度上没有引用对方的文章。虽然美国论文占了数据集的60%,占了中文引用的34%;但是美国对中国论文的引用却显得比较夸张,中国论文占数据集的34%,但只占美国引用的9%。当我们将这些数据与美国对欧洲论文的引用进行比较时,这种差距就很明显了:尽管NeurIPS论文数据集的中国论文数量是欧洲论文的六倍,但美国机构引用中国论文的频率低于欧洲论文的引用频率。

通过观察还可以发现,每个地区自引用的频率往往高于其它引用:中国为21%,美国为41%,欧洲为14%。然而,美国和中国研究界之间的差异比猜想的地区偏向更加明显。美国和欧洲研究界之间相互引用的比例差不多,但它们都很少引用中国论文,同时中国机构引用美国和欧洲论文的频率比其它地区都要低。

局限性

上述分析,其实也有一些我们没有考虑到的因素。

首先,尽管认为美国任何大学的工作都是美国的,但美国的实验室可能仍然与中国有密切联系,这可能导致我们低估了美国和中国人工智能研究之间的联系。例如,美国有些实验室大部分或全部由中国留学生组成。同样,回到祖国的中国留学生可能会给他们的母校和其他机构带来国际关系。我们还没有衡量这些毕业生在多大程度上改变了他们的引用模式。对于国内论文,也没有衡量它们是否继续广泛引用美国论文。此外,我们对跨国公司实验室的筛选可能不完整。如果这些行业作者包括在美国和中国都设有办事处的公司,他们可能会影响我们结论的可靠性。

还有一个影响我们结论可信度的限制因素:因为作者没有在AMiner中而被排除在外的论文。由于缺少作者信息,我们丢弃了43%的论文,这个排除集很可能是一个有偏见的样本。

最终结果

虽然美国和中国的研究人员在同样的地方发表论文,但他们代表着两个群体,各自的工作成果也对另一方的影响有限。「在某种程度上,这种差异可以归因于对不同主题的兴趣,因为文化规范决定了研究重点」。例如,多目标跟踪在中国是一个活跃的研究领域,有大规模的基准,如Wang等人,在每个视频中提供单个人的注释。然而,在北美,关于生物特征数据滥用的批评导致研究人员回避相关任务和数据集。同样,在FACCT等公平会议上,美国往往有大量代表,而来自中国的代表仍然有限。

然而,即使是在中国流行的主题摘要或体系架构也可能无法在其他地区流行起来。PCANet是一个来自新加坡研究实验室的图像分类体系结构,有1200条引用,其中大部分来自中国或东亚机构。由南京大学开发的《Deep Forests》获得了600多条引用,其中大部分是中文。

由于地区间缺乏交流而受到限制的不仅仅是研究课题。近年来,北美和欧洲的人工智能社区已经开始参与有关人工智能伦理道德的发表研究。然而,中国的研究人员对于该研究课题的接触就很少。尽管美国和中国研究人员的伦理声明有这些相似之处,但在研究实践中仍然存在具体的分歧。例如,杜克大学(Duke University)停止提供DukeMTMC数据集,用于研究跨多台相机的物体跟踪,因为研究人员没有获得他们收集图像的学生的同意。然而,类似的数据集,如来自清华大学的Market-1501仍然被广泛使用。此外,中国的研究人员在杜克大学的数据集被移除后仍在继续使用。我们不知道美国研究人员是否能说服这些作者,让他们相信这些数据集的伦理风险,因为他们没能让中国作者参与到这些对话中来。「这两个群体之间的分离对个体研究人员、整个机器学习群体以及受人工智能研究影响的潜在社会都有实际影响」

论文

Paper:https://arxiv.org/pdf/2211.12424.pdf