人工智能(AI)对人类日益增长的重要性和相关性是无可争议的:例如,AI助手和建议越来越多地融入我们的日常生活中。但是,人工智能似乎没有普遍认同的定义。我们的分类方法有助于理解一个结构不断变化的领域。人工智能集群围绕搜索和优化、模糊系统、自然语言处理和知识表示、计算机视觉、机器学习和概率推理、规划和决策以及神经网络等领域。
虽然该领域跨越多个行业,并且可以从不同的角度来看,例如教学,研究,工业和媒体,但这些视角之间的词汇似乎没有什么重叠。工业倾向于强调算法,可能有效地获得时间和人力。人工智能的社会相关性日益增加以及越来越多地使用算法引发的潜在道德问题反映了媒体中应用和道德主题的可见性,这使得AI对公众更加迫切和直观。有趣的是,道德关键词在教学中的代表性也更高,可能是由于公众利益和政府的一些授权,如在荷兰。在人工智能研究中,道德关键词目前尚未明确可见,这就提出了一个问题:人工智能研究人员是否会进行道德分析,这些讨论是否在人工智能领域之外进行,或者是否完全在研究之外进行。这一观察值得注意,因为人工智能中负责任的创新对于确保所有人的安全和公平结果至关重要。
人工智能也成为国家竞争力的一个重要领域。近年来,随着人工智能研究生态系统的不断发展,一些国家和国际上的人工智能政策和策略相继出台。这通过各种传播方式,包括出版物、预印本、会议、竞赛和软件,增加了科学产出。
人工智能活动存在很大的区域差异。中国渴望在全球范围内引领人工智能,并得到雄心勃勃的国家政策的支持。中国人工智能研究人员的净人才增长也表明了一个有吸引力的研究环境。中国的人工智能专注于计算机视觉,没有专门的自然语言处理和知识表示集群,包括语音识别,这可能是因为在中国,这类研究是由企业进行的,它们可能不会发表那么多科学文章。中国的人工智能研究增长快速但仍然相对较低的引用影响,这可能是区域(而非全球)影响的一个症状。这一点也很明显,因为国际合作水平相对较低,研究的流动性也相对较低,产生的人工智能研究语料库相对较小,但被高度引用。与许多其他研究领域一样,合作是成功的关键,这一点在全球社交媒体上的讨论越来越多,国际人工智能竞赛的数量也越来越多。
欧洲在本报告中被定义为欧盟44个国家和有资格获得Horizon 2020资金的相关国家。它是人工智能学术产出的最大区域,在欧洲以外的国际合作水平较高且不断提高,但似乎正在失去学术人工智能,特别是近年来。欧洲广泛的人工智能研究反映了欧洲国家的多样性,每个国家都有自己的议程和专业。欧洲AI研究的重点领域包括用于模式识别,模糊系统以及语音和人脸识别的遗传编程。与其他地区相比,欧洲的深度学习研究似乎与其他子领域的联系较少,欧洲的AI机器人似乎嵌入在机器学习集群中。
美国企业部门吸引人才,并且在人工智能研究方面表现强劲,这可能是由于他们的跨部门联合实验室传统。在学术产出和人才保留方面,美国学术界也很强大。该国似乎在国际人工智能竞赛中处于领先地位,美国研究人员越来越多地在国际人工智能研究方面进行合作。美国的AI专注于特定的算法,并将语音和图像识别分成不同的聚类。该语料库显示的人工智能研究多样性低于欧洲,但高于中国。
在人工智能的其他主要贡献者中,我们注意到印度的迅速崛起,按人工智能出版物计算,印度目前是仅次于中国和美国的第三大国家。伊朗在2017年的出版物产出中排名第九,与法国和加拿大等国持平。去年,俄罗斯的科研产出超过了新加坡和荷兰,但仍落后于土耳其。德国和日本仍然是全球第五大和第六大人工智能研究产出国。
人工智能研究的全球趋势
计算经同行评审的出版物是对研究成果的一种常见且易于理解的衡量标准。本报告旨在全面了解Scopus索引的所有类型的学术输出,即期刊文章、会议论文和其他,如评论或调查论文。以下分析基于Scopus(2018年5月)1998年至2017年60多万份人工智能出版物的精细化语料库。此外,我们还研究了了预印本,会议和竞赛。
目前每年约有6万篇论文发表。在全球范围内,人工智能领域在过去5年里实现了12.9%的强劲增长。文学作品中有许多人工智能的历史时间线,突出了该领域60年历程中的关键事件和发现,包括“人工智能寒冬”,被理解为对该技术的幻灭期。例如,从2005年开始,神经网络的研究开始在视觉和演讲比赛中获胜,到2009年,在一些基准测试中处于主导地位。2014-2015年前后,出现了多篇关于深度学习的优秀综述(调查)论文。
人工智能领域的发展可以看作是分四个阶段发生的,每个阶段五年,新经济和互联网大约在2000年左右出现,同时出现的还有今天的几家企业,比如亚马逊(Amazon)或谷歌。智库欧亚集团(Eurasia Group)和Sinovation Ventures以及李开复确定了人工智能的四个领域:互联网人工智能(推荐系统)、商业人工智能(欺诈检测、财务预测)、感知人工智能(智能设备)和自主人工智能(自动驾驶汽车等新型硬件应用)。
计算机视觉、神经网络和机器学习系统的AI一般能力研究的增长,在共同发生集群的出版物(例如,文章和会议论文)的增长中也是显而易见的,如图3.2所示。这些研究领域似乎解释了2012年之后出版物的急剧增长。从人工智能生态系统开始,我们看到图形处理单元(GPU)的兴起以及2012年ImageNet的推出,这是一个大型的开放式数据库,它可能有助于推动这一发展。
集群出版物数量的历时发展并未显示文章和会议论文之间的巨大差异。虽然“计算机视觉”领域似乎受益于“机器学习和概率推理”和“神经网络”的发展,但“自然语言处理和知识表示”和其他能力受到的影响较小。
在arXiv语料库增长的背景下,12个核心人工智能学科领域的预印本占整个arXiv预印本数量的比例显著增长。1998年,这12个类别总共只占149个预印本,占提交到arXiv存储库的所有预印本的0.62%。1998年至2014年,这一比例逐渐上升,2015年开始大幅上升;2017年,这12个类别的预印本占提交给arXiv的所有预印本的12%以上。
查看12个核心AI主题类别提交的arXiv预印本,我们试图发现提交模式的变化。随着时间的推移,人工智能研究人员是否会根据每个学科类别提交的预印本数量,专注于不同类型的人工智能研究?图3.3描述了随着时间每个类别提交预印本的比例。
对12个核心人工智能主题领域中任意一个的arXiv预印本的分析显示,与这些主题相关的内容显著增长,甚至与arXiv本身的增长相关。2017年,与核心人工智能概念相关的主题领域的预印本占全部arXiv内容的11.6%,到目前为止,占到2018年提交内容的15.1%——与几年前(2015年为5.61%)相比,这是一个巨大的变化。这种增长可能是由于核心人工智能领域的关注、资金和研究的增加,但这也可能表明arXiv作为这些领域重要和可信的研究传播工具的崛起,因为像谷歌DeepMind这样的大型人工智能研究实验室采用了这个平台。
在过去的20年里,研究重点可能已在核心人工智能领域内转移。更传统的是,计算语言学和自然语言处理研究在1998年主导了这些学科领域的arXiv提交(在所有12个类别中提交的149篇论文中有112篇,或75.2%)。虽然该领域仍然是人工智能研究领域的一个因素,但arXiv数据也表明计算机视觉和模式识别领域的显著增长(从1998年核心AI提交的1.3%到2018年的32.7%,以及机器学习也增长明显(1998年为1.3%,2018年为17.8%) - 这些领域都集中在深度学习应用技术。
此外,像arXiv这样的平台似乎通过允许研究人员添加新的和更精确的主题区域名称,来增加具体性,例如,区分机器学习中的统计学和计算机科学研究(始于2007年,2018年为10.8%)或添加主题类别(“计算机科学 - 声音”在2004年增加,“音频和语音处理”和“图像和视频处理”都在2017年添加)。
arXiv预印本和Scopus出版物分析都根据平台研究人员关注的领域,展示了AI领域的发展。虽然像“人工智能”这样更通用的术语在arXiv上的提交率会随着时间的推移而下降,但它们实际上是作为保护伞术语出现的。
人工智能的区域研究趋势——中国的崛起
如图3.4所示,欧洲仍然是人工智能研究的最大贡献者,但其发表份额持续下降。美国正在收复过去五年失去的失地。中国在2004年就已经超过了美国,在不久的将来,中国人工智能的出版产出肯定会超过欧洲。
图3.5显示其他个别国家在人工智能方面表现出强劲的发展。例如,印度在过去五年中成为人工智能研究的第三大国家。其他新兴国家,如伊朗,也是人工智能研究的十大国家之一。像日本这样的成熟研究国家在人工智能出版物产量方面也在增长,但其活力却低于美国或中国。
人工智能在应用领域的成功,如健康科学、移动性或农业,促进了人工智能研究的兴趣和增长。本报告研究人工智能研究领域和集群中区域的专业化,并揭示了欧洲和美国医学中AI应用的重点。
近60%的人工智能研究出版物属于自然科学,其增长速度也最快。其他领域,如农业科学,也表现出强劲增长,但基数较小(约2%)。图3.6显示了中国在农业科学中对人工智能很强的专业性,以及美国对医学和健康科学的关注。欧洲和美国明显强调人文科学,反映出出版物数量非常少,可能会受到语言的影响。
关键词共现的比较说明了每个地区的AI研究是如何专业化的,有助于识别共同的兴趣和差异,例如共享的“模糊系统”群集,但是在“神经网络”一词下不同类型的研究有不同的集群。
由于出版物总量较低,美国的集群结构较薄。与中国和欧洲受业界影响较大的集群“模糊系统”和“计算机视觉”相比,这一领域的差异较小。中国与欧洲和美国最明显的区别是缺乏“自然语言处理和知识表示”集群。这可能是由于中国在该领域的出版量较低,因为该主题的研究可能是由当地公司(其发表的论文少于大学)推动的。在中国出版物中,“神经网络”集群显得非常不同,包括预测模型和反向传播,以及机器人技术。在欧洲和美国,机器人技术是“机器学习和概率推理”集群的一部分。在中国和欧洲,我们针对“模式识别”等主题确定了“遗传规划”和“进化算法”的其他集群。通过分析每年的出版物和每个地区的共现集群,可以获得有关区域专业化的更多详细信息。
中国明显关注“计算机视觉”领域,近期增长非常迅速,并且其“模糊系统”的研究趋于平缓,这推动了中国在头十年的出版增长。 “机器学习和概率推理”以及“搜索和优化”会影响所有子域,但“计算机视觉”尤其受益于这些领域的发展。 2009年的峰值是由于当时工程领域的会议的大力扩张。随着神经网络的兴起,中国似乎从工程领域的研究主题,如“模糊系统”,转向了其他领域。
欧洲和美国显示出类似的集群模式,“规划和决策”和“计算机视觉”领域强烈推动了AI领域。来自欧洲的出版物更多地关注“规划和决策”而不是“计算机视觉”。“神经网络”研究在期刊文章方面迅速增长,但在所有地区的会议论文中则较少,而“自然语言处理和知识表示”的研究表明,各区域的会议论文增长强劲。
除了语言的影响外,中美人工智能研究专业化的差异也可能源于不同的优先级;在中国,我们看到人工智能研究的重点是农业,而美国是健康问题。 “规划和决策制定”适用于自动驾驶系统,强化学习,机器人,人机界面,计算机游戏和电影,物流和移动网络。一个可能的解释可以在欧洲和美国悠久的工业传统中找到。
AI会议一览
重要的人工智能会议,特别是他们对论文的呼吁,给出了当前人工智能研究趋势的早期迹象。图3.11的关键词是从斯坦福AI指数推荐的2018年十大人工智能会议论文征集中手动提取的。对“学习”和“机器学习系统”的关注仍在继续,但我们也看到了对多主题的浓厚兴趣。
如图3.12所示,AI会议环境很复杂:会议在子域之间重叠,核心AI与数据挖掘领域之间有很强的联系。人工智能会议还涉及相关领域,如数学,统计学,脑科学,机器人学,计算机图形学,语言学,认知科学,社会科学,生物信息学,计算机系统或高性能计算。同样,传统的象征性人工智能会议使用“人工智能”一词,而较新的人工智能会议使用机器学习和概率推理等术语,并/或与更独立的应用程序会议相连接。
我们使用数字书目和图书馆计划(DBLP)计算机科学书目网站的数据,深入探讨人工智能会议的历时和区域趋势。
看一下非常狭窄的AI相关会议子集,其中包含142个核心AI关键词,我们看到中国在过去二十年中再次见到会议论文最大幅度的增长。然而,这一增长与该地区同年几年的会议论文总体增长没有显著差异。事实上,对于除美国以外的每个地区,其标题中具有核心AI术语的会议论文的增长率,低于DBLP跟踪的会议论文总体增长率,而美国的差异并不显著(见图3.13)。
如果与AI相关的学术活动数量越来越多,以其标题中具有核心AI关键词的会议论文数量来衡量,则在DBLP审查的数据中并不明显。然而,DBLP数据的多个问题,包括对某些计算机科学主题的不完整报道,使得无法得出明确的结论。为了更好地衡量该领域的研究活动,需要进一步研究以了解DBLP语料库如何反映现实世界的会议研究活动,以及计算机科学的哪些领域在数据库中具有更好的覆盖率。
在中国,企业部门的会议论文占所有出版物的比例较高,而政府部门的比例最低。在欧洲,企业部门在会议论文中所占比例仅略高,政府部门所占比例略低,但与中国相比差异不那么明显。在美国,企业部门的会议论文比例一直较高。政府板块的会议论文占比较高,近年来有所下降。
在这些地区内,我们根据出版物数量和FWCI确定关键机构。这些信息应该放在整个区域产出和引用影响的背景下看待,以便深入了解一个区域的制度结构,即如果一个地区有几个中等规模的人工智能贡献者,那么与那些拥有大型集中研究机构的地区相比,这个地区的排名可能会更低。人工智能出版物产出的主要100个贡献者占全球人工智能语料库的41%(99000vs241000),占全球会议论文的32%(109000vs338000)。中国在前100名中脱颖而出,主要贡献者超过三分之一(37),而美国(19)和欧洲(21)共同占三分之一,其余国家占据最后三分之一。这三个主要地区占全球人工智能出版物贡献者的75%。图3.17显示了每个地区的一些主要贡献者。美国不仅有两个主要的企业贡献者,而且美国微软也是引用影响的杰出贡献者。所有五大贡献者的引用影响都比世界平均水平高三到五倍。欧洲由法国机构主导,其次是英国和西班牙的机构。法国和意大利拥有强大的国家政府研究组织CNRS和CNR。
中国的其他主要贡献者(按人工智能出版物的数量排序)是华中,北航,东北,东南,武汉,西安交通,大连,华南和西电的大学。在美国,以下大学也对全球人工智能研究机构作出了相当大的贡献:南加州,佐治亚理工学院,伊利诺伊州厄巴纳-香槟分校,伯克利分校,哈佛大学,马里兰州,华盛顿,德克萨斯州奥斯汀,密歇根大学,哥伦比亚。在欧洲,我们注意到以下大学是AI出版物的主要贡献者:爱丁堡(英国),Leuven(比利时),Politecnica de Catalunya(西班牙),牛津(英国),伦敦大学学院(英国),Politecnica de Madrid (西班牙),曼彻斯特(英国),慕尼黑技术大学(德国),里斯本(葡萄牙)和代尔夫特(荷兰)。其他地区如新加坡,伊朗,加拿大,台湾,香港,日本和澳大利亚等在前100名中脱颖而出,每个地区都有两个主要的贡献机构。虽然它们不是一个关键区域,但它们可能是重要的参与者。与法国,英国或西班牙等同行相比,德国等其他国家的联邦研究机构可能代表性不足。
人工智能竞赛的特例
与学术界平齐或互补,竞赛是传播人工智能研究的另一个重要舞台,也被用作招聘、培训和协作的工具。为此,我们考察了Kaggle,这是一个主办公共数据和机器学习竞赛的领先平台,也是一个由数据科学家和机器学习专家组成的动态社区。
竞赛奖励的范围从知识到声望,再到经济奖励,因竞赛类别而异。特色竞赛通常有经济奖励,招聘竞赛提供工作,研究竞赛解决复杂问题,并有助于社区内的突破。例如,有一项竞赛是为一种算法而举办的,该算法能够在cern粒子碰撞中识别希格斯玻色子。这些竞赛主要用作教育工具,反映了该领域的协作性质。然而,有经济激励的竞赛在竞赛中确实占了相当大的比例。工作机会占竞赛报酬的1%,通常由硅谷的公司和公司提供。在Kaggle上提供的经济奖励差别很大,像在Kaggle上这样的竞赛,参赛人数不一定与提供的奖金数量相关。高额的经济奖励似乎会导致参与者数量的激增,但许多提供非经济奖励的竞赛比提供工作或经济奖励的竞赛提交的申请更多。
看看按地区上传数据集的组织,显然Kaggle在很大程度上由美国主导,其1,041个数据集中有1,074个由美国境内的组织提供。这些数字并不反映个人上传的数量,因为在上传的9,572个数据集中,只有1,441个是由组织上传的。图3.18分析了Kaggle数据集,并提供了对社区的进一步见解,特别是显示一些下载和查看最多的数据集与竞赛无关,但其足够强大,足以让用户不断为他们的分析做出贡献。
2017年,Kaggle对其用户进行了一项调查,以收集有关社区的信息,并收到了1.6%的Kaggle用户的回复。大多数Kaggle用户在亚洲、美国和欧洲。这三个地区约占用户是70%,在美国超过四分之一。在欧洲,至少有400名来自英国、法国和德国的受访者。这些国家在人工智能领域的主导地位反映在50位顶级用户的分布上,其中10位来自法国,9位来自英国,6位来自德国。亚洲(不包括中国)也占调查受访者的很大比例。印度占受访者总数的16.8%,排名前150位的用户占9.3%。在Kaggle调查中,只有3%的受访者来自中国,前100名用户中只有10名中国公民,其中40%居住在海外。中国用户的缺乏可能与该国网站的相对模糊性有关,其中包括阿里巴巴天池网站,最新活动和天池竞赛页面以及DataCastle等竞争对手的本地网站数量庞大,注册数量为75,208用户。其他受欢迎的比赛由数据基金会,Kesci,中国计算机联合会,Biendata,大数据研究中心,黑客数据,Soda等等举办。这可能表明中国更偏好国内比赛。
AI知识转移
除研究出版物外,研究合作是地区、学科和部门之间学术交流和知识转移的核心要素。合作已成为创新和卓越、跨越边界、学科和社区的基石。低成本旅行、高速互联网连接、移动技术、社交媒体、公众参与和资助计划推动了发展,鼓励学者、社区和政策制定者将其网络扩展到其直接的工作环境和传统的影响范围之外。
人才从一个部门迁移到另一个部门是另一种知识转移方式,特别是在新兴领域。 LinkedIn Talent解决方案最近的一项研究显示了学术界人才流向企业部门。另一方面,《卫报》和《金融时报》指出,学术界正面临着研究人才的更高竞争。
单一作者身份在所有地区都在下降,人工智能研究正在变得更加协作。欧洲和美国在国际上的合作越来越多。对于美国而言,这不仅带来了出版物份额的扩大,也带来了更高的引用影响。相比之下,欧洲的国际合作主要是出版物份额。中国正在减少其机构合作并转向国家和国际合作。它的国际合作带来了比美国和欧洲更大的引用影响。在三个地区的国际合作(图3.21)的直接比较中,我们看到欧洲出版量的强劲增长,以及中国通过国际合作增加数量和引用影响的成功。
超过90%的AI研究由学术部门制作。然而,通过代表两个部门的作者的出版物来分析学术 - 企业合作,在知识转移和创新方面发挥着关键作用。快速研究转移到应用程序是政府和创新计划的关键目标,刺激经济发展和创造就业机会。
在全球所有领域内,学术 - 企业合作获得更高的引用率,这也是每个地区开展的人工智能研究的情况(图3.22)。这种跨部门合作在美国尤为突出,占其产量的近9%,其引用影响超过世界平均水平的三倍。这可以通过强大的美国AI公司来解释,微软和IBM等公司对人工智能的学术产出和影响做出了重大贡献。中国的学术和企业出版物的全球平均份额低于3%,欧洲略高于3%,这两个地区在这些合作中都获得了类似的引文影响。
除了研究合作之外,研究人员的流动性表明了知识交流 - 以及研究人员实际迁移到其他地区。图3.23说明了每个区域的每个移动类的份额。