内容提要:是否拥抱OA、确定OA发展路径,可能决定一个国家的未来开放科学传播、未来数字出版格局,然而当前还缺乏对OA研究的有效方法。本文针对当前OA出版中出现的学术质量良莠不齐、APC模式混乱等无监管问题,研究全球OA出版大数据的监测方法,设计全球OA期刊出版监测体系,包括监测指标、监测模型,用来监测OA出版现状、问题并设置监测预警点,为我国OA选择、科技期刊转型、开放科学的发展提供依据。
关 键 词:OA发展路径/OA期刊出版/监测指标/监测模型/方法研究
标题注释:国家社会科学基金项目“全球OA科技期刊出版大数据监测模型研究”(项目编号:18BTQ059)。
作者简介:武虹(1971- ),女,中国科协创新战略研究院高级工程师,硕士,研究方向:网格计算,分布式计算,Portal技术。北京 100000;陈雪飞(1987- ),女,馆员,硕士,中国科学院文献情报中心,研究方向:开放获取,开放期刊评价;王昉(1971- ),女,副研究馆员,硕士,中国科学院文献情报中心,研究方向:开放资源建设与再利用;黄金霞,通讯作者(1972- ),女,研究馆员,博士,中国科学院文献情报中心,中国科学院大学经济管理学院图书情报与档案管理系,研究方向:信息资源建设与信息组织、开放获取与开放资源建设。北京 100190
随着互联网大数据和开放科学时代的来临,科技界与出版领域正面临着前所未有的开放变局。来自OMICS International的数据显示,开放获取(Open Access,简称“OA”)期刊出版市场价值在短短5年时间内(2010—2015年)从1亿美元激增到近5亿美元。世界范围已诞生上千家OA出版社及上万种OA期刊[1],2016年英国的科研论文有一半是发表在复合OA期刊上[2]。欧盟提出了到2020年实现所有学术出版物过渡到完全OA[3],德国马普学会提出的OA 2020倡议[4],2017年已在全世界范围得到广泛响应。OA已成为未来科学传播、主流出版模式的必然趋势,OA发展路径的选择已经提到眼前。如何拥抱OA、确定OA路径,将决定一个国家未来开放科学传播、未来数字出版的格局。
OA在开放获取政策、开放出版、开放仓储等方向快速扩张和繁荣的同时,也引发出一些非良性的发展势头,其中,以OA期刊出版情况最为突出。传统学术出版巨头依靠原有平台优势,迅速布局OA出版并形成规模化OA期刊群,同时,由于操作门槛低和利润可观,大量新兴OA出版商涌入,造成当前OA出版市场“粗放经营、无任何监管”,出现多起“恶劣”事例,例如2013年著名的“博安农”事件[5]。不对OA发展做监管,会影响科研人员对开放交流和知识传播的认同与参与,未来将直接影响到国家开放科学的发展进程。
虽然FOSTER提出了开放科学体系(Open Science Taxonomy),但依然无法成为各国OA之路的路线图,缺乏对OA发展脉络的把握,缺少系统研究OA的理论与方法。中国的OA要发展,也面对同样的问题。有必要充分了解国际OA发展态势,尤其是OA出版态势,通过对全球OA期刊出版市场进行监测与分析,来解决中国在OA实施中面临的关键问题,从OA的“跟随者”转变为“引领者”。
1 OA出版出现的问题
1.1 国际OA出版中存在的普遍问题
OA出版的快速扩张和繁荣,既推动了出版和传播领域的进步,同时也带来了非良性的发展势头,主要表现在出版质量、APC模式、市场扩张这3个方面。
出版质量控制混乱。2013年哈佛大学生物学家博安农博士利用计算机程序编造了数百篇版本略有不同但内容基本相似的论文,以虚构的论文作者和所属机构(均虚构为来自非洲某些国家)投给304种OA期刊,居然有52%的期刊(157种)表示接受,这就是著名的“博安农”事件,引发了学界对OA期刊学术质量的质疑。而权威的开放获取出版商BMC在2015年的撤稿事件,也引发了人们对于OA出版监管和规范的思考。
论文处理费(APC)收费混乱。部分OA出版商营销策略激进,难逃“圈钱”嫌疑。目前,OA出版仍然主要采取“读者免费,作者收费”的运营模式,一些出版商通过制定合理的APC策略来减轻机构和作者的负担,而另一些出版商的市场营销方式和激进态度则难免“敛财性”嫌疑,例如可以花钱“加急出版”,“买二送一”(同时投两篇稿,则其中一篇免出版费),“先免费,在累积声誉后突然宣布收费”等,引发了多方对APC模式的不满。
OA出版的巨大利润吸引了一些国外OA出版社无节制地扩张全世界市场。来自汤森路透的统计数据表明,中国学者仅在2015年就支付7217万美元的SCI论文APC[6],超过美国。2015年一篇关于中国作者巨额出版费流失的博文[7],引起了中国国家领导重视并做出了相关批示。推动OA出版及出版市场的规范发展,在国际范围或国家层面上进行监管,将有效缓解各国科研经费流失问题,平衡科研经费与OA出版的投入产出比矛盾。
1.2 我国OA出版中出现的关键问题
我国的OA发展面临着诸多挑战,包括科研人员对OA期刊质量不易甄别、国外OA期刊“圈钱”现象,以及国内OA出版行业的自身“积弱”,这些问题造成国内OA进程缓慢。
OA期刊良莠不齐,引发我国科研人员对OA期刊质量的信任危机。尤其一些虽然被SCI收录、但学术质量实际不高的OA期刊,极力吸引中国作者投稿,造成大量低质产出和国家科研资源的浪费。OA期刊收费混乱,部分期刊借OA敛财,造成我国有些学者认为OA出版“唯利是图”。
我国OA出版行业起步晚,规模小,准备不足,无力应对我国学者出版需求以及国际出版商进军中国市场而随之带来的对中国社会、经济和科研等方面的冲击,面临着更严峻的转型挑战。近年来我国学者发表的OA论文产出跃升为世界第一大国,但是中国OA出版行业的规模却无法与中国作者OA出版需求相匹配。同时,国际出版巨头正积极布局中国OA出版市场,除了推广自己的OA期刊,他们还竞相与中国本土出版社或研究机构合作出版OA期刊,如自然出版集团、牛津大学出版社、美国光学学会与中科院研究所合作出版的《细胞发现》《动物学报》、Photonics Research等OA期刊,但中国出版行业在合作和竞争时往往处于弱势。如果中国期刊出版继续故步自封或“借船出海”,在未来数字化、全球化和开放化的新型知识环境下,很可能全部沦为国外出版巨头的附庸,甚至消亡。
但OA较低的出版成本、无障碍的传播、无限制的规模等优势,也为中国期刊走入国际行列、实现“弯道超车”提供了契机。目前中国OA出版发展势头不足,急需要监测和跟踪国际OA出版态势,学习和建立OA出版的规范,通过政策引导促进其发展。
1.3 OA出版监测的意义
针对OA出版燎原态势,及当前OA期刊出版市场存在的出版质量参差、高昂APC营销等无监管现象,建立全球OA期刊出版监测体系,将对我国出版市场OA转型和影响力提升提供现状、原因和预测分析数据。
对完善我国学术评价体系、避免科研经费流失具有重要意义。对OA期刊的声誉、质量、影响力、APC策略等方面设置监测点和监测指标并进行分析,可以为完善学术评价体系,引导科研人员合理发表文章提供规范和信息依据。同时,对OA期刊出版中广受关注的APC进行监测,并设立预警点对其异常情况进行报告,可以监督中国科研经费的使用情况。
对中国期刊实现转型升级、跨入国际行列有重要意义。从近期成效看,通过对全球OA出版态势的跟踪和监测,可以帮助我国期刊迅速掌握和移植OA出版的最佳实践,帮助我国OA期刊建立规范、公开、可透明检验的学术标准、质量管理和学术诚信管理,建立规范、公开、高效的出版费价格体系、价格调整机制和出版收支核算,助力我国科技期刊实现业态升级。从长远成效看,把握全球OA出版市场态势,将为我国在全球学术出版领域掌握主动权和话语权,帮助我国科技期刊向OA转型,提升国际影响力,实现“弯道超车”提供契机。
对中国OA、开放科学的发展方式和进程提供参考。基于对全球OA出版市场的监测,为国内出版业尤其是OA出版提供一套规范的、标准化的监测体系,并进行出版现状、不良现象的原因分析,以及对未来态势的预测,为中国针对开放获取、开放科学的政策、机制、利益博弈策略的制定,提供可靠数据支撑、分析服务。
2 OA出版监测现状
2.1 已有的出版监测体系缺乏对OA出版的监测
监测数据是反映行业运行状态的晴雨表,对新闻出版市场运行状态进行跟踪监测,在西方国家已经有近百年历史,以发行稽核与广告市场调查为代表的新闻出版市场监测体系较为成熟[8]。例如以AC尼尔森公司为代表的商业公司建立了一整套新闻出版物广告市场监测指标体系,面向出版物市场提供特色市场调查服务,但是这一类服务调查数据一般是出版物业务流程后期的发行、广告数据,缺乏出版业务流程前期的数据[9]。另外一些研究咨询机构也会发布相关的出版物市场监测的报告,监测指标包括经营分析指标、业务经营指标、财务状况指标等,但对于期刊层面的具体数据缺乏监测,仅适用于态势监测。由于各方对监测体系的规则标准及操作模式的认知差异较大,目前并无统一适用的出版市场监测体系,尤其对于OA期刊出版市场的监测,目前国内外尚未有研究。
2.2 当前已有的OA期刊出版监测方法不够客观和完整
针对OA出版市场环境的良莠不齐,目前国际上已经有对OA期刊出版信息评价的工作,但仍缺乏全面的监测指标以及有效的监测方式。DOAJ平台对全球近万种OA期刊的基本信息、APC、许可等信息进行了登记[10],但是并未覆盖期刊出版的关键业务环节,且监测点数据更新慢,无法实现实时监测。Jeffery Beall建立了全球掠夺性OA出版商和OA期刊名单,评价指标包括期刊编委会是否权威、透明、真实,期刊业务信息与出版政策是否透明和规范,但这些标准依靠人工主观判读,无法作为客观的监测点[11-13]。OPENAIRE在其指南中也提到OA期刊的部分出版数据指标,例如开放获取类型、语言、出版商、封面、受众等[14],但是这些指标偏重对于期刊的描述数据,缺乏对市场数据的监测。STM协会的年度报告对全球OA期刊的出版费、商业模式、发展态势进行分析总结。中国科学院建设的GoOA开放期刊一站式发现平台则通过采集和出版商提供两种手段,对出版商的APC、拒稿率、许可、审稿周期等进行监测和登记[15],但是监测点较少,数据年度更新,无法实时监测。
2.3 大数据分析技术正在推动数字出版、OA出版的态势分析,监测模型设计尤为重要
OA出版打破了访问和传播的障碍,实现了知识在全网的流通,相关出版数据是动态、海量和多来源的,传统的监测手段已经无法适用对OA出版的监测,大数据处理技术则为OA出版的监测提供了解决方案。
目前国际上已经有上千家OA出版社诞生,DOAJ平台数据表明全球已有超过10000多种的完全OA期刊,RoMeo平台登记全球约22000种复合OA期刊的绿色仓储政策情况,全球1.14亿在线英文学术文献中超过2700万标识为OA(占到总量24%)。多来源、不同类型的出版数据可适用于大数据技术[16],包括出版数据、研究数据、全文集合数据(即文本挖掘)、元数据(包括引文)、使用和行为数据、市场数据等。Mendeley已经使用大数据技术(Hadoop和MapReduce)对全文数据库(约4.7亿篇篇)与用户(约350万)之间互动所产生的大量数据进行处理。目前国内外已经发布和在研的一些标准,例如2013年我国颁布第一个出版业数据交换国家标准,即《中国出版物在线信息交换图书产品信息格式规范》(CNONIX)[17],适用于出版业大数据环境,提供了一定的数据监测基础,但是还缺乏标准化的系统规划,从目前的标准分类上来看,大多集中在数据基础管理、采集、接口和存储等方面,缺失针对开放数据集、数据服务平台、数据分析、数据应用等的标准。通过对OA出版大数据的监测与分析,将可能为系统的出版标准建立提供有价值的建议。
数据模型是大数据应用中的“灵魂”,目前出版界、OA领域还没有针对OA出版的数据监测模型,亟待进行研究、解决。文献计量学专家Eric Archambault团队研发的'Science[18],建立了一个情报分析模型对OA论文进行跟踪,监测到经过同行评议的OA论文数量比科学界调研的要多出两倍,但这个分析模型还不足以对OA出版做监测与分析。OA出版涉及的参与方、业务流程、利益流向等较复杂,监测模型将面向不同监测目标进行定制设计。
3 全球OA期刊出版监测方法
基于大数据技术、情报分析技术,以当前最为突出的OA期刊出版问题监测为先,研究设计OA期刊出版监测体系,预期实现对OA出版发展现状、问题的监测,实现面向出版界、资助机构、科研机构的OA出版的实时跟踪、态势分析、不良现象预警等服务。
3.1 监测体系总体框架
全球OA期刊出版大数据监测模型包括两部分,也是其研究重点与难点:
1)构建全球OA科技期刊出版监测指标体系。面向全球12000多种完全OA科技期刊和20000多种复合OA科技期刊,设计5类监测指标的两级体系。包括发布监测指标、内容监测指标、营销监测指标、APC监测指标、影响力监测指标,并从中选择设置监测预警指标。
2)构建基于指标体系的全球OA期刊出版监测关键子模型(见图1)。由3个子模型组成。第一个为智能化指标采集跟踪子模型,设计为通过互动方式采集全球范围的多个OA期刊相关平台、系统、仓储等监测指标数据信息,并智能挖掘、解析出指标内容,汇聚入分析模型。第二个为期刊大数据分析子模型,设计为通过情报分析、大数据挖掘等方法,提供深度分析OA科技期刊出版态势,实现实时统计分析。第三个为监测预警与预测子模型,设计为建立监测现状、不良现象原因、预测等目标的监测分析模型。
图1 全球OA期刊出版大数据监测模型示意图
3.2 全球OA期刊出版监测指标体系设计
面向全球OA期刊发展关键因素和我国OA出版发展需求,依据层次分析法,建立定性和定量相结合、多数值类型的两级指标体系,以实现对全球OA科技期刊出版的分面监测、多场景监测、综合监测、预警监测等不同监测需求。
发布监测指标,监测期刊出版基本面的态势,分别是出版商层面的监测和期刊层面的监测[19]。出版商层面的监测,包括出版商/出版平台变更监测、旗下期刊数量监测、出版商地址及通讯监测、出版商网站易用性监测等。期刊基本面监测,包括期刊出版国别监测、学科分布监测、开放获取年代监测、出版周期监测、拒稿率监测、审稿周期监测、存档监测、文章计量服务的监测等,以及复合OA期刊的OA比率监测。
内容监测指标,监测期刊内容的可获得性、可靠性等。包括对期刊是否在可疑性期刊黑名单、出版商是否在可疑性出版商黑名单、出版商是否是OA Scholarly Publishers Association成员、期刊是否是Committee on Publication Ethics成员、期刊是否是STM协会成员、期刊论文数量增长、内容格式、剽窃检查、期刊出版伦理道德说明、作者指南说明等的监测,以及对编委会信息监测(包括开放评审信息监测、同行评议信息监测、编委会信息监测、主编权威性监测等。)
营销监测指标,监测期刊营销策略和营销方式。包括成员计划、推广国家(是否有办事处)、合作机构、学术社交网络活跃性等方面的监测。
APC监测指标,监测期刊收费的合理性,以及我国科研经费中出版费支出。包括期刊APC计算方式、APC费用、APC策略及政策、期刊作者资助机构、作者支付来源、期刊收入来源及APC占收入比例等的监测。
影响力监测指标,监测期刊学术影响力和声誉。包括期刊的索引收录、SCI影响因子、H5指数、SJR指数、期刊访问量、期刊下载量、期刊引用量等。
3.3 全球OA期刊出版监测关键子模型设计
主要研究设计智能化指标采集跟踪模型、监测预警与预测服务模型、数据检索与分析服务模型这3个关键子模型。3个监测子模型的研究内容及流程示意图见图2。
智能化指标采集跟踪子模型,设计目标是面向其他两个子模型提供对监测点内容和数据的动态跟踪方法。根据监测指标采集的数据对象的不同类型,其主要研究内容包括设计相应的采集配置模板和计划任务,设计非结构化文本的数据、属性类指标以及对复杂指标数据的上下文情景感知的挖掘和提取方法,设计多源监测点的自动跟踪、变化检测和智能采集方法。根据监测指标体系设计需求,全球OA期刊出版监测覆盖的监测源包括OA期刊、出版社、二次文献数据库、第三方统计、评价网站等,超过3万个原始数据来源。监测指标的数据类型包括数值型数据(如期刊数量、下载量、APC定价、OA论文数量、SCI影响因子、H5指数等),文本型描述属性数据(如使用许可、出版周期、出版国家、学科、数据库收录等),描述文字(如成员计划、收费策略、计算方式)等。
期刊大数据分析子模型,设计目标是面向出版市场监管、OA期刊资助等,提供全球OA期刊监测指标数据的挖掘和分析功能,包括全球OA期刊行业规模分析、OA期刊出版质量分析、OA期刊市场营销模式分析、APC策略分析、OA期刊学术影响力分析,以及中国OA期刊出版市场分析、OA期刊出版质量分析、OA期刊市场营销模式分析、中国OA发文及APC支出分析、OA在中国发展进程分析。主要研究内容包括设计大规模异构数据的半自动化的清理和融合方法方案,监测指标分析方法和计算模型,数据的组织、存储、多维呈现等。
图2 全球OA期刊出版大数据监测模型内容及流程示意图
监测预警与预测服务子模型,设计目标是面向出版市场监管、OA期刊资助等提供决策支持,设计面向全球OA期刊及中国OA期刊出版市场现状、OA期刊出版市场不良现象预警和市场趋势等目标的预警和预测分析模型,在监测指标数据及其分析挖掘基础上,提供相应的智能预警和预测服务。主要研究内容包括设计预警规则,建立基于多维空间数据的规律发现和异常预警模型、监测模型和趋势预测模型。
4 亟待理论与方法来研究中国OA之路
当今科技正步入开放科学时代,OA已是大势所趋。OA是各国创新驱动发展的重要手段和战略措施,全球出版领域也认识到OA的不可逆转,采取各种措施积极迎合开放出版。在全球开放大环境下,中国更需要OA。OA不但契合我国的大众创新发展战略,同时中国巨大的科学研究规模和支出也决定了中国将是OA的最大受益者。缺少了创新的“粮食”,大众创业万众创新便举步维艰。在开放浪潮下,中国不能再持观望态度,必须尽快参与到全球开放学术体系的建设当中。
经过20多年的推进,当前欧洲的OA进程发展较快,且收益颇多。如何拥抱OA、走自己的OA道路,需要针对开放获取政策、开放出版、开放仓储等方向开展深入的理论与方法研究,为国家决策提供依据。以当前突出的学术期刊OA出版为例,学术期刊已经运营在OA环境中,正在面临全球出版行业新一轮“洗牌”,固守传统订阅期刊的出版模式和传播机制,必将被开放出版先行的竞争者所抛弃。针对国内OA出版市场的现状与其遇到的挑战,亟须建立对全球OA期刊行业的监测和分析方法,建立数据采集、数据分析的标准和平台,支持对国内OA出版内容和业务的精准管理。目前国内外已有的出版监测系统缺乏对数字出版、OA出版数据的全方位监测,尤其是对OA特征指标缺乏监测,而且,OA出版具有的APC复杂模式、论文随时出版等特性,使得已有监测指标及体系方法明显不足,这也是需要尽快突破的理论与技术难点。
参考文献:
[1]STM Online Services 2016-2020[EB/OL].
https://www.simbainformation.com/STM-Online-Services-10595190/,2018-02-26.
[2]Communicating Knowledge:How and Why UK Researchers Publish and Disseminate Their Findings[EB/OL].https://pdfs.semanticscholar.org/9350/3654ed1462a335c3e72eee14e27d78140ac9.pdf,2018-02-26.
[3]Science Europe[EB/OL].
http://www.scienceeurope.org/wp-content/uploads/2016/10/161012_SE_PR_OA.pdf,2018-02-26.
[4]RSC Read & Publish Agreement for 2017-2018[EB/OL].
https://www.mpdl.mpg.de/en/about-us/news/405-rsc-news-en.html,2018-02-26.
[5]Bohannon J.Who’s Afraid of Peer Review[J].Science,2013,342:60-65.
[6]程维红,任胜利。世界主要国家SCI论文的OA发表费用调查[J].科学通报,2016,61(26):2861-2868.
[7]学术界每年向国外“进贡”数十亿的论文版面费[EB/OL].
http://www.kunlunce.cn/ssjj/guojipinglun/2015-12-19/16630.html,2015-12-26.
[8]吴锋。报纸发行营销导论[M].上海:复旦大学出版社,2004:159
[9]吴锋。关于构建我国新闻出版业市场监测体系的若干思考[J].中国出版,2010,(22):5-9.
[10]Doaj to Remove Approximately 3300 Journals[EB/OL].
https://doajournals.wordpress.com/2016/05/09/doaj-to-remove-approximately-3300-journals/,2018-02-28.
[11]Priyanka Pulla.Predatory Publishers Gain Foothold in Indian Academia’s Upper Echelon[EB/OL].http://www.sciencemag.org/news/2016/12/predatory-publishers-gain-foothold-indian-academia-s-upper-echelon,2018-02-28.
[12]R Prasad.Researchers from National Institutes Publish in Predatory Journals[EB/OL].http://www.thehindu.com/sci-tech/science/Researchers-from-national-institutes-publish-in-predatoryjournals/article16806280.ece,2018-02-28.
[13]Seethapathy G S,Kumar J U S,Hareesha A S.India’s Scientific Publication in Predatory Journals:Need for Regulating Quality of Indian Science and Education[J].Current Science,2016,111(11):1759.
[14]赵蕾霞,朱曼曼。OpenAIRE发布了第二版OpenAIRE指南[J].图书情报工作动态,2013,(1):19-19.
[15]黄金霞,王昉,张建勇。开放资源的组织和再利用[J].图书情报工作,2016,60(17):116-121.
[16]任翔。学术出版的开放变局:2014年欧美开放获取发展评述[J].科技与出版,2015,34(2):18-23.
[17]钱程。基于CNONIX标准的测试用例生成方法研究[D].北京:北方工业大学,2015.
[18]'science[EB/OL].http://www.1science.com/index.html,2018-02-28.