对科技成果进行科学、客观、定量的评价是科研管理工作的一项重要内容,对于确定科研团队的学术水平、激发科研人员的积极性、规划科研方向意义重大。科技论文 是基础研究成果的主要表现形式,而科学引文数据库的建立则为科技论文的评价奠定了良好的数据基础。近日,我校bat365中文官方网站复杂系统研究团队在科学引文数据 的基础上,考虑论文重要性的非线性效应,建立了新的科研论文评价方法,研究成果:Ranking scientific publications: the effect of nonlinearity于10月17日发表于英国Nature出版集团旗下期刊Scientific Reports.
目前基于科学引文数据库的论文排序算法主要有两类,分别依据局域信息和全局信息,被引次数和PageRank是其中的典型算法。基于被引次数的评价简单且 运用广泛。一般来说,被引次数越高,意味着文章的重要性越高,但它仅仅考虑了论文的一阶引用关系。著名的H指数是基于论文被引频次,综合考虑所发论文的数 量和质量而作为评价科学家影响力的重要指标。PageRank算法则是基于科学引文全局网络信息。在PageRank算法中,每个网络节点(即文章)的重 要性由引用该文章的论文的重要性决定。这样,通过多次迭代,节点的排序结果中就包含了网络的全局信息。但研究发现,无论是基于引用次数的局部网络排序算法 还是基于PageRank的全局网络排序算法,如果论文网络中存在恶意的自引和互引,算法的排序结果将被严重扭曲。因此,如何增强论文重要性的影响,并提 高排序算法的鲁棒性,便成为设计算法时的重要考量因素。
bat365中文官方网站复杂系统研究团队将非线性思想引入PageRank算法中,改变了PageRank算法对论文重要性的线性叠加方式,引入了文章重要性的非线 性影响,使得被高质量论文引用的文章得分更高,同时压低了被许多低质量论文引用的文章的得分,由此提高了重要文章的排序。使用美国物理学会(APS)数据 库的数据对非线性算法进行有效性分析,结果发现非线性算法提高了排序有效性,对获得诺贝尔奖的研究工作排名明显提升,同时降低了论文之间恶意自引和互引对 论文排序的影响,增强了算法的鲁棒性。进一步的研究表明,与传统算法相比,非线性评价方法在论文未来影响力的预测等方面也有更佳的表现,显示了非线性方法 在其他评价问题上的应用潜力。
图1.从线性到非线性——非线性算法对PageRank算法随机游走机制的改进
原文链接:http://www.nature.com/srep/2014/141017/srep06663/full/srep06663.html