那些被引率最高的論文,都有什么共同點?
怎樣的論文更容易被引用,每個導師都有自己的看法,但有可能通過量化的方式描述它們的特征嗎?一位研究員用機器學習技術分析了 400 篇高被引論文,發現了一些有趣的規律。
如何有效地提高我的學術論著影響力,這是我在多年的學術生涯中一直認真考慮的問題。獲得博士學位后,我開始更詳細地研究這個問題。文獻讀得越多,我就越意識到這些建議有些不完整,有時甚至相互矛盾。鑒于我在機器學習(ML)領域有一定經驗,我決定下載一個數據集,看看能不能應用 ML 技術從中挖掘一些信息,并回答一些相關問題。
一篇研究文章的標題應該多長?
在我們看來,標題能夠強調論文的整體目的和研究意義,它發揮著至關重要的作用。先前關于這個問題的研究論文一致同意標題長度的重要性,以及標題對讀者或引用率的影響。然而,過去的研究并沒有明確指出標題應該使用多少詞。在瀏覽各種類型的 Nature 文章時,我們會很快發現這些文章標題都很短,而且切中要害。接下來,我分析了以下四個數據集:
* 2014 年 Nature 上被引率最高的 100 篇論文(根據 Google Scholar 統計);
* 2014 年 Web of Science 中被引率最高的 100 篇論文;
* 2018 年 AltMetric 發布的全球最受關注的 100 篇論文;
* Multidisciplinary Digital Publishing Institute 網站 2017 年發表的論文中被引率最高的 100 篇。
數據分析表明,有吸引力的標題具有相對一致的模式,高影響力論文的標題通常較短。具體來說,有吸引力的標題的總長度是 10 個詞加減 3 個。在假設“有影響力的標題”常伴隨著高引用率的前提下,我通過已發表的數百萬篇文章中的 400 篇高引文章(如前文描述)算出了這一范圍。有趣的是,有吸引力的標題不一定包含句點或斜線,但是常常使用冒號。
可能吸引讀者的標題關鍵詞 也被識別出來,它們是:回顧,癌癥,監測,近期,治療,方法,理論,分析,應用,學習,蛋白質,DNA,多重,新的,聯系,健康,研究(review, cancer, monitoring, recent, therapeutic, method, theory, analysis, applications, learning, protein, DNA, multiple, new, association, health, and study)。
一篇文章應該有多少位作者?
我發現被引數和作者數量之間存在相關性,因為高被引論文和低被引論文(的作者數量)之間存在顯著差異。與只有一位作者署名的論文相比,多個作者署名的論文似乎從他們的機構、實驗室、研究人員和學生那里獲得了更多的關注。換言之,每個作者都有自己的圈子,把所有作者的圈子聚集在一起,有相同研究方向的讀者數量會增加,進而增加文章被引用的可能性。此外,多位作者署名的論文也可以從自引中獲益。直覺上人們也可能會認為,當各種力量聯合起來,并且不止一個人對這項工作作出貢獻時,研究方法的質量、實驗操作的質量、研究經費和論文的質量也會相應提高。
文章多少字符合適呢?
我還發現,高被引論文和低被引論文之間,文章字符數(不包含空格)有顯著差異。此外,高被引文章的字符需要超過 33600 個(包括參考文獻在內),大約共計 5600 詞。這一數字與最具影響力的期刊之一 Nature 接受的詞數一致。根據 Nature 最新格式要求,包括參考文獻在內,文獻字數最多為 6500 字。請注意,Google 指數(H5 指數和 H5 中位數指數)將 Nature 評為 2018 年全球最具影響力的期刊。
文章應該放多少插圖?
據我所知,目前的文獻還沒有對插圖的數量進行過調查。根據我的分析結果,高被引論文和低被引論文的圖片數量略有不同。分析結果表明,一篇文章中的圖越多,被引用的可能性就越大。這可能是因為圖表能夠快速傳遞更多的信息,從而幫助讀者更快地理解研究結果。開放獲取雜志對圖的數量不作限制,但是一些其他雜志明確規定了插圖數量(這種情況下,可以將多張圖合并為一張)。我的分析結果顯示,至少需要 6 張圖來反映論文的關聯程度和影響力,這與 Nature 接受的圖的數量相符合。根據 Nature 最新格式要求,展示項(圖或表格)的最大數目為 6。
幾張表格合適?
和上上個問題一樣,據我所知,目前的文獻還沒有對表格的數量進行過調查。我發現高被引論文和低被引論文之間的表格數量有很大的不同。具體來說,至少需要兩張表格來展示研究結果。請注意,這里研究的表格數量與插圖數量無關。
使用多少方程式合適?
和上面研究問題相似,據我所知,目前的文獻中還沒有研究過方程的數目。我發現高被引論文和低被引論文的方程數量沒有顯著差異。也許這與綜述通常比包含方程式的文章更常被引用有關。因此,我們可以根據需要使用方程。
過去關于高閱讀量和高引用論文的組成部分的研究解決了一些問題,但并非全部。有時,作者的同行、導師也會給出主觀的答案。我的分析研究試圖通過客觀評估提出建議,這在更徹底全面地研究這一問題邁出了不錯的第一步。當然,請注意我在這里提供的建議并不能保證提高被引率。事實上,還有一些更重要的特征可以提高被引用率和整體影響力,比如期刊的聲譽、作者的名聲、研究工作的原創性、研究主題的重要性、期刊雜志的可獲取性(即公開出版還是非公開出版)、文獻類型(如文章、綜述、通訊等),以及編輯和審稿人的反饋意見質量。