2013年6月26日

部落格文章與未來更高引用次數相關嗎？

本文發表在《大眾科學》的前部落格網路中，反映了作者的觀點，不一定代表《大眾科學》的觀點。

部落格文章與未來更高的引用次數相關嗎？在許多情況下，答案是肯定的，至少對於 Researchblogging.org (RB) 而言。Judit Bar-Ilan、Mike Thelwall 和我已經在我們之前的文章中使用了 RB，這是一個科學部落格聚合器，用於釋出引用同行評審研究的帖子。

RB 有許多優點（如果您閱讀過上一篇文章的帖子，您或許可以跳過這部分），其中最重要的是每個帖子末尾的結構化引用。它有人工編輯，因此我們不必檢查垃圾郵件或偽科學部落格。簡而言之，RB 為我們提供了那些關心研究並熟悉研究，以正式方式引用研究的博主。當然，它也有其缺點；它是自我選擇的，因此我們只能從那些費心註冊的博主那裡收集資料；此外，RB 以生命科學為導向，因此結果不一定適用於其他學科。

我們之前的研究發現，RB 博主的教育程度很高（32% 擁有博士學位），而且大多數（59%）以某種方式參與到學術系統中。因此，我們知道許多 RB 博主要麼屬於學術系統，要麼曾經屬於學術系統，並希望看看作為一個群體，他們所覆蓋的文章是否會比同一期刊和年份他們沒有覆蓋的文章在未來同行評審文獻中獲得更好的引用。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過訂閱來支援我們屢獲殊榮的新聞報道。透過購買訂閱，您正在幫助確保有關當今塑造我們世界的發現和想法的有影響力的故事的未來。

通常，我們區分部落格提及和部落格引用。部落格提及是指部落格中對學術材料的任何形式的提及，而部落格引用是指以結構化樣式（例如，APA、MLA）編寫並出現在部落格文章中的學術材料的提及。

方法

正如我之前所寫，其想法是選取覆蓋了同年文章的部落格帖子，並檢視這些文章作為一個整體，是否會比同年且同一期刊中未被覆蓋的文章在稍後獲得更多的引用。問題在於 RB 大約在 2008 年推出。由於我們在 2013 年初研究了引用情況，這意味著來自同行評審期刊的引用沒有太多時間積累。我們從之前的研究（Glänzel & Schoepﬂin，1995）中得知，在生命科學領域（樣本中大多數期刊和文章都屬於該領域），文章的引用量在大約出版後三年達到峰值，包括出版年份（生物醫學領域往往發展迅速）。這為我們提供了 2009 年和 2010 年進行研究。我們下載了 2009 年至 2010 年的所有 RB 資料，並查看了某一年所有報道同年文章的帖子（例如，2009 年的帖子覆蓋 2009 年的文章）。2009 年有 4013 個此類帖子，2010 年有 6116 個。接下來，我們將樣本限制為僅限於 2009 年和 2010 年期間在期刊上發表了 20 篇或更多文章的期刊。20 篇文章及以上的截止點是一個折衷方案 - 我們希望樣本中有儘可能多的期刊，但也希望結果具有統計可靠性。20 的截止點在 2009 年剩下 12 個期刊，在 2010 年剩下 19 個期刊。在這兩年中，最受歡迎的期刊是 PLoS One、PNAS、Science 和 Nature（不一定按此順序）。

表 1 和表 2 顯示了 2009 年和 2010 年的期刊。三個期刊（Current Biology、Journal of the American Chemical Society 和 Nature Neuroscience）未達到 2010 年的閾值，並且在舊期刊中添加了 10 個新期刊。

中位數- 對於每個期刊，我們計算了被博主覆蓋的文章組的中位數和未被博主覆蓋的文章組的中位數。我們使用中位數而不是平均值，因為同一期刊中文章的引用次數往往高度偏斜，而平均值會受到極端值的影響。在 2009 年的 12 個期刊中，有 10 個期刊的覆蓋組的中位數高於未覆蓋組。2010 年的 19 個期刊中，有 17 個期刊也是如此。

我們使用中位數進行統計檢驗（Mann-Whitney）。在 2009 年，12 個期刊中有 7 個期刊 (58%) 的中位數在 p<.05 時存在顯著差異（引用視窗為 2009-2011 年；表 6 的列標題中存在一個錯誤，它說 2010-2012 年 - 請忽略，最終版本不會如此）。在 2010 年，19 個期刊中有 12 個期刊 (68%) 在 p<.05 時，引用視窗 2010-2012 年存在顯著差異。我們還計算了 2009 年的 2010-2011 年引用視窗和 2010 年的 2011-2012 年引用視窗，以檢視是否存在任何差異，但結果非常相似（文章中未顯示這些引用視窗的資料）。

馬丁：“但是為什麼？為什麼？我的意思是，為什麼？為什麼？”

道格拉斯：“四個極好的問題。”

客艙壓力，“杜茲”

我們認為這主要是“群體智慧”在起作用。一個在該領域具有學術背景的龐大群體能夠比編輯和 2-3 名同行評審員更準確地猜測哪些文章可能在該領域產生更大的影響，這是有道理的。請注意，博主在 2009 年（研究的期刊總共 887 項）和 2010 年（1394 項）之間的準確性有所提高。誠然，博主並非在所有期刊中都具有引用優勢，但這可能與 20 篇文章的閾值有關。如果我們選擇例如 50 篇文章的閾值，那麼在 2009 年和 2010 年總共有 10 個期刊，其中只有 2 個期刊的結果不顯著。

我們還研究了其他“為什麼”；我們知道評論在高引用文章中佔比過高，因此我們檢查了與每個期刊同年的一般人群相比，部落格覆蓋的文章中評論是否也佔比過高。但是，評論似乎在覆蓋的文章人群中沒有佔比過高（儘管由於評論數量較少，我們無法獲得統計顯著性），因此這種推測失敗了。

我們研究的另一個“為什麼”是可能的媒體-部落格聯絡。部落格覆蓋組和未覆蓋組之間《新英格蘭醫學雜誌》（NEJM）的中位數差異尤其高（2009 年為 172 對 56；2010 年為 138 對 51）。由於 NEJM 是一份精英期刊，其許多文章都在媒體上報道，因此我們想看看博主是否傾向於選擇《紐約時報》和路透社也報道的 NEJM 文章。結果並不令人驚訝：2009 年的 26 篇文章中有 21 篇 (81%) 和 2010 年的 38 篇文章中有 20 篇 (53%) 被路透社和/或《紐約時報》報道。NEJM 文章的數量與之前的表格不同，因為有些文章被多個帖子覆蓋，有些帖子覆蓋了多個期刊文章，有些新聞文章覆蓋了多個期刊文章。博主通常不會落後於主流媒體 - 大多數文章的新聞文章和部落格文章之間的差異最多一個月。因此，至少對於 NEJM 而言，可能存在媒體-部落格聯絡，儘管我們無法判斷是哪種聯絡。但是，大多數期刊不像 NEJM 那樣被媒體徹底報道，因此我們不能說博主是從媒體那裡獲得提示的。

該研究的主要侷限性在於時間框架 - 我們只能選取 2009 年和 2010 年的帖子 - 以及文章數量相對較少。儘管存在這些侷限性，但我認為結果相當有希望，並且很樂意在未來重複這項研究，看看結果是否成立。

該文章尚未正式釋出，但將在《美國資訊科學與技術學會雜誌》（JASIST）上發表，目前可以在 Thelwall 教授的網站（PDF）中找到。

參考文獻

Glanzel, W., & Schoepflin, U. (1995). 關於科學文獻的老化和接收過程的文獻計量研究。《資訊科學雜誌》，21(1)，37-53 DOI: 10.1177/016555159502100104

Shema H, Bar-Ilan J, & Thelwall M (2012). 研究部落格和學術資訊的討論。《公共科學圖書館·綜合》，7(5) PMID: 22606239

Shema, H., Bar-Ilan, J., & Thelwall, M. (印刷中)。部落格引用是否與未來更高的引用次數相關？研究部落格作為替代指標的潛在來源。《美國資訊科學與技術學會雜誌》。