谷歌學術,這個免費的學術文獻搜尋引擎,將於 11 月 18 日迎來十週年。透過“爬取”數百萬篇學術論文的文字,包括那些在出版商付費牆後的論文,它改變了研究人員線上查閱文獻的方式。在今年《自然》雜誌的一項調查中,約有 60% 的科學家表示他們經常使用這項服務。《自然》雜誌採訪了該服務的聯合創始人、目前仍在運營該服務的阿努拉格·阿查里亞,瞭解了谷歌學術的歷史以及他對未來的展望。
您如何知道要索引哪些文獻?
“學術”是學術領域中其他所有人都認為是學術的東西。這聽起來像一個遞迴定義,但它確實會穩定下來。我們爬取整個網路,例如,對於一個新的部落格,你會看到它與你已經知道的其他學術成果的聯絡。如果很多人引用它,或者它引用了很多人,那麼它可能就是學術性的。沒有一個神奇的公式:你需要從許多特徵中獲得證據來判斷。
谷歌學術的想法從何而來?
我於 2000 年來到谷歌,當時是從我在加州大學聖巴巴拉分校的學術職位休假一年。很明顯,我在谷歌的影響力可能比在學術界更大——使世界各地的人們都能找到資訊。所以我放棄了學術界,並領導了谷歌的網頁索引團隊四年。那是一段非常忙碌的時期,基本上,我筋疲力盡了。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保關於塑造當今世界的發現和想法的具有影響力的故事的未來。
Alex Verstak [阿查里亞在網頁索引團隊的同事] 和我決定休假六個月,嘗試讓查詢學術文章更輕鬆、更快捷。這個想法不是為了開發谷歌學術,而是為了改進我們在網頁搜尋中對學術文件的排名。但試圖這樣做的問題在於弄清楚搜尋者的意圖。他們想要學術結果還是隻是普通人?我們說,“假設你不必解決這個難題;假設你知道搜尋者有學術意圖。”我們建立了一個內部原型,人們說:“嘿,這本身就很好。你不必解決另一個問題——我們開始吧!”然後,谷歌學術顯然非常有用和重要,所以我最終留下來了。
它是一舉成功的嗎?
它非常受歡迎。一旦我們推出它,使用量呈指數增長。一個很大的不同是我們進行了相關性排名[按與使用者請求的相關性對結果進行排序],而學術搜尋服務之前沒有這樣做過。他們是按時間倒序排列[首先提供最新的結果]。我們還爬取了研究文章的全文,儘管我們一開始並沒有包含所有出版商的全文。
在某些情況下,您花了數年時間才說服出版商讓您爬取他們的全文。這很難嗎?
這取決於情況。你必須回想十年前,那時網頁搜尋被認為是輕量級的——人們會用它來查詢布蘭妮·斯皮爾斯的照片,而不是學術文章。但我們知道人們向我們傳送純粹的學術查詢。我們只是必須說服出版商,我們的服務會被使用,並會給他們帶來更多的流量。當然,在谷歌學術推出之前,我們已經與他們中的許多人合作了。
在 2012 年,谷歌學術被從谷歌主頁的搜尋選項下拉選單中移除。您是否擔心谷歌學術可能會被降級或關閉?
不會。我們的團隊在不斷壯大,從最初的兩個人增加到現在的九個人。人們可能將選單移除視為降級,但事實並非如此。這些菜單鏈接是為了幫助使用者從主頁轉到另一項服務,因此它們強調最常用的轉換。如果使用者已經知道從谷歌學術開始,他們就不需要這種轉換。這就是全部原因。
谷歌學術如何賺錢?
谷歌學術目前不賺錢。谷歌有很多服務都沒有賺到很多錢。谷歌學術的主要作用是回饋研究界,而且我們之所以能夠做到這一點,是因為從谷歌的角度來看,它並不昂貴。就查詢量而言,谷歌學術與許多谷歌服務相比規模較小,因此廣告貨幣化的機會相對較小。沒有貨幣化的壓力。鑑於參與其中的人數,谷歌學術提供的益處非常顯著。人們在內部喜歡它——我們都,在某種程度上,是前學術界人士。
谷歌學術每天收到多少查詢?該服務跟蹤多少文獻?(估計範圍從1 億到1.6 億篇學術專案)。
我無法告訴您,只能說這是一個非常非常大的數字。文獻的答案也一樣,只是自我們推出以來,索引的專案數量增長了一個數量級左右。很多人都想知道這個規模。但是這種討論沒有用——這只是“腳踏車棚效應”。我們的挑戰是看看人們多久能夠找到他們需要的文章。如果索引太小,那麼索引的大小可能是一個問題。但我們顯然足夠大了。
谷歌學術推出了額外的服務:作者個人資料頁面和一個推薦引擎。這是否將其從搜尋引擎轉變為更接近文獻計量工具的東西?
是的,也不是。個人資料的一個重要目的是幫助您找到您需要的文章。通常,您不記得如何準確查詢文章,但您可能會從您記得的論文轉向作者及其其他論文。您還可以關注其他人的工作——這是查詢文章的另一種關鍵方式。當然,個人資料還有其他用途。一旦我們知道您的論文,我們就可以跟蹤您的學科如何隨著時間的推移而發展,您所聯絡的學術界人士,甚至可以推薦您所在領域的人們感興趣的其他主題。這有助於推薦引擎,這比[搜尋引擎]更進一步。
您是否擔心被稱為遊戲的做法——人們建立虛假論文,讓谷歌索引它們,並獲得虛假引用?
不是真的。是的,您可以新增任何您想要的論文。但是一切都是完全可見的——您的個人資料中的文章、引用您的文章、它們的託管位置等等。世界上任何人都可以指出它,基本上會毀掉你的職業生涯。我們沒有看到垃圾郵件,原因就在於此。我在處理垃圾郵件方面有很多經驗,因為我曾經從事網頁搜尋工作。當人們匿名時,垃圾郵件更容易。如果我試圖為我的公共聲譽建立出版歷史,我會相對謹慎。
您希望在未來看到哪些功能?
我們非常擅長幫助人們找到他們正在尋找並且可以描述的文章。但是我們希望做的下一件大事是讓你找到你需要但你不知道要搜尋的文章。我們能更容易地創造意外發現嗎?我們如何才能幫助每個人在研究前沿運作,而無需掃描數百篇論文——這是一種非常低效的查詢方式——並且整天無所事事?
我不知道我們將如何實現這一點。我們在這方面做了一些初步的努力(例如推薦引擎),但這遠未達到它應有的水平。向您提供您沒有主動搜尋的資訊存在一個固有問題。它必須是相關的——這樣我們就不會浪費你的時間——但也不能太相關,因為你已經知道這些文章了。而且它必須避免來來往往的短期興趣:你查詢某些東西,但你不想在你的餘生中一直收到有關它的垃圾郵件。我不認為讓我們的使用者“訓練”推薦模型會奏效——那太費力了。
(有關推薦服務的更多資訊,請參閱《自然》雜誌工具箱部分的“如何駕馭文獻的洪流”。)
幫助人們直接搜尋科學資料而不是論文怎麼樣?
這是一個有趣的想法。爬取隱藏在付費論文中的資料是可行的,就像我們對全文所做的那樣。但是,如果我們將使用者連結到付費文章,他們就看不到這些資料——只能看到論文的摘要。對於索引全文文章,我們依賴於摘要讓使用者評估文章的可能效用。對於資料,我們沒有任何類似的東西。因此,作為學術交流領域,我們尚未開發出一種能夠提供有用的資料搜尋服務的模型。
許多人都希望谷歌學術中有一個 API(應用程式程式設計介面),以便他們可以編寫自動進行搜尋或檢索個人資料資訊並在該工具之上構建服務的程式。這可能嗎?
我做不到。我們與出版商的索引安排不允許這樣做。我們被允許掃描所有文章,但不允許批次地將此資訊分發給其他人。能夠與出版商合作非常重要,這樣我們才能繼續構建一個對所有人免費的綜合搜尋服務。這是我們的主要職能,其他一切都是在此基礎上的補充。
您認為自己會在未來十年內在谷歌學術工作嗎?
我一開始真的沒想過會在 Google 學術工作十年!我妻子提醒我說,原本應該是五年,然後是七年——而現在我仍然沒有離開。但這是我知道我能做的最重要的事情。我們基本上是在讓這個星球上最聰明的人們更有效率。這是一個非常有吸引力的命題,而且我不認為我會在短期內,或者輕易地離開 Google 學術。
您對免費、高效搜尋引擎的渴望是否可以追溯到您在印度理工學院卡拉格普爾分校求學的那段時間?
它影響了我感興趣的問題。例如,沒有其他服務可以索引論文的全文,即使當用戶只能看到摘要時也是如此。我認為這是一個重要的發展方向的原因是,我意識到使用者需要知道資訊就在那裡。如果你知道資訊在一篇需要付費的論文中,並且這對你很重要,你就會想辦法進去:例如,你可以寫信給作者。我在卡拉格普爾就這麼做過——效率真的很低,速度也很慢!所以我的經歷影響了我採取的方法。但現在,Google 學術已經有了自己的生命。
使用 Google 學術的人是否應該擔心資料隱私?
我們使用標準的 Google 資料收集政策——對於學術搜尋來說沒有任何不同。我在 Google 的角色專注於 Google 學術。因此,我無法對更廣泛的問題發表更多看法。
本文經許可轉載,並於 2014 年 11 月 7 日首次發表。