自2006年Twitter網站上線後不久,研究人員就開始在Twitter上搜尋關於人類狀況的見解。總體而言,該服務提供了一個關於人們正在做什麼、思考什麼和感受什麼的龐大資料庫。但是,科學家可用的研究工具非常不完善。例如,關鍵詞搜尋會返回大量結果,但對總體趨勢的感知很差。
當科羅拉多大學博爾德分校的計算機科學家詹姆斯·H·馬丁搜尋關於2010年海地地震的推文時,他找到了1400萬條。“你不可能僱傭研究生來閱讀所有這些推文,”他說。研究人員需要一種更自動化的方法。
一種有前景的方法是開發程式,用詞性(如主語、動詞和賓語)標記推文中的單詞,然後使用這些標籤來確定每條推文的內容。這種方法稱為自然語言處理,並不是一個新想法,但將其應用於短篇社交文字是新興且不斷發展的。“那現在真是一個巨大的領域,”馬丁說。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。
施樂公司旗下的帕洛阿爾託研究中心的科學家最近開發了這樣一個程式。它依賴於文字處理器,稱為解析器,通常在新聞文章上進行測試。解析器可以區分單詞和標點符號,標記詞性並分析句子的語法結構。但是,帕洛阿爾託研究人員之一凱爾·登特說,“它們在Twitter上的表現不太好。”他和他的合著者編寫了數百條規則來解釋標籤、重複字母(如“pleaaaaaase”)以及其他可能在《華爾街日報》中不常見的語言特徵。他們將於8月8日在舊金山舉行的美國人工智慧協會會議上展示他們的工作。
登特和他的同事還嘗試使用他們的程式來區分反問句和需要回應的問題。企業可以使用這樣的程式來查詢人們在詢問關於他們產品的問題。在最近的一次試驗中,他們的程式正確分類了2,304條推文中的68%。向美國海軍提供情報技術的空間和海軍戰備系統司令部的傑弗裡·埃倫說,“對於一個全新的領域,這聽起來像是一個不錯的首次嘗試。”
馬丁說,儘管Twitter資料探勘技術尚未準備好部署,但作為一個領域,“它正在非常快速地發展。”一旦它成熟,研究人員應該能夠訪問前所未有的關於人類行為的資料寶庫。埃倫說,“有史以來第一次,‘茶水間談話’被記錄下來並公開可用。”“一百年前,我們根本不知道大家都在想什麼。”