日本為何要構建自己的 ChatGPT 版本

一些日本研究人員認為，用外語訓練的人工智慧系統無法掌握日語和文化的複雜性

作者：Tim Hornyak& 《自然》雜誌

Row of Japan's new supercomputer Fugaku with a person standing to the left. — 日本的超級計算機“富嶽”已被用於消化日語文字，以開發日語版本的 ChatGPT。

Kyodo News/Getty Images

日本正在構建自己的 ChatGPT 版本——這是一種由美國公司 OpenAI 開發的人工智慧 (AI) 聊天機器人，自大約一年前問世以來，已風靡全球。

日本政府和大型科技公司（如 NEC、富士通和軟銀）正在投入數億美元，用於建立基於相同底層技術（稱為大型語言模型 (LLM)）的人工智慧系統，但這些系統使用日語，而不是英語版本的翻譯。

日本東北大學自然語言處理專家坂口慶祐表示：“目前的公共 LLM，如 GPT，在英語方面表現出色，但由於字母系統、有限的資料和其他因素的差異，日語方面常常不足。”

支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道：訂閱。透過購買訂閱，您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。

英語偏見

LLM 通常使用來自公開來源的大量資料來學習自然語言和散文的模式。它們經過訓練，可以根據文字中前面的單詞預測下一個單詞。ChatGPT 之前的模型 GPT-3 訓練所用的大部分文字都是英文。

ChatGPT 令人毛骨悚然的類人對話能力，既讓研究人員感到高興，也讓研究人員感到擔憂。有些人認為它是一種潛在的節省勞動力的工具；另一些人則擔心它可能被用來捏造科學論文或資料。

在日本，人們擔心用其他語言的資料集訓練的人工智慧系統無法掌握日語和文化的複雜性。日語的句子結構與英語完全不同。因此，ChatGPT 必須將日語查詢翻譯成英語，找到答案，然後再將回復翻譯回日語。

英語只有 26 個字母，而日語書寫系統由兩組 48 個基本字元以及 2,136 個常用漢字組成。大多數漢字有兩種或多種發音，並且還存在大約 50,000 個不常用的漢字。鑑於其複雜性，ChatGPT 在語言方面遇到困難也就不足為奇了。

坂口表示，在日語中，ChatGPT“有時會生成大多數人從未見過的極其罕見的字元，並導致出現奇怪的未知詞語”。

文化規範

對於 LLM 而言，要發揮作用甚至在商業上可行，它需要準確反映文化習俗以及語言。例如，如果提示 ChatGPT 用日語撰寫求職電子郵件，它可能會省略標準的禮貌用語，看起來像是從英語的明顯翻譯。

為了衡量 LLM 對日本文化的敏感程度，一群研究人員啟動了Rakuda，這是一個對 LLM 回答有關日本主題的開放式問題的能力進行排名的工具。Rakuda 的聯合創始人 Sam Passaglia 及其同事要求 ChatGPT 比較對標準提示的答案的流暢性和文化適當性。他們使用該工具對結果進行排名是基於 6 月份釋出的一份預印本，該預印本顯示 GPT-4 在 87% 的時間內與人工稽核員的意見一致¹。最好的開源日語 LLM 在 Rakuda 上排名第四，而排名第一的，也許不足為奇的是，考慮到它也是比賽的評判者，是 GPT-4。

東京大學物理學家 Passaglia 說：“當然，日語 LLM 正在變得越來越好，但它們遠遠落後於 GPT-4。” 他研究日語語言模型。但他表示，原則上沒有理由認為日語 LLM 未來不能與 GPT-4 相提並論甚至超越 GPT-4。“這在技術上並非不可克服，而只是資源問題。”

建立日語 LLM 的一項重大努力是使用日本的超級計算機“富嶽”，它是世界上最快的計算機之一，主要使用日語輸入對其進行訓練。在東京工業大學、東北大學、富士通和政府資助的理研研究中心集團的支援下，由此產生的 LLM 預計將於明年釋出。它將加入其他開源 LLM的行列，使其程式碼可供所有使用者使用，這與 GPT-4 和其他專有模型不同。據參與該專案的坂口稱，該團隊希望為其提供至少 300 億個引數，這些引數是影響其輸出的值，可以作為衡量其規模的尺度。

然而，“富嶽”LLM 可能會被更大的 LLM 所取代。日本文部科學省正在資助建立一個針對科學需求的日語人工智慧程式，該程式將透過學習已發表的研究成果來生成科學假設，從而加速識別研究目標。該模型的初始引數可能為 1000 億個，這將略高於 GPT-3 規模的一半，並且會隨著時間的推移而擴充套件。

理研生物系統動力學研究中心副主任 Makoto Taiji 在談到該專案時說：“我們希望大幅加速科學研究週期並擴大搜索空間。” 開發該 LLM 可能至少需要 300 億日元（2.04 億美元），預計將於 2031 年公開發布。

擴充套件功能

其他日本公司已經或計劃將其自己的 LLM 技術商業化。超級計算機制造商 NEC 於 5 月開始使用其基於日語的生成式人工智慧，並聲稱這可以將建立內部報告所需的時間縮短 50%，將建立內部軟體原始碼所需的時間縮短 80%。7 月，該公司開始向客戶提供可定製的生成式人工智慧服務。

NEC 資料科學實驗室高階首席研究員 Masafumi Oyamada 表示，它可以“廣泛應用於金融、交通運輸和物流、分銷和製造等行業”。他補充說，研究人員可以利用它來編寫程式碼、幫助撰寫和編輯論文以及調查現有已發表的論文等任務。

與此同時，日本電信公司軟銀正在向用日語文字訓練的生成式人工智慧投資約 200 億日元，並計劃明年推出自己的 LLM。軟銀擁有 4000 萬客戶，並與 OpenAI 投資者微軟建立了合作伙伴關係，該公司表示，其目標是幫助企業實現業務數字化並提高生產力。軟銀預計其 LLM 將被大學、研究機構和其他組織使用。

與此同時，日本研究人員希望，精確、有效且日本製造的人工智慧聊天機器人可以幫助加速科學發展，並彌合日本與世界其他地區之間的差距。

東京慶應義塾大學醫學院醫療技術研究員木下翔太郎說：“如果日語版 ChatGPT 能夠做到準確，那麼對於想要學習日語或對日本進行研究的人來說，預計會帶來更好的結果。” “因此，可能會對國際聯合研究產生積極影響。”

本文經許可轉載，並於 2023 年 9 月 14 日首次釋出。