寫稿能“查重” 西湖大學團隊研發AI生成文本檢測模型

發布時間：2025-03-13 17:50:52

編輯:

來源:中國新聞網

字體：大中小

“你的稿子是不是由AI創作的，通過我們的大模型就可以判斷出來。”近日，西湖大學終身教授、自然語言處理實驗室負責人張岳接受中新網專訪時表示，在人工智能大模型應用熱潮下，他們團隊設計了一種“無監督算法”，將實現開放領域的AI生成文本檢測。

近日，張岳接受中新網專訪?！〔艿?攝

隨著科技創新的不斷推進，AI正成為新生創作力量。

張岳也試著用不同的人工智能大模型搜索并整理部分工作素材，這之中他也時常遇到“AI幻覺”問題，“我需要一篇文獻，在搜索時，AI給出了相關推薦，里面標注了作者、標題，甚至是摘要，但當我上網查找時，卻發現文章并不存在，這就是典型的幻覺問題”。

這種“虛構”現象被稱為“AI幻覺”，即AI在遇到不熟悉或超出其知識范圍的問題時，會編造出難以辨明真假的細節，生成與事實相悖的答案。

這也是近期用戶與大模型交互時可能遇到的問題。

張岳注意到，在教育領域，若本科生的畢業設計大量使用AI撰寫，可能會出現“AI幻覺”問題，引用不存在的參考文獻，“這不僅無法真實反映學生的水平，還會傳播錯誤知識”。

而在新聞領域，如果AI生成的虛假新聞被發表，可能對輿情造成負面影響。

“因此，檢測文本是否由AI生成至關重要。”張岳解釋道，如何確保AI生成內容的可控性，首先需要解決一個基礎問題——準確判斷一個文本是否由AI撰寫，這被稱為AI生成文本的自動檢測。

如何對AI生成文本進行檢測？

在張岳看來，傳統方法，如有監督的機器學習算法，存在顯著局限。它們依賴于收集的人寫和機器寫的訓練數據，但只能準確判斷訓練數據中包含的模型或領域文本。對于新的模型或領域，如生物醫藥論文，其性能會大幅下降。

為了克服這一局限，張岳團隊研究并設計了一種無監督的算法模型。

無監督算法是機器學習中的一種方法，它不需要預先標記的數據，而是通過算法自動發現數據中的模式、結構和關聯。

張岳說：“AI在遣詞造句時，會根據已出現的詞匯選擇概率較高或經驗風險較低的詞。而人類則先確定想表達的內容，再將其翻譯成句子，不受統計分布的限制。”

利用這一本質差別，這一研發模型可以對任何文本進行概率判斷和估算，從而判斷其是否由AI撰寫。

目前，張岳團隊已經展示了Demo版本，并吸引了大量用戶。同時，他們也在與一些實際應用場景合作，進行簡單部署。

“請寫一篇描寫西湖的文章。”在現場，張岳團隊成員鮑光勝在一個人工智能大模型中輸入了這個請求。在生成文本后，他將內容拷貝在Demo版本的應用中。作者注意到“AI創作率”結果顯示為“90%”。

未來，隨著該模型的推廣，它將有助于解決教育領域、新聞領域等實際問題。

關鍵詞：

熱門推薦

最近更新

酷圖美文

日本xxxxx18护士xxx-日本xxxxwwww-日本xxxx1819黑人-日本xxxbbb0oo-国产精品免费看久久久-国产精品免费久久久免费