AI“瘋狂污染中文互聯網”，社交平臺管不了還是不想管？|世界新資訊

2023-06-22 06:19:56 來源: 娛樂資本論

這幾天，有人發現一個知乎用戶“百變人生”瘋狂地使用ChatGPT回答問題，回答速度極快，差不多每1、2分鐘就能搞定一個問題，甚至能在1分鐘之內回答2個問題。這些生成后就從未過人工核查的答案，有些被必應AI抓取，因此形成了誤導性的回答。

由此一來，“AI正在瘋狂污染中文互聯網”就成了一個熱門話題。不過，作為一家正在生產環節積極引入AIGC的文娛新媒體，我們娛樂資本論還是想重復那句聽起來可能很俗套的觀點：

“瘋狂污染中文互聯網”的不是AI，而是使用AI的人。

(資料圖片僅供參考)

很多人看到類似這樣的案例，就會自然產生一種要“管管”AI生成內容的沖動。我們對此有些不同看法：

平臺層面限制AI生成內容，短期內可能有必要，但長期來看就不一定了。

社交平臺并沒有真正的技術能力，來自動“預判”和限制AI生成內容。

當AI生成內容有可能“污染”大模型時，模型開發者應該負起更多責任，而不是社交平臺。

一、為什么會發生這種事？

從知乎到必應AI，這條神奇的鏈路是如何形成的？

必應AI是最早一批聯網的大語言模型，很久以后才有谷歌的Bard和百度文心一言可以聯網。而ChatGPT官方聯網功能也是跟必應合作，這使得必應作為一個搜索引擎，對AIGC的意義非常特殊。

但必應本身并不是一個很優秀的搜索引擎。在某些中文問題上，必應的檢索能力并不強于百度，可能只是廣告相對少一點；相對谷歌，必應則有更大的劣勢。

中文互聯網更嚴重的“圍墻花園”現象，則讓搜索引擎的能力進一步受限。目前已知必應無法讀取微信公眾號文章，對頭條號、百家號等收錄也不完整。

必應AI功能剛小范圍內測時，甚至在百度官宣“文心一言”之前，知乎就已經是其中文回答里最常見的參考來源。它內容質量相對較高，又不限制搜索引擎的抓取。

通過這種曲折的關系，知乎成為了一個對AI非常特殊的存在——一個“公版”的語料來源。

3-4月起，AI開始在各行各業開始替代人工寫作。在各個社交平臺上，這種替代的速度是不同的。

在微博、小紅書等地，它“入侵”文本內容相對較慢。但知乎和公眾號、頭條號、百家號等平臺，內容以中長篇文字為主，這些地方幾乎同步被“入侵”。

甚至，當我就“AI污染中文互聯網”在微信“搜一搜”的時候，還可以搜到另一篇明顯出自GPT的“評論文章”，整件事情頗為行為藝術。

小紅書以及各家短視頻平臺，則更受困于AI生成圖片，及圖片堆砌成的視頻內容。

對圖片的審核及事實核查難度始終高于文本。早在2022年8月，就有關于重慶山火的帖子被人指出“10張圖有8張是AI作畫，下面評論卻一片感動哭了”。

Midjourney對一些知名人士的預訓練相當成功，以至于“特朗普被捕”系列“世界名畫”引發了強烈反響，其創作者被MJ官方封號。但在國內，“霍金來了都得給領導敬酒”等變種則依然不受限制地繼續流傳。

以文字為主的社交平臺，受到AIGC內容的沖擊明顯大于以圖片、視頻為主的平臺。

在知乎，雖然“百變人生”已被封禁，但同類情況還很常見，有些回答不標注“包含AI創作”，但一看就有GPT的味道。

這些內容最大的問題并不是枯燥乏味，而是缺乏事實核查，特別是在醫學、金融等專業領域，無資質人員的回答很容易形成誤導。

此外，“GPT體”的顯著特征——按條列出要點，最后來一段總結——實際上會在生成過程中，不斷強化對前面寫過的答案的“自信”。一旦AI生成內容有遺漏或編造成分，它會在剩下的回答中，致力于讓前面的內容變得看起來很可信。

文生圖類AI工具受到生成內容的“反向污染”可能性目前還比較小。而對于大語言模型而言，“垃圾進、垃圾出”是一個迫在眉睫的現實威脅。

類似“百變人生”的這種情況，可以在一個非常快的周期內被反饋進去。他關于“象鼻山有纜車”的錯誤回答，僅用不到一個月的工夫，就被抓取和錯誤地呈現出來了。

如果不能盡快想出對策，類ChatGPT的文本大模型工具，將很快成為一種無用的玩具和擺設，它訓練得越努力，生成的東西反而越不可用。

二、AI內容不是新鮮事，但短期只能“一刀切”

ChatGPT火爆已有半年。這段時間里，知乎、抖音、小紅書等社交平臺都已經發布了限制AI生成內容的規定。總體上它們都是需要發布者對AI生成部分明確標記，以及對缺乏人類介入的純AI內容嚴肅查處。例如，抖音禁止沒有“中之人”，完全由AI生成問答的直播。

對此，娛樂資本論的觀點始終如一：AIGC就像其他任何工具一樣。當AI生成內容“污染互聯網”的時候，錯的不是工具，而是使用工具的人。

自動化生成垃圾內容，并填充到網上的生意古已有之。

針對搜索引擎的優化結果，大多數真人都是看不見的，只對機器規則有意義。

10多年前就有打散文章順序，同義詞替換等“偽原創”技術。

稍微動點心思的人工“洗稿”在公眾號時代屢禁不止，微信不得不組織一些德高望重的“陪審團”來處理洗稿爭議。

ChatGPT等AIGC工具做的事情本質上是一樣的。當然這個新“工具”也確實有特別之處，它生成垃圾內容的效率，相比過去可能是10-100倍的提升。ChatGPT對任何使用者一視同仁地“降本增效”，對營銷號也不例外。平臺反低質內容的斗爭變得更艱難了。

其實，ChatGPT生成的內容，如果讓人類來評價，還好于傳統方法做出的“偽原創”“營銷號體”等內容。但是，AIGC卻不太可能替代掉以前的垃圾內容，而是兩種很差的內容共存，讓網絡環境更糟糕。

因為AIGC做營銷號的爆發比較突然，來勢洶洶，短時間內，平臺不可避免需要對AI生成的內容“一刀切”。如果找不到根治方法，這些臨時措施也很可能會常態化。

但長遠來看，平臺沒有必要對所有AIGC內容始終保持特殊化對待。善用AI的人，是用它來更好發揮自己已有的專業能力。

在“首屆上海文娛科創沙龍”上，娛樂資本論創始人吳立湘在《文娛行業的多模態戰爭》主題演講中明確提出：

① “由AI生成”并不意味著人類可以“偷工減料” ，從最終結果上看，我們報道的質量和標準和以前沒有區別。

② AI不是取代人類，而是解放人類。我們的記者和編輯對AI生成的結果負最終責任，而他們也擁有這些作品的原有權益。

有的人在知乎回答時，先用AI生成基底，但在發布前手動核查事實，對內容負責。這樣的回答可能在當前的“一刀切”管理中被誤傷。

一旦平臺擁有了比較快速、準確的機審方法，可以將一些比較基礎的AI生成內容識別出來，并自動處理，那么用AIGC制作的垃圾內容，和用偽原創等工具做的內容，應該平等地被處罰。還是那句話，錯的不是工具，而是使用工具的人。

三、識別AIGC內容的技術困難

問題在于，目前的技術手段很難有效判斷一段內容是否由AI生成。我們之前對秘塔科技的采訪中也提到了這一點。

在計算機領域，有一個常識性的道理——首次生成內容，永遠是比二次處理同一條內容更簡單的。舉例說，將一段話以“中翻英，英翻中，再翻回去”的方法過很多遍機器翻譯，它就會變得難以辨認。

即使ChatGPT生成的“GPT體”有人類讀者肉眼可見的特征，比如上面提到的“按條列出要點，最后來一段總結”，這種特征也是由人類特有的抽象能力得出的。

對人類來說接近本能的、非常簡單的工作，可能對機器來說極其困難。GPT們僅僅是從語料中，統計最有可能接在一個字后面的下一個字，它們不是真的“懂了”某個道理，而是某次生成的內容恰好“瞎貓碰死耗子”地符合了人類的需要而已。

我們可以假設自己是平臺的風控人員，想想該怎么抓取和判斷AI生成內容：

對于AI生圖，可以考慮讓國內外的作圖工具出圖時加水印之類。但Stable Diffusion完全開源，不能號召所有人都這樣。

即使如此，AI生成的文字內容也是不可能“加水印”的，而且大模型本身就是一種很好的文本潤色工具，將生成內容再過一遍AI，即可大大降低“GPT體”被看出來的概率。

因此，我們只能說現在的平臺“有心無力”，因為技術上查處和整治的速度趕不上問題產生的速度。其實如果知乎真的能用機器+人工實現有效的事前監管，就不需要等到這事鬧大了。

技術不夠，“小管家”們只能事后監管，手動定位被網民舉報的用戶；而監管也得按照“基本法”，即使“百變人生”被禁言，他的答案還保留著。

在必應AI的回答里，象鼻山現在還是有纜車。

四、大模型開發者應為反“垃圾”負更多責任

如果不解決這個問題，放任AI生成內容被重新投喂到大模型中反芻，結果將引來模型的“崩潰”。意思是，用片面的信息不斷自我強化，最終只能生成對人毫無意義的內容。

在牛津大學、劍橋大學的研究人員發布的一篇預印本論文上，講述了得出這個結論的過程。研究人員的解決方法是，模型開發者應繼續保留一部分人工制作的語料，和真人打標簽的過程。

但這似乎越來越不容易。在英語世界中，亞馬遜的外包服務網站MTurk經常被AI開發者用作標注任務。然而MTurk上的勞動者，現在在做任務的時候也廣泛采用AI輔助。

如果外包人員不加說明，人們會誤以為這些機器做的標注是“純天然無污染”的。可是，一些人類看了覺得沒什么的“抖動”，會在缺乏人類監督的情況下，迅速自我強化，最終讓算法得出錯誤的結果。

如果語料和訓練的自動化不可避免，該怎么辦？

有人提出，上述研究的盲點是只會用最簡單的方法來提問。因此，可以從訓練方法，甚至是prompt的多樣性上做文章。適當的prompt才會激發AI扮演不同人格，調用不同領域學來的知識。

另一種思路，是使用人類有償或義務勞動的辦法來打標簽。驗證碼服務Recaptcha曾經幫助識別了很多印刷書籍，現在它讓輸入驗證碼的人類幫AI生成的圖像打標簽。

知乎目前擁有一個很好的評價機制，人們用“贊同”“反對”為答案投票。盡管不都是反映答案品質，也可能是表達一種情緒，但這個投票機制很難把高票投給“GPT體”的回答。被封禁的“百變人生”也符合做號的“三無小號”特征，容易被識別。所以，知乎可以利用好這種排名機制中的人類勞動，并讓必應等搜索引擎在抓取時，注意到答案權重的區別。

如果繼續想下去，那么普通用戶的真人操作，還將以各種方式被更好地利用，甚至不排除給錢——一個可能無關的例子是，大眾點評上的很多商家會對真人打卡行為給予獎勵。

無論如何，模型開發商無法“號令”為其提供語料的平臺，幫自己預先篩選掉AIGC內容。隨便一想就知道這太過分了：它們甚至本來應該給平臺和用戶們錢，才能使用這些語料數據的。

當StackOverflow以及Reddit宣布限制AI生成內容，以及限制抓取站內信息的時候，不論是模型還是社區用戶都對此無能為力，只能是那些先下手抓完的平臺搶占先機。

大模型制造者為了采購好數據，將付出比現在更多的代價。能確保有優質人類內容的社區，將來可以有很好的商業價值。

社交平臺們也可以考慮提升創作門檻，保留人類親手寫內容的“火種”。例如小紅書和即刻那樣，隱蔽或取消桌面寫作入口，將社區變成“移動優先”。

總而言之，這次大模型們這次必須自己解決“污染”問題，而無法尋求其一直利用的社交平臺的幫助。

關鍵詞：

手机看片福利永久国产日韩-手机看片369-手机精品在线-手机国产乱子伦精品视频-国产精品嫩草影院在线观看免费-国产精品嫩草影院在线播放

AI“瘋狂污染中文互聯網”，社交平臺管不了還是不想管？|世界新資訊

您可能也感興趣:

今日熱點

每日看點!威振股份聘任陳崗為公司總經理聘任譚榮芳為公司財務負責人

世界快報:移民最好的國家排行榜移民條件

環球消息！餐飲下半年工作計劃范文【優秀10篇】

更多

更多

排行

最近更新

今日要聞

手机看片福利永久国产日韩-手机看片369-手机精品在线-手机国产乱子伦精品视频-国产精品嫩草影院在线观看免费-国产精品嫩草影院在线播放

AI“瘋狂污染中文互聯網”，社交平臺管不了還是不想管？|世界新資訊

您可能也感興趣:

今日熱點

每日看點!威振股份聘任陳崗為公司總經理 聘任譚榮芳為公司財務負責人

世界快報:移民最好的國家排行榜 移民條件

環球消息！餐飲下半年工作計劃范文【優秀10篇】

為您推薦

巴州區花溪小學：濃情端午 粽米飄香_焦點快看

哪些花草不適合在封閉陽臺上栽種（都有哪些花不適合在陽臺上養）

還剩不到40小時！5人命懸一線！ 短訊

2023中國鐵路廣州局集團有限公司招聘畢業生崗位一覽 每日關注

更多

更多

排行

最近更新

今日要聞

每日看點!威振股份聘任陳崗為公司總經理聘任譚榮芳為公司財務負責人

世界快報:移民最好的國家排行榜移民條件

巴州區花溪小學：濃情端午粽米飄香_焦點快看

還剩不到40小時！5人命懸一線！短訊

2023中國鐵路廣州局集團有限公司招聘畢業生崗位一覽每日關注