萬小軍在辦公室工作中。
本報記者 沈 慧攝
“早春江上雨初晴,楊柳絲絲夾岸鶯。畫舫煙波雙槳急,小橋風浪一帆輕。”
平仄規矩、清新別致,這首不久前引發熱議的小詩讀起來是不是朗朗上口?如果告訴你,它的作者是個機器人,你會不會大吃一驚?事實上,對于人工智能來說,吟詩作對只是牛刀小試
如今,隨著人工智能技術日新月異,各式各樣的智能機器人早已各顯其通。“強大的人工智能崛起,要么是人類歷史上最好的事,要么是最糟的。我們應該竭盡所能,確保它的未來發展對我們和環境有利。”斯蒂芬·霍金生前如是警醒。當創作這一被視為“人類精神文化的堡壘”被逐漸攻破,你我手中的飯碗是不是已岌岌可危?
寫稿作詩——信手拈來
人工智能寫稿機器人不但任勞任怨、迅如閃電,其原創詩集更圈粉無數
白皙的臉上架副眼鏡,身材頎長,北京大學計算機科學技術研究所研究員萬小軍投身人工智能領域已有十幾年。早年專注自然語言處理技術的他,2016年8月份曾與今日頭條實驗室聯合研發推出國內第一款綜合利用大數據分析、自然語言處理與機器學習技術的人工智能寫稿機器人——“張小明”。
“北京時間8月10日00:00,現世界排名第2的丁寧在奧運會乒乓球女子單打四分之一決賽中勝出,確保進入下一輪。丁寧本輪的對手是現世界排名第7的韓英,實力不俗。但經過4場大戰的激烈較量,最終,丁寧還是以總比分4:0戰勝對手,笑到了最后,為中國延續了在這個系列賽事中最終奪冠的機會。”
里約奧運會期間,“張小明”正式上崗,成為眾多記者中的一員。16天撰寫450多篇體育新聞,并以與直播同步的速度發布,“張小明”最終不負眾望,一戰成名。
任勞任怨、迅如閃電,這是“張小明”們最大的賣點:2017年四川九寨溝地震時,某機器人僅用時25秒就寫出了速報,通過國家地震臺官方微信全球首發;第一財經的“DT稿王”有著1900篇/天的產出速度,這相當于100位資深證券編輯1個小時的產量;2017年,面向民生領域的寫稿機器人“小南”驚艷亮相,從數據采集分析到文稿結構規劃,再到遣詞造句,僅用時不到1秒就完成了文稿……
快,不是創作型機器人唯一的優勢。
“看那星,閃爍的幾顆星/西山上的太陽/青蛙兒正在遠遠的淺水/她嫁了人間許多的顏色”。自出生之日起,“小冰”匿名投稿的詩篇多次被《北京晨報》《長江詩歌》等刊發。她的第一部原創詩集《陽光失了玻璃窗》,更是圈粉無數。
胡適、李金發、林徽因、徐志摩、聞一多、余光中、北島、顧城、舒婷、海子、汪國真……擅長詩歌的“小冰”,師承1920年以來的519位中國現代詩人。歷經6000分鐘、1萬次的迭代學習,如今“小冰”已形成了一套屬于自己的獨特文風和行文技巧。
“如果說,小冰以前的詩還只是小學生水平,那么現在算得上是大一新生的水平了。”詩人周瑟瑟曾如是點評。
功夫如何練就——深度學習
創作型機器人的核心技術是自然語言理解與生成,這主要由深度學習技術來實現
“你那邊天氣怎樣——廣州,今日:多云17℃~26℃;明日:多云18℃~27℃。深圳,今日:多云18℃~26℃;明日:多云19℃~27℃。”執行完春運任務后,“小南”又添了一項技能——播報天氣。
不斷成長的“小南”只是近年來創作型機器人迅速崛起的一個剪影。這些“大牛”們究竟是怎樣煉成的?萬小軍告訴經濟日報記者,無論是寫詩機器人還是寫稿機器人,其核心技術都是自然語言理解與生成,而自然語言的處理是目前人工智能領域難度最大的課題之一。
“寫稿機器人實際上是一款利用編程語言實現的智能寫稿軟件。”萬小軍說,從現有寫稿機器人來看,它們多數專注于財經、體育等領域,因為這兩個領域具有一定規則和數據可循,實現起來相對容易。目前機器人寫稿主要有兩種方式:原創和二次創作。原創,即借助結構化的數據來生成稿件,比如利用數據庫可以直接寫成天氣預報、財報和年報的稿件。二次創作,即對已有的相關報道進行拼湊,進而改寫成為新的稿件。
不過,兩者所依賴的技術并不完全一致。原創采用的是自然語言生成技術,是從結構化數據/意義表達生成自然語言語句。二次創作采用的是自動摘要技術,從已有的文字素材中進行摘要,從而生成一個新的稿件。例如,一個體育簡訊的生成需要先從網上抓取關于體育賽事的一些基本數據,據此做一些數據分析,就可以生成一個比較簡單的體育賽事報道,這就屬于原創。
據業內人士吳俁的說法,所謂自動撰稿機器人,廣義的說也可稱為“文本生成”。它的寫稿方式之一是抽句子——找一堆句子,拼成一篇文章。寫稿機器人“張小明”就是利用這項技術實現基于體育直播文字的體育長文自動生成,從而走在技術前列。
寫詩機器人,也不例外。“目前寫詩機器人主要基于深度學習技術,對它來說,學習樣本越大越有規律可循,學起來效果也更好。”在萬小軍看來,機器人寫詩其實是個“編碼與解碼”過程,編碼過程對用戶輸入信息進行語義編碼,解碼過程則逐詞生成得到每行詩。研究人員先搜集成千上萬首詩,利用詩的標題或關鍵詞作為輸入,訓練深度學習模型生成相對應的詩句。充分學習訓練后,機器人會摸索出一套作詩的規律,按照主題需要解碼輸出第一句詩,然后把這句詩與輸入的關鍵詞合并作為新的輸入,就可解碼得到第二句,如此循環便可得到一首完整的詩。
“人工智能特別擅長寫這種有規律的、被條條框框約束的內容,在一些簡單重復性的腦力勞動中,它具有一些先天優勢。”萬小軍稱。
能否取代人類——分工協作
創作型人工智能的優勢是執行簡單、重復性的創作輸出,而人類可以聚焦更富創造性的智力勞動
日本研發的人工智能創作了科幻小說《電腦寫小說的那一天》,不僅騙過了所有人類評審,還成功入圍日本微小說文學獎;谷歌人工智能還可進行繪畫創作,有畫作被拍出了8000美元高價……當智能機器人大行其道,人類會不會真如霍金所言“大難來臨”?
“讓機器具有思維與情感、學會推理和歸納,短時間還做不到。”萬小軍以“小南”舉例,在教小南寫稿過程中,遇到的一個難點就是可供學習的樣本不夠豐富,訓練語料較為缺乏。而且,因為缺乏情感表達和思維能力,它寫出的作品大多平鋪直敘,不夠生動。如果僅看幾篇沒有太大問題,看多了難免會感覺單調、枯燥。
寫詩機器人同樣存在類似的問題。萬小軍說,得益于近年來深度學習技術的進步,機器人寫詩水平有了質的飛躍——由于古詩中留有大量寫景詩,它們尤其擅長寫景抒情。這些詩普通人猛一看“嗯,不錯,挺美”,但若讓對古詩頗有研究的專家審視,便免不了一番品評。另外,它或許可以模仿得有模有樣,但若交給它一個從未遇過的主題,就很難勝任了。
不僅行文相對單一,“小冰”“小南”們即便寫出了美文,也不知道自己寫的是啥,更談不上陶醉其中自我欣賞。“記者寫稿時很清楚他在寫什么,知道自己要表達的語義信息。”萬小軍說,機器人不然,雖然它把每一個句子都寫出來了,但內容是什么,它不知道也無法理解,這是人和機器最大的不同,對寫詩機器人來說同樣適用。
關于這點,知乎專欄作者蕭瑟曾在《當AI邂逅藝術:機器寫詩綜述》一文中有過這樣的描述:機器詩歌生成的工作,起始于20世紀70年代。但在計算機誕生之前,就有好事者弄了個高頻詩歌詞語轉盤,轉到哪個詞就記錄下來,然后連起來形成一首“詩”。這種詩自然會出現類似“蘋果吃姑娘,殘紅殺馬特”這樣邏輯不通、不倫不類的句子。當然,也可能偶然搞出佳句。
雖然前路依舊漫漫,但隨著深度學習技術的發展和數據積累,人工智能的春天已漸行漸近。“就寫稿機器人而言,目前它僅能做到將一個基本的新聞事實描述清楚;一些深度、調查類報道還必須依賴記者完成。創作型人工智能的優勢是執行一些簡單、重復性的創作輸出,人類可以集中精力聚焦一些更富創造性的智力勞動,構建一種和諧的分工協作關系。”萬小軍說。(經濟日報-中國經濟網記者 沈 慧)