近年,隨著算力、預(yù)訓(xùn)練模型和多模態(tài)技術(shù)的不斷匯聚發(fā)展,在自然語(yǔ)言和音視頻領(lǐng)域涌現(xiàn)出大量人工智能生產(chǎn)內(nèi)容(Artificial Intelligence Generated Content,AIGC)作品,在聊天機(jī)器人、AI作畫(huà)、虛擬主持人和新聞寫(xiě)作等應(yīng)用場(chǎng)景中更是熱點(diǎn)頻出。
(相關(guān)資料圖)
2022年11月,美國(guó)人工智能實(shí)驗(yàn)室Open AI推出基于GPT-3.5架構(gòu)的聊天機(jī)器人——ChatGPT(Chat Generative Pre-trained Transformer),上線僅兩個(gè)月,用戶數(shù)量達(dá)到1億。
ChatGPT、GPT-4的爆火出圈,產(chǎn)學(xué)研各界對(duì)AIGC的討論、研究和應(yīng)用熱度也上升到了新高度,因此,2022年也被稱為AIGC技術(shù)元年。
AIGC技術(shù)憑借先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型和龐大的訓(xùn)練數(shù)據(jù)規(guī)模,使其能夠接受和處理更加復(fù)雜的語(yǔ)音、文本、圖像等多模態(tài)數(shù)據(jù),通過(guò)融合知識(shí)發(fā)現(xiàn)、知識(shí)推理等手段,實(shí)現(xiàn)了知識(shí)技術(shù)從感知、理解到生成、創(chuàng)作的躍遷。
目前,國(guó)內(nèi)外對(duì)AIGC技術(shù)的定義并沒(méi)有統(tǒng)一標(biāo)準(zhǔn),不同領(lǐng)域、不同研究機(jī)構(gòu)和學(xué)者對(duì)AIGC技術(shù)的定義和范圍也有所不同。一般來(lái)說(shuō),AIGC技術(shù)是通過(guò)AI技術(shù)(如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等)自動(dòng)或半自動(dòng)地生成內(nèi)容的生產(chǎn)方式,生成內(nèi)容包括但不限于文字、音頻、視頻、圖像等形式。國(guó)內(nèi)產(chǎn)學(xué)研各界對(duì)于AIGC的理解是繼專業(yè)生成內(nèi)容(Professional Generated Content ,PGC)和用戶生成內(nèi)容(User Generated Content,UGC)之后,利用人工智能技術(shù)自動(dòng)或輔助生成內(nèi)容的新型生產(chǎn)方式。
本文對(duì)AIGC的研究和分析主要聚焦于AIGC用于內(nèi)容自動(dòng)化生成的生產(chǎn)方式和技術(shù)集合,而非內(nèi)容生產(chǎn)者視角進(jìn)行分類的一類內(nèi)容。未來(lái),隨著AIGC技術(shù)與PGC和UGC的結(jié)合,其將大大提高PGC和UGC內(nèi)容的生產(chǎn)效率和質(zhì)量,在實(shí)現(xiàn)內(nèi)容創(chuàng)作的自動(dòng)化和智能化方面發(fā)揮更大的作用。
然而,目前AIGC技術(shù)仍存在一定的局限性,其算法和技術(shù)仍處于不斷發(fā)展和完善的過(guò)程中,可靠性和普適性仍有待進(jìn)一步提高和加強(qiáng)。AIGC技術(shù)的底層技術(shù)和產(chǎn)業(yè)生態(tài)已形成了新的格局,未來(lái)AIGC技術(shù)在更多行業(yè)的海量應(yīng)用場(chǎng)景有望打開(kāi)。
01
AIGC技術(shù)發(fā)展沿革
AIGC技術(shù)的發(fā)展歷程大致可分為三個(gè)階段:專家規(guī)則驅(qū)動(dòng)、統(tǒng)計(jì)機(jī)器學(xué)習(xí)驅(qū)動(dòng)和深度強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)。三個(gè)階段并非完全獨(dú)立,而是交叉和融合。
專家規(guī)則驅(qū)動(dòng)階段是AIGC技術(shù)的早期應(yīng)用階段,也是最簡(jiǎn)單的階段。在這一階段,人們使用預(yù)定義的模式、模板和程序語(yǔ)言來(lái)實(shí)現(xiàn)對(duì)特定領(lǐng)域的知識(shí)和規(guī)則進(jìn)行編碼和實(shí)現(xiàn),從而生成特定類型的內(nèi)容。
這種方法的優(yōu)點(diǎn)是可控性高、定制化程度高,但是內(nèi)容生成被限制在規(guī)則內(nèi),缺少靈活性,無(wú)法自動(dòng)學(xué)習(xí)和創(chuàng)新且人工成本高,遠(yuǎn)遠(yuǎn)算不上智能創(chuàng)作內(nèi)容的程度。如果涉及特定領(lǐng)域內(nèi)容生成問(wèn)題,還需要具有領(lǐng)域知識(shí)的專家參與。初期內(nèi)容生成技術(shù)呈現(xiàn)出模板化、公式化和小范圍的特征。
隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法的出現(xiàn)和發(fā)展,基于專家規(guī)則的AIGC算法已經(jīng)逐漸被替代或作為其他模型的輔助手段。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)驅(qū)動(dòng)階段是AIGC技術(shù)的第二個(gè)發(fā)展階段,這一階段的核心是機(jī)器學(xué)習(xí)技術(shù)。利用大量的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,從而使其能夠生成更加優(yōu)質(zhì)和多樣化的內(nèi)容。這一階段的代表性應(yīng)用包括機(jī)器翻譯、語(yǔ)音合成、圖像生成等。相對(duì)于第一階段基于規(guī)則的生成階段,只需要為統(tǒng)計(jì)機(jī)器學(xué)習(xí)AIGC技術(shù)提供足夠的數(shù)據(jù)和特征,即可更迅速、更準(zhǔn)確、更靈活生成不同模態(tài)的數(shù)據(jù)內(nèi)容,而無(wú)需事先通過(guò)人工設(shè)計(jì)規(guī)則,自動(dòng)化、智能化水平更高。
然而,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的AIGC方法對(duì)數(shù)據(jù)特征依賴性強(qiáng),使得算法在領(lǐng)域遷移或者處理新類型的數(shù)據(jù)時(shí)效果不佳。
與此同時(shí),由于機(jī)器學(xué)習(xí)方法的AIGC方法需要大量數(shù)據(jù)作為特征工程的基礎(chǔ),但某些領(lǐng)域數(shù)據(jù)可能很難獲取或者數(shù)據(jù)量無(wú)法達(dá)到機(jī)器學(xué)習(xí)AIGC方法訓(xùn)練數(shù)據(jù)規(guī)模要求,造成模型過(guò)擬合或者效果差,因此也限制了此類方法在特定領(lǐng)域的應(yīng)用。換句話說(shuō),基于專家規(guī)則和統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的AIGC技術(shù)都未能很好地解決算法或模型領(lǐng)域遷移成本問(wèn)題。
深度強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)階段是AIGC技術(shù)的最新發(fā)展階段,也是目前最為熱門的AI技術(shù)領(lǐng)域。在這一階段,利用深度強(qiáng)化學(xué)習(xí)和自適應(yīng)多模態(tài)生成等模型,使AIGC技術(shù)能夠?qū)崿F(xiàn)更加復(fù)雜、高級(jí)和創(chuàng)新性的生成,并具有更強(qiáng)的個(gè)性化和交互性能,且可以在沒(méi)有或者少量人工干預(yù)的情況下進(jìn)行自我學(xué)習(xí)與自我適應(yīng),通過(guò)反復(fù)嘗試、調(diào)整和優(yōu)化,逐漸形成對(duì)各種場(chǎng)景的適應(yīng)能力,從而實(shí)現(xiàn)更加精準(zhǔn)的內(nèi)容生成。這一階段的代表性應(yīng)用包括聊天機(jī)器人、AI繪畫(huà)、AI圖像生成等。
相對(duì)于前兩個(gè)階段,深度強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的生成方法具有可定制性更強(qiáng)、可擴(kuò)展性好且可自我學(xué)習(xí)的優(yōu)勢(shì),從而在一定程度上解決了算法或模型領(lǐng)域遷移問(wèn)題,能夠更加靈活地調(diào)整模型以適應(yīng)更加廣闊的應(yīng)用領(lǐng)域。
然而,基于深度強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的AIGC模型訓(xùn)練和運(yùn)行具有非常高的門檻。首先,深度強(qiáng)化學(xué)習(xí)需要大量的數(shù)據(jù)和計(jì)算資源進(jìn)行訓(xùn)練,且運(yùn)行過(guò)程需要較高的計(jì)算能力和存儲(chǔ)空間,計(jì)算復(fù)雜度高,這勢(shì)必會(huì)增加訓(xùn)練和運(yùn)行成本。除此之外,深度強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的AIGC模型的生成效果很大程度上受限于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,訓(xùn)練數(shù)據(jù)不足或者質(zhì)量不佳都會(huì)影響模型表現(xiàn)。
作為AIGC技術(shù)的重要分支,ChatGPT 正逐漸成為現(xiàn)象級(jí)消費(fèi)類AI應(yīng)用,而擁有多模態(tài)能力的GPT-4 的推出及其與Office套件的融合勢(shì)必能夠引爆應(yīng)用新熱點(diǎn)。
以近期爆火的聊天機(jī)器人ChatGPT為例,目前最大的版本ChatGPT-3的訓(xùn)練規(guī)模達(dá)到了1750億個(gè)參數(shù),需要上萬(wàn)個(gè)CPU/GPU24小時(shí)不間輸入數(shù)據(jù),是目前已知最大的神經(jīng)語(yǔ)言模型之一。而較小的版本ChatGPT-2也擁有13億個(gè)參數(shù)。
ChatGPT使用來(lái)自互聯(lián)網(wǎng)的文本數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,包括從書(shū)籍、網(wǎng)絡(luò)文本、維基百科、文章和互聯(lián)網(wǎng)其他文本中獲得的高達(dá)570GB的數(shù)據(jù)。GPT-4作為GPT-3的繼任者,在多種任務(wù)中表現(xiàn)出更佳的性能,包括文本生成、摘要、翻譯、問(wèn)答和對(duì)話等。
目前,GPT-4的具體參數(shù)規(guī)模尚未公布,然而仍可以合理地推測(cè),GPT-4的參數(shù)規(guī)模將比GPT-3更大,以提供更強(qiáng)大的生成能力和更高質(zhì)量的生成內(nèi)容。
ChatGPT與GPT-4成為現(xiàn)象級(jí)應(yīng)用,離不開(kāi)投喂的高質(zhì)量數(shù)據(jù)、廣泛的應(yīng)用場(chǎng)景、持續(xù)的資金投入與開(kāi)發(fā)AI產(chǎn)品的邊際成本以及懸而未決的全棧集成能力。訓(xùn)練規(guī)模越大,模型可以處理的語(yǔ)言表達(dá)和語(yǔ)義越豐富,生成的文本也更加流暢自然,但是同時(shí)也需要更大的計(jì)算資源和更長(zhǎng)的訓(xùn)練時(shí)間。
開(kāi)發(fā)團(tuán)隊(duì)OpenAI也承認(rèn)“ChatGPT有時(shí)會(huì)寫(xiě)出看似合理但不正確或荒謬的答案”,從而出現(xiàn)人工智能幻覺(jué)[3]現(xiàn)象。最新推出的GPT-4同樣未能有效解決上述問(wèn)題,受到道德、安全和隱私方面的挑戰(zhàn)。
最為關(guān)鍵的是,基于深度強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的AIGC方法通常是黑盒模型,模型的學(xué)習(xí)過(guò)程往往是不可解釋的,研究人員難以理解模型為何會(huì)做出某些決策,這也會(huì)給模型的可靠性和安全性帶來(lái)潛在風(fēng)險(xiǎn),可能會(huì)導(dǎo)致在其法律和金融等領(lǐng)域或一些敏感場(chǎng)景下的應(yīng)用受到限制。AIGC的算法和技術(shù)目前仍在不斷發(fā)展和完善之中,未來(lái)隨著技術(shù)的不斷進(jìn)步和算法的優(yōu)化,AIGC技術(shù)將更加成熟和普及。
02
AIGC技術(shù)在智慧廣電
和網(wǎng)絡(luò)新視聽(tīng)的應(yīng)用場(chǎng)景
人工智能技術(shù)在廣播電視和網(wǎng)絡(luò)視聽(tīng)領(lǐng)域中的應(yīng)用正在快速發(fā)展,目前主要應(yīng)用包括視頻剪輯和編排、音頻生成和語(yǔ)音合成、內(nèi)容智能推薦等方面。
未來(lái),AIGC技術(shù)將會(huì)在廣播電視和網(wǎng)絡(luò)視聽(tīng)領(lǐng)域中扮演更加重要的角色,成為節(jié)目制作、內(nèi)容創(chuàng)作、播出和營(yíng)銷等各個(gè)環(huán)節(jié)中不可或缺的工具,輔助提高工作效率和節(jié)目制作質(zhì)量,實(shí)現(xiàn)多樣化、智能化和精準(zhǔn)化的內(nèi)容創(chuàng)作、推薦和推廣,推動(dòng)行業(yè)向智慧化、個(gè)性化、創(chuàng)新化方向發(fā)展。
AIGC+音視頻生成:提高內(nèi)容生產(chǎn)者創(chuàng)作效率
傳統(tǒng)的音視頻生產(chǎn)手段通常在初期腳本創(chuàng)作、錄制和后期編輯等環(huán)節(jié)需要大量的專業(yè)人員參與,費(fèi)時(shí)費(fèi)力,且難以實(shí)現(xiàn)自動(dòng)化,逐漸無(wú)法滿足消費(fèi)者對(duì)于數(shù)字內(nèi)容消費(fèi)需求的迭代更新速度,供給側(cè)產(chǎn)能瓶頸亟待突破。
隨著生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)、變分自編碼器(VariationalAuto-Encoder,VAE)等深度學(xué)習(xí)算法快速升級(jí),使得AI驅(qū)動(dòng)的音頻和視頻生成技術(shù)在廣播電視和網(wǎng)絡(luò)視聽(tīng)領(lǐng)域得到越來(lái)越廣泛的應(yīng)用,市場(chǎng)潛力逐漸顯現(xiàn)。
音頻生成通常利用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)大量音頻數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),在無(wú)需或較少人工干預(yù)或錄制的情況下,自動(dòng)生成高質(zhì)量、逼真的音頻,同時(shí)通過(guò)添加噪聲、修改音頻頻率、改變音調(diào)等方法,還可以增強(qiáng)音頻的多樣性和豐富性,生成包括語(yǔ)音、音樂(lè)和自然聲音等在內(nèi)的多種音頻類型。
此外,音頻生成技術(shù)還可以根據(jù)特定場(chǎng)景或需求對(duì)生成的音頻進(jìn)行優(yōu)化和定制,以滿足不同用戶的需求。AIGC+視頻生成技術(shù)基于多個(gè)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、GAN、VAE的組合,學(xué)習(xí)大量視頻中的空間、序列、時(shí)間、場(chǎng)景、物體和動(dòng)作等信息,自動(dòng)生成具備真實(shí)感視頻的細(xì)節(jié)和紋理和更加多樣化的視頻內(nèi)容。
同時(shí),根據(jù)給定的輸入條件,如不同場(chǎng)景、不同人物、不同動(dòng)作等,并通過(guò)視頻去噪、色彩校正、邊緣增強(qiáng)等后期處理,可以在保持視頻逼真度的同時(shí),實(shí)現(xiàn)對(duì)生成視頻的精細(xì)化控制以及細(xì)節(jié)的修復(fù)與優(yōu)化。
音視頻生成技術(shù)在明星語(yǔ)音合成、智能音樂(lè)創(chuàng)作、自動(dòng)化視頻集錦、視頻拆條、視頻超分、游戲開(kāi)發(fā)和虛擬現(xiàn)實(shí)等細(xì)分場(chǎng)景中擁有廣泛的應(yīng)用前景,且高效節(jié)省了人力時(shí)間成本。
2018年,英偉達(dá)(NVIDIA)發(fā)布StyleGAN模型可以自動(dòng)生成圖片,目前最新的第四代模型StyleGAN-XL生成的高分辨率圖片人眼也難辨真假。
2019年,DeepMind提出DVD-GAN (Dual Video Discriminator GAN)模型,利用計(jì)算高效的判別器分解,擴(kuò)展生成時(shí)間更長(zhǎng)、分辨率更高的視頻,在草地、廣場(chǎng)等明確場(chǎng)景下表現(xiàn)不凡。
2020年全國(guó)兩會(huì)期間,人民日?qǐng)?bào)社利用“智能云剪輯師”實(shí)現(xiàn)自動(dòng)匹配字幕、人物實(shí)時(shí)追蹤、畫(huà)面抖動(dòng)修復(fù)、橫屏速轉(zhuǎn)豎屏等技術(shù)操作,快速生成視頻以適應(yīng)多平臺(tái)分發(fā)要求。
2022年冬奧會(huì)期間,科大訊飛的智能錄音筆通過(guò)跨語(yǔ)種語(yǔ)音轉(zhuǎn)寫(xiě)2分鐘快速出稿,央視視頻利用AI智能內(nèi)容生產(chǎn)剪輯系統(tǒng)制作與發(fā)布冬奧會(huì)冰雪項(xiàng)目的視頻集錦,極大地提高了制作效率,縮短發(fā)布周期。
利用AIGC技術(shù)生成音視頻可大幅減少時(shí)間和成本,提高生產(chǎn)效率,同時(shí)保證作品一致性和穩(wěn)定性。其次,它能生成高質(zhì)量、逼真的音視頻內(nèi)容,允許創(chuàng)作者更好地表達(dá)創(chuàng)意和想法。然而,AIGC技術(shù)在音視頻生成方面也存在一些局限性。
首先,AIGC技術(shù)目前還無(wú)法完全替代人類的音視頻創(chuàng)作,因?yàn)槿祟惖膭?chuàng)作具有更加復(fù)雜的情感和思維,能夠表達(dá)更多元化的創(chuàng)意和想法。
其次,AIGC技術(shù)還存在一些技術(shù)問(wèn)題,例如在生成音視頻時(shí)可能存在一些不真實(shí)的細(xì)節(jié)和瑕疵,需要不斷改進(jìn)和優(yōu)化。AIGC技術(shù)也需要大量的數(shù)據(jù)和計(jì)算資源,才能夠達(dá)到更高的生成效果和質(zhì)量,這也對(duì)技術(shù)的使用和推廣提出了一定的挑戰(zhàn)。
AIGC+虛擬主播:推動(dòng)虛實(shí)融合多樣化進(jìn)程
近兩年來(lái),虛擬主播成為廣電領(lǐng)域內(nèi)熱門話題。許多虛擬主播逐漸嶄露頭角,其中包括中央廣播電視總臺(tái)的“小小撒”和“AI王冠”,以及北京廣播電視臺(tái)的“時(shí)間小妮”、湖南廣播電視臺(tái)的“小漾”、東方衛(wèi)視的“申雅”、“東方嬡”、浙江衛(wèi)視的“谷小雨”等等。
這些虛擬主播已經(jīng)成為廣電領(lǐng)域中的高新技術(shù)標(biāo)配產(chǎn)品,越來(lái)越多的虛擬主播也正在走上前臺(tái)。在眾多虛擬數(shù)字人好看的皮囊下,離不開(kāi)AIGC技術(shù)賦能。虛擬主播是指由計(jì)算機(jī)程序生成的具有人類形象和行為的虛擬人物,目前已成為廣播電視和網(wǎng)絡(luò)視頻領(lǐng)域中越來(lái)越流行的一種形式。
AIGC技術(shù)通過(guò)深度學(xué)習(xí)算法對(duì)大量人類主播的視頻和音頻數(shù)據(jù)進(jìn)行分析和學(xué)習(xí),從而生成具有逼真、自然的語(yǔ)音和動(dòng)作的虛擬主播,展現(xiàn)與真人主播無(wú)異的信息傳達(dá)效果。虛擬主播不受時(shí)間、空間的限制,可以隨時(shí)隨地出現(xiàn)在直播、電視節(jié)目等各種媒體中,成為一個(gè)可以為人們提供有趣、實(shí)用、便捷服務(wù)的新型媒體形態(tài)。
此外,虛擬主播也可以通過(guò)各種動(dòng)畫(huà)特效、配音等手段進(jìn)行二次創(chuàng)作,創(chuàng)作出各種風(fēng)格獨(dú)特的視頻內(nèi)容,為廣播電視和網(wǎng)絡(luò)視頻領(lǐng)域注入更多的創(chuàng)意和活力。
虛擬主播的出現(xiàn)和發(fā)展,極大地豐富了數(shù)字內(nèi)容的形態(tài)和表現(xiàn)方式,對(duì)于拓展數(shù)字媒體的應(yīng)用場(chǎng)景具有重要意義。2022年兩會(huì)期間,百度利用AIGC技術(shù)生成虛擬數(shù)字人主播“度曉曉”,通過(guò)多模態(tài)交互技術(shù)、3D數(shù)字人建模、機(jī)器翻譯、語(yǔ)音識(shí)別、自然語(yǔ)言理解等技術(shù),能夠快速、準(zhǔn)確地播報(bào)新聞內(nèi)容,且具有自主學(xué)習(xí)能力。
“度曉曉”
與此同時(shí),新華社、中央廣播電視總臺(tái)、人民日?qǐng)?bào)社以及湖南衛(wèi)視等國(guó)家級(jí)和省市級(jí)媒體都在積極布局AI虛擬主播技術(shù),并將其應(yīng)用場(chǎng)景從新聞播報(bào)擴(kuò)展至晚會(huì)主持、記者報(bào)道、天氣預(yù)報(bào)等更廣泛場(chǎng)景,為全國(guó)兩會(huì)、冬奧會(huì)、冬殘奧會(huì)等重大活動(dòng)深度賦能。
北京廣播電視臺(tái)發(fā)布了中國(guó)首個(gè)廣播級(jí)智能交互數(shù)字人“時(shí)間小妮”,它利用先進(jìn)的人工智能視頻合成技術(shù),包括人工智能、深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)技術(shù),經(jīng)過(guò)情緒仿真引擎處理,創(chuàng)造出高度逼真的“數(shù)字人”,其外貌、語(yǔ)音、口型、肢體動(dòng)作與真人相似度達(dá)到97%。該數(shù)字人可用于營(yíng)銷宣傳、新聞報(bào)道、教育教學(xué)、智能問(wèn)答等多個(gè)領(lǐng)域,并且擁有廣播級(jí)別的智能交互功能。
“時(shí)間小妮”
虛擬主播通過(guò)AIGC技術(shù)可以實(shí)現(xiàn)24小時(shí)不間斷播報(bào)、無(wú)需人工休息,解決了傳統(tǒng)主播工作中存在的疲勞和失誤問(wèn)題。同時(shí),虛擬主播可以在短時(shí)間內(nèi)適應(yīng)各種語(yǔ)調(diào)和風(fēng)格,滿足不同類型節(jié)目的需求,提高了廣播電視和網(wǎng)絡(luò)視頻制作的效率。
然而,虛擬主播也存在一些局限性。首先,由于缺乏人性化的情感表達(dá)和傳遞,虛擬主播還難以完全取代傳統(tǒng)主播的角色。此外,虛擬主播的知識(shí)和信息來(lái)源受到限制,需要對(duì)其進(jìn)行不斷的數(shù)據(jù)訓(xùn)練和更新,才能滿足用戶不斷增長(zhǎng)的需求。
AIGC+內(nèi)容審核:助力審核高效化發(fā)展
隨著數(shù)據(jù)驅(qū)動(dòng)的經(jīng)濟(jì)社會(huì)的快速發(fā)展,音視頻和文字內(nèi)容的傳播量呈現(xiàn)爆發(fā)式增長(zhǎng)。然而,這其中也存在不良、低俗、暴力等違法違規(guī)內(nèi)容的情況,對(duì)社會(huì)的穩(wěn)定和公序良俗帶來(lái)負(fù)面影響,因此需要更加全面、高效和細(xì)致的審核方式。
AIGC技術(shù)在廣播電視內(nèi)容審核方面發(fā)揮著重要作用。相較于傳統(tǒng)的內(nèi)容審核方式需要耗費(fèi)大量人力物力,AIGC技術(shù)能夠通過(guò)自動(dòng)識(shí)別和分類技術(shù)快速準(zhǔn)確地對(duì)大量?jī)?nèi)容進(jìn)行篩查和審核。
例如,通過(guò)語(yǔ)音識(shí)別和語(yǔ)義理解技術(shù),AIGC技術(shù)可以檢測(cè)和識(shí)別內(nèi)容中的敏感詞匯和暴力內(nèi)容,從而對(duì)違規(guī)內(nèi)容進(jìn)行標(biāo)記和刪除。
此外,AIGC技術(shù)還能夠通過(guò)圖像和視頻分析技術(shù)監(jiān)測(cè)、識(shí)別和過(guò)濾不良內(nèi)容,如色情和暴力畫(huà)面,從而幫助廣播電視機(jī)構(gòu)更好地維護(hù)社會(huì)公共秩序和道德風(fēng)尚。
騰訊與虎牙成立安全聯(lián)合實(shí)驗(yàn)室,共同建設(shè)AI智能審核平臺(tái)。虎牙結(jié)合自研“AI智能識(shí)別、人工審核和網(wǎng)絡(luò)志愿者”三位一體模式,騰訊則全面開(kāi)放“AI+大數(shù)據(jù)”內(nèi)容風(fēng)控安全技術(shù),共同優(yōu)化內(nèi)容識(shí)別能力,以營(yíng)造更為安全的內(nèi)容生產(chǎn)環(huán)境,應(yīng)對(duì)直播平臺(tái)內(nèi)容風(fēng)險(xiǎn)和威脅。
百度提出“AI內(nèi)容風(fēng)控”概念,通過(guò)應(yīng)用圖像識(shí)別、富媒體識(shí)別、NLP、分類/聚類、關(guān)聯(lián)挖掘、機(jī)器學(xué)習(xí)等技術(shù),對(duì)違法違規(guī)、垃圾信息、內(nèi)容質(zhì)量差等情況進(jìn)行風(fēng)控,可跨場(chǎng)景判斷,實(shí)現(xiàn)對(duì)多種內(nèi)容的風(fēng)控,其中99%的信息在上線前被自動(dòng)攔截,減少了人工勞動(dòng)。
AIGC技術(shù)能夠通過(guò)自然語(yǔ)言處理和圖像識(shí)別技術(shù)快速對(duì)大量的數(shù)據(jù)進(jìn)行處理,識(shí)別和標(biāo)記涉黃、暴力、政治敏感等不良信息,幫助審核機(jī)構(gòu)和平臺(tái)快速發(fā)現(xiàn)并刪除違規(guī)內(nèi)容,提高內(nèi)容審核的效率和精度。
然而,AIGC技術(shù)仍然無(wú)法完全替代人類審查,可能會(huì)漏檢或誤判某些內(nèi)容。此外,AIGC技術(shù)本身也存在一定的局限性,例如難以識(shí)別復(fù)雜的隱喻、諷刺等語(yǔ)言形式,難以理解某些具有特殊含義的圖片、視頻等內(nèi)容。
因此,在實(shí)際應(yīng)用中,需要結(jié)合人工審核來(lái)提高審核的準(zhǔn)確性和可信度。
AIGC+智能推薦:完善用戶個(gè)性化體驗(yàn)
隨著用戶需求的日益?zhèn)€性化和多樣化,在內(nèi)容智能推薦領(lǐng)域,AIGC技術(shù)同樣蘊(yùn)藏了諸多可能性,助力增強(qiáng)廣播電視和網(wǎng)絡(luò)視頻領(lǐng)域生產(chǎn)力。AIGC技術(shù)通過(guò)對(duì)用戶的觀看行為、視頻偏好等數(shù)據(jù)進(jìn)行分析,建立完整的用戶畫(huà)像,智能推薦符合用戶興趣的音視頻內(nèi)容,還可以通過(guò)生成個(gè)性化的音視頻內(nèi)容來(lái)滿足為用戶生成個(gè)性化的新聞播報(bào)、廣告宣傳等內(nèi)容特定的需求。
目前,央視視頻、芒果TV、騰訊視頻、愛(ài)奇藝、優(yōu)酷、今日頭條等平臺(tái)均結(jié)合AIGC技術(shù)分析用戶行為和興趣偏好,分析用戶觀看歷史、搜索記錄、點(diǎn)贊、評(píng)論等細(xì)粒度數(shù)據(jù),為用戶提供針對(duì)性更強(qiáng)、內(nèi)容更加精準(zhǔn)的視頻推薦,為用戶提供更佳的觀看體驗(yàn)。
AIGC技術(shù)在智能推薦的應(yīng)用為廣播電視和網(wǎng)絡(luò)視頻行業(yè)的發(fā)展帶來(lái)了巨大的推動(dòng)力,不僅促進(jìn)了視頻內(nèi)容的多樣化、個(gè)性化,提高了用戶的滿意度,還增強(qiáng)了廣播電視和網(wǎng)絡(luò)視頻領(lǐng)域的用戶黏性和競(jìng)爭(zhēng)力。
然而,AIGC技術(shù)在個(gè)性化推薦應(yīng)用中仍存在一些局限性,如對(duì)用戶數(shù)據(jù)的依賴性、算法不透明等問(wèn)題需要進(jìn)一步解決。
03
總結(jié)與展望
隨著數(shù)據(jù)規(guī)模快速膨脹、算力性能不斷提升以及人工智能算法不斷發(fā)展,AIGC能夠替代內(nèi)容創(chuàng)作者完成更多內(nèi)容挖掘、素材查詢調(diào)用等基礎(chǔ)性勞動(dòng),創(chuàng)新內(nèi)容生產(chǎn)范式,為更具藝術(shù)性和創(chuàng)造性的內(nèi)容創(chuàng)作提供可能。AIGC技術(shù)也將會(huì)進(jìn)一步提高生成內(nèi)容的質(zhì)量和準(zhǔn)確度,使得其在視頻制作、音頻制作、文本創(chuàng)作等方面的應(yīng)用更加廣泛,進(jìn)一步豐富用戶體驗(yàn)和提升市場(chǎng)競(jìng)爭(zhēng)力。
值得注意的是,以ChatGPT和GPT-4為代表的AIGC技術(shù)或?qū)⒔o各行各業(yè)帶來(lái)一些變化,也勢(shì)必會(huì)給廣播電視和網(wǎng)絡(luò)視聽(tīng)行業(yè)帶來(lái)一定機(jī)遇和挑戰(zhàn)。
ChatGPT和GPT-4能夠被廣泛應(yīng)用于多模態(tài)任務(wù),輔助提高內(nèi)容創(chuàng)作、編輯和審核效率,推動(dòng)創(chuàng)造新的互動(dòng)范式,為智慧廣電與網(wǎng)絡(luò)新視聽(tīng)?zhēng)?lái)創(chuàng)新可能性,同時(shí)推動(dòng)行業(yè)向更智能化、個(gè)性化和高質(zhì)量的發(fā)展方向邁進(jìn),以提升用戶與設(shè)備之間的交互體驗(yàn),包括語(yǔ)音交互、內(nèi)容推薦、視頻自動(dòng)化處理、內(nèi)容審核和廣告精準(zhǔn)投放等場(chǎng)景。
可以預(yù)見(jiàn)的是,隨著人工智能加速迭代,未來(lái)AIGC功能勢(shì)必越來(lái)越強(qiáng)大,應(yīng)用領(lǐng)域越來(lái)越廣闊,人工智能或?qū)?huì)取代一部分創(chuàng)造性以及創(chuàng)新度不高的工作,這也會(huì)倒逼廣播電視和網(wǎng)絡(luò)視聽(tīng)行業(yè)從業(yè)人員不斷提高創(chuàng)造力和創(chuàng)新能力以構(gòu)建自我的不可替代性。
然而,AIGC技術(shù)的應(yīng)用落地仍然面臨技術(shù)安全性、版權(quán)保護(hù)、隱私保護(hù)和算法不透明等的挑戰(zhàn)。解決這些挑戰(zhàn)需要通過(guò)不斷的技術(shù)創(chuàng)新和改進(jìn)優(yōu)化來(lái)提高AIGC技術(shù)的精準(zhǔn)度和實(shí)用性。
與此同時(shí),為了更好地應(yīng)對(duì)新興AIGC技術(shù)的帶來(lái)機(jī)遇與挑戰(zhàn),廣播電視和網(wǎng)絡(luò)視頻領(lǐng)域更要繼續(xù)加強(qiáng)多維互動(dòng)合作、共同研究,推動(dòng)制定相關(guān)的規(guī)范、標(biāo)準(zhǔn)和政策,以保證AIGC技術(shù)的合理使用與可持續(xù)發(fā)展,打造行業(yè)發(fā)展新增長(zhǎng)點(diǎn),推動(dòng)孕育新業(yè)態(tài)。
【聚焦】流媒體網(wǎng)重磅推出《2021-2022全球OTT核心市場(chǎng)發(fā)展研究報(bào)告》,點(diǎn)擊圖片了解報(bào)告更多內(nèi)容。
責(zé)任編輯:房家輝
分享到:版權(quán)聲明:凡注明來(lái)源“流媒體網(wǎng)”的文章,版權(quán)均屬流媒體網(wǎng)所有,轉(zhuǎn)載需注明出處。非本站出處的文章為轉(zhuǎn)載,觀點(diǎn)供業(yè)內(nèi)參考,不代表本站觀點(diǎn)。文中圖片均來(lái)源于網(wǎng)絡(luò)收集整理,僅供學(xué)習(xí)交流,版權(quán)歸原作者所有。如涉及侵權(quán),請(qǐng)及時(shí)聯(lián)系我們刪除!關(guān)鍵詞: