2022第二屆

字級:
小字級
中字級
大字級

獨步全球深度學習影像壓縮技術 屢獲國際肯定

研發服務平台亮點成果獎─優等獎

使用平台:國家高速網路與計算中心「台灣杉二號AI超級電腦」

資訊科技不斷推動人類的生活朝向更精彩、更便捷的方向前進,其中多媒體應用發展更是創造產業競爭力的關鍵技術,從早期的錄影帶、VCDDVD,到如今在網路發展之下所帶動的智慧型手機、平板電腦、視訊技術、虛擬實境等,隨時隨地都能夠立刻記錄或播放影像,甚至5G時代還能體驗異地同步的視訊。這些科技背後皆仰賴著影像及視訊壓縮技術發展,才能在有限的容量或是網路頻寬中傳輸影片或圖片。

陽明交通大學資訊工程學系教授彭文孝專注於研發新世代影像及視訊壓縮技術,自2000年至2017年持續參與國際壓縮標準會議,帶領台灣影像及視訊壓縮技術與國際接軌。在深度學習蓬勃發展的時代,彭文孝團隊希望在學習式影像及視訊壓縮技術研發上,能夠走在世界前端,建立新一代影像及視訊壓縮標準。

壓縮技術進入深度學習時代


彭文孝為我國影像及視訊壓縮技術頂尖專家,回顧自己的學術之路,彭文孝說他的資訊魂是被高中時期的「80286電腦」所啟發。父母親買的第一台電腦讓他開始對於程式語言產生興趣,不過早期的電腦還無法播放影片,後來逐漸可以在傳統手機或電腦上播放小畫面的影片,讓彭文孝對於播放技術原理感到好奇,因此在大學期間透過專題研究,一直到碩士、博士都是專攻影像及視訊相關研究。彭文孝笑說:「好像我的研究生涯全是做同一個題目,這對某些人來說會覺得是在一個很窄的範圍,但是我認為這個領域非常特殊,它是少數幾個技術領域可以持續這麼多年還在繼續發展,甚至在人工智慧浪潮之下,又迎來了全新的機會。」

彭文孝說明,從前影像和視訊壓縮技術是以服務人群為主,例如光碟、YouTube,或者是線上視訊會議工具ZoomFaceTime等,用途都是傳輸影像和視訊。不過隨著深度學習技術出現,發展出為了訓練生成式模型的影像及視訊壓縮技術,例如,當我們使用手機拍了一張照片上傳到雲端,透過數據中心的神經網路可以辨識照片中是不是有人,或者是不是有其他動物。這樣的辨識工作是在數據中心中運作而不是在手機裝置裡面,因此就產生了影像及視訊壓縮傳輸的需求,只是它的傳輸目的是給雲端機器做應用,尤其是在未來5G6G的世代下,傳輸頻寬更高、傳輸延遲非常低,對影像及視訊壓縮傳輸技術的優化也將更加受到重視。

學習式壓縮技術的三大發展趨勢


目前學習式影像及視訊壓縮技術大致上可分為三大主軸:「基於AI的壓縮」(AI-based Compression)、「AI輔助的壓縮」(AI-assisted Compression)、「併合式的壓縮」(Hybrid-based Compression)。這三者主要的差別在於AI-based是想把整個影像壓縮系統的主要結構,完全利用類神經網路來取代;AI-assisted希望透過深度學習的技術來輔助既有的壓縮技術,提升它的效能;而Hybrid-based則是用類神經網路來取代壓縮器裡部分元件的運作,提升整體編碼效率。

彭文孝認為這三種技術都有自己強項的領域,舉例來說,現在國際視訊或是影像編碼標準,主要朝向Hybrid-based發展,因為在目前技術上不需要做很大程度的改變,只是把一些元件換掉就能提升壓縮效能;AI-assisted因對於技術變更的規模更小,只是利用AI的技術去增強壓縮的效能,目前已經有許多的產品實際應用案例;而AI-base目前還是比較前瞻性的應用,也是許多科技巨擘和科學家努力研發的方向。

國網中心將MIT能量推向國際舞台


彭文孝團隊在這三大領域中都具備創新技術突破,在AI-based端對端學習式影像壓縮系統,團隊在2021年第一個提出使用擴增式高斯化流(Augmented Normalizing Flows, ANFIC)為主幹的影像壓縮系統,此技術在2022年也有新的突破,已超越H.265/HEVC,正朝向最新的H.266/VVC效能前進。在AI-assisted以增強式學習進行編碼優化壓縮技術方面,團隊首創在不更改既有的編解碼器前提之下,提高壓縮效能,技術發表在2021年數據壓縮研討會(Data Compression Conference),獲得廣大的迴響,目前已申請專利也獲得產業合作機會。此外,在Hybrid-based方面的研發成果也在2020JPEG AI競賽獲得第二名的好成績。

團隊能有如此的好成績,彭文孝表示要特別感謝國家高速網路與計算中心(簡稱國網中心)長期以來的支持。訓練一個處理視訊的類神經網路需要強大的圖形處理器(GPU)算力,一般學校的實驗室負擔不起昂貴的GPU,因此在國網中心建置台灣杉二號AI超級電腦之前,彭文孝實驗室主要以影像壓縮研究為主。影像跟視訊的差別在於,視訊基本上是由許多張影像構成的,例如一秒鐘視訊可能有60張高畫質影像(或照片),利用生成式模型做照片壓縮並不需要很大的運算資源,不過涉及到視訊就必須仰賴超級電腦。彭文孝認為,如果沒有國網中心,一般實驗室的設備大概很難在AI領域有很大的突破,國網中心的資源與服務幫助團隊大幅縮短研究時間,產出多項國際頂尖的研究成果,無論是在國際競賽或是國際大型學術會議中,都獲得肯定與迴響。

視覺效果比較 - 端對端學習式影像壓縮視覺效果比較 - 端對端學習式影像壓縮
視覺效果比較 - 端對端學習式視訊壓縮視覺效果比較 - 端對端學習式視訊壓縮
視覺效果比較 -以增強式學習進行編碼優化壓縮技術視覺效果比較 -以增強式學習進行編碼優化壓縮技術

如今人工智慧研究百花齊放,國內有越來越多新的研究團隊加入深度學習的行列,同時也有既有團隊的研究已經做到全球拔尖的地位。對於國內AI研究團隊最重要的根基就是國網中心的運算資源,沒有運算資源,就像是把團隊的插頭拔掉一樣,不僅讓研究失去動力,也可能造成前功盡棄的遺憾。因此彭文孝非常感謝國網中心能夠持續支持國內前瞻研究,也期待未來國網中心能夠持續壯大運算資源,為台灣科研挹注最強大的進步動力。

彭文孝與多媒體架構與處理實驗室成員彭文孝與多媒體架構與處理實驗室成員