孫准教授の研究室に訪問して(図1)、研究インタビューをさせていただきました。
助成研究の概要
画像圧縮は、画像の保存・再利用および伝送の負担を軽減するために重要です。従来から画像圧縮規格は30 年以上にわたって開発されてきました。最近は、ニューラルネットワークベースの学習型画像圧縮が急速に進歩し、最新の方法はPSNR やMS-SSIM のような多くの評価で従来の画像圧縮標準を上回っています。
一般にニューラルネットワークを使えば圧縮率は向上しますが、計算量が非常に多くなります。ニューラルネットワークの処理をエネルギー効率よく高速化するには、ハードウェアアクセラレーションが必要となり、さまざまなハードウェア・アクセラレーターの中では、FPGA 実装が最も有望と考えています。これまでのアルゴリズムとFPGA アーキテクチャを個別に開発した先行研究とは異なり、本研究では、アルゴリズムとアーキテクチャの協調最適化により、FPGA 学習型画像圧縮システムを目指します。
これまでの取り組み
私は、学生の頃から画像圧縮の研究を行っていて、近年は深層学習という技術を使った画像圧縮の研究に興味を持って取り組んでいます。
画像データは、インターネット通信トラフィックの80%以上を占めています。容量の大きい画像データを直接転送とか保存とかはできません。そこで、画像をエンコーディング※1して容量が小さいバイナリデータに変換し転送や保存を行うことにより、通信の負荷を軽減することができます。これが画像圧縮技術です。圧縮されたデータは、デコーディング※1された画像として視聴することができます(図2)。
画像圧縮技術には国際標準化の規格が設定されていますが、私の研究テーマである深層学習による画像圧縮技術は、既存の画像圧縮規格と同等以上の圧縮コーディング効率を達成しています。研究の方向性としては、2つの方式があります。1つ目は、規格で標準化された動画像から予測とか変化を部分的にニューラルネットワーク※2に置き換える方式、2つ目は、エンドツーエンドの方式で、部分的ではなくフレームワーク全体がニューラルネットワークを使って、エンコーディングとデコーディングを行い、エンドツーエンドで最適化を図り、圧縮率をさらに向上させる方式です。矢崎科学技術振興記念財団の研究助成は、この2つ目の方式と関係があります。
これからの発展
大規模言語モデルを使った画像処理のテーマを考えています。
例えば、ChatGPTに画像の内容をテキストで説明させて、画像とテキストデータをエンコーディングすることにより、圧縮率をさらに向上させるという使い方です。
多くの研究者がChatGPTの使い方について、いろいろ試しています。基本的な標準のフレームワークはなく考え方次第なので、如何にオリジナリティを出すかが求められています。
画像圧縮技術の実際とゼロレイテンシー
孫先生が開発されたアルゴリズムとアーキテクチャを協調最適化したFPGA 学習型画像圧縮システムのデモを行っていただきました。
カメラから入力された私たちの画像がFPGAでエンコーディングされて、インターネット通信トラフィック経由でデコーディングされた画像をプロジェクタで投影します。私たちの動きに対して投影された画像は少しだけ遅れています。この遅れを無くすために、深層学習により直近のフレームを使って将来のフレームを予測して出力することにより遅延を無くす、ゼロレイテンシーの画像伝送方法を検討されている研究者もいるとのことでした。
羊角面包(yáng jiao miàn bāo)とは
孫先生の研究室のホワイトボードに書かれていた中国語で、羊の角の形の面包(パン)と書いてクロワッサンを意味します。ベルギーのクロワッサンが特に美味しいとのことでした。
研究室訪問の帰りにクロワッサンを買って帰り、おいしく頂きました(図3)。
※1エンコーディングとデコーディング
エンコーディングは、デジタルデータを一定の法則で目的に応じた符号に変換する作業
デコーディングは、その逆変換作業のこと
※2ニューラルネットワーク
人間の脳の神経細胞(ニューロン)を模した数理モデルで、機械学習や人工知能の基盤となる技術
|