米Disney Researchとスイス連邦工科大学チューリッヒ校による研究チームが開発した「High-Resolution Neural Face Swapping for Visual Effects」動画内の人物の特徴を保持しながら、顔だけを転移させる手法は、深層学習を用いた手法で大きな成果を出しているがメモリの制限、学習手順の不安定性、データサンプルの選択などで、高解像度画像の生成が困難な場合が多い。今回の手法は、顔の入れ替えを高解像度で写実的に行う教師なし学習アーキテクチャだ。コントラストと光(低周波照明)を維持する合成ステップと、時間的に安定したビデオシーケンスを生成するためのランドマーク安定化アルゴリズムを含む。まず、ターゲット画像から検出した顔のランドマークを特定し、1024×1024の解像度に正規化する。次に正規化された顔をネットワークに投入し、ソース画像を基にしたマスクを出力し保存。最後にソース画像の顔をターゲット画像の顔領域に合成。画像間の照明条件が大きく異なっている場合は、継ぎ目を自然にするため、さらにコントラスト量を調整して統合する。このようにして学習したモデルは、高解像度での操作時に発生するゆがみや時間的不安定性、データ中の照明条件が異なる場合で起こる多くの問題を克服し、高解像度で写実的な合成画像が生成できたとしている。