Home モデル ヒトのAIモデルからチンパンジーの姿勢と3次元構造を推定 Facebookなどが開発 – ITmedia

ヒトのAIモデルからチンパンジーの姿勢と3次元構造を推定 Facebookなどが開発 – ITmedia

26 second read
0
20



Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 独ルプレヒト・カール大学ハイデルベルク、米FacebookのAI Research、独マックス・プランク進化人類学研究所による研究チームが開発した「Transferring Dense Pose to Proximal Animal Classes」は、動画からチンパンジーの姿勢推定を行い3次元形状を取得する深層学習フレームワークだ。人物のデータセットから学習したAIモデルを動物に転用する「転移学習」の手法を使って効率的に学習を行う。


動物クラスの姿勢推定を行うため、既存の人物データソースを用いる

 近年、深層学習を用いて人の姿勢や3次元形状を高精細かつかつ正確に認識できるようになったが、その背景には詳細にラベルが付けられた大規模な人物データセットの存在がある。一方で、人以外の何百万もの動物種に対してのデータセットやモデルは少ない。また、これらのデータセットをゼロから作成するには膨大な労力を必要とするため現実的ではない。

 そこで研究チームは、ラベル付きの人物データセットを人以外の動物クラスに転用し、学習するアプローチで効率化を目指した。今回は人に近いチンパンジーで、DensePose(動画内に映る人物領域の3次元表面を推定する深層学習ネットワーク)モデルを作成する。

 5万人分のラベル付き人物データセット「DensePose-COCO」をチンパンジーに適応させるために、R-CNN(Regions with Convolutional Neural Network)アーキテクチャとファインチューニングのための疑似ラベリングを導入する。

  ファインチューニングのために、人物データセットによる学習済みモデルからチンパンジーの画像に疑似ラベルを生成し、再学習を行う。擬似ラベルは、モデルのすべての構成要素(セグメンテーションやUVマップなど)に対して生成する。

photo
(a)オリジナルのDensePose R-CNNアーキテクチャ(b)チンパンジークラスの改良したR-CNNアーキテクチャ

 これにより学習したモデルは、動画からチンパンジーを検出し、セグメンテーションマスクの計算を行い、各前景ピクセルのためのUV座標を取得する。

photo
左列が入力画像、右側が出力結果

 今回の研究では、人物のデータソースを他の動物種に拡張する学習法を提案した。また、既存の物体検出、セグメンテーションなどは、クラス間の有意差があるにもかかわらず、チンパンジーのような近位の動物クラスにうまく移行できることを実証した。

Let’s block ads! (Why?)


Source link

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

Check Also

機械学習による言語モデルの応用研究を本格化 – PR TIMES

  言語モデルとは、人間が話したり書いたりする「言葉」を、機械学習の技術に基づき単語の出現確率でモデ … …