[2105.01601] MLP-Mixer: An all-MLP Architecture for Vision (arxiv.org)
Googleの今月の論文。たたみこみニューラルネットワークなんて使わずにただの多層パーセプトロンで画像認識できますよーという驚きの内容。アーキテクチャの工夫に苦労なんかしなくても単純なモデルを巨大化させるだけでよいというのは興味深い,・・・というか脳筋ですな。
パラメータが数億もあるようなモデルは学習させるだけでももはや個人や中小企業では手が届かない領域なので,再現性を誰がどうチェックするんだろうというモヤモヤは残る。