目次(まとめ)
- 「敵対的生成ネットワーク」は、いたちごっこをしながら学習する
- 観測数の少ないデータを「敵対的生成ネットワーク」を用いて増やす
- 参考文献
こんにちは、みっちゃんです。
今回の記事では、有名科学誌であるネイチャー(Nature)の姉妹誌から以下の記事を紹介します。
※記事のエッセンスだけ抜き出して初心者向けに紹介していますので、内容の詳細に興味がある方は(当然ですが)原著論文をご参照ください。
紹介記事(Reference)
Marouf, M. et al., Realistic in silico generation and augmentation of single-cell RNA-seq data using generative adversarial networks, Nature Communications 11, 166 (2020).
ディープラーニングの技術にもいろいろありますが、その中でも「敵対的生成ネットワーク」と呼ばれるものが、近年注目されています。
今回の記事では、「敵対的生成ネットワーク」を用いて、生物医学研究の課題に対処する試みについて紹介します。
「敵対的生成ネットワーク」は、いたちごっこをしながら学習する
「敵対的生成ネットワーク(GAN: Generative Adversarial Networks)」は、2つのネットワークからなります。
1つは「生成器(generator)」、もう1つは「識別器(discriminator)」です。
これら2つのネットワークが「敵対」関係にあるということです。
例えば、「馬の画像」を「馬」、「シマウマの画像」を「馬ではない」と識別できる「識別器」があるとします。
ここで、「限りなく馬に近いシマウマの画像」を生成してあげると、「識別器」は間違って「馬」だと識別してしまうかもしれません。
このように、「識別器」に間違った識別をさせようとする内容(画像など)を生成するのが「生成器」です。
「生成器」は「識別器」が間違うことを目指し、「識別器」は正しく識別することを目指しながら、学習していきます。
この敵対的関係は、怪盗と探偵、偽札偽造犯と警察、といった関係で例えられます。
この学習によって生成された「生成器」や「識別器」はさまざまな用途で使用することができます(参考文献などをご参照ください)。
観測数の少ないデータを「敵対的生成ネットワーク」を用いて増やす
生物医学研究、特にヒトを対象とする場合、以下のような課題があります。
- 利用できる生体サンプルが少ない
- サンプルを得るための費用が膨大である
- 倫理的な理由により観察の数を増やすことができない
これらの課題を克服して、データ数を増やすことができれば、より充実した研究を行うことができるようになります。
紹介論文の著者らは、私たちを構成している1つ1つの細胞に含まれる分子(遺伝子)の量を知るために「敵対的生成ネットワーク」を活用しました。
コンピュータ上でデータを増やすことができるということで、統計的な考察を十分に実施できるようになるなど、さまざまな利点があります。
研究分野横断的に、技術が融合していくといいですね。
参考文献
「敵対的生成ネットワーク」のしくみ、講談社 Webページ