テーマ4:
機械学習や数理モデリングによるメタボロームのデータマイニング
概要
メタボローム解析は数百を超える非常に多数のサンプルを用いて数百以上の代謝物の測定が可能である一方、それに伴い得られるデータ量も膨大なものになります。明確な仮説を持たないメタボローム解析、言い換えれば「測定してみれば何かがわかるかもしれない」という分析では膨大なデータの中から何かしらの傾向・法則を見出し仮説を構築する必要がありますが、これを人の知識や感覚の元に行うことは限界があります。
現在世の中に流通している農作物や園芸植物は人の手によって育種されてきたものです。近年では重イオンビームなどの突然変異誘発処理により新たな形質を持った植物の作成は以前と比べ容易になってきました。一方で、これまでの研究結果から、変異誘発に用いる系統によって目的の形質が生まれる効率が異なることが明らかになっています。例えばキクは突然変異誘発により様々な花色の系統が作出されていますが、突然変異誘発によって多様な花色を生じる親系統とほとんど生じない親系統があることが明らかになっています。しかし、その理由は明らかになっていないことから、現在様々な花色の育種を行うには多くの労力とコストがかかっています。
我々は戦略的イノベーション創造プログラム(SIP)において、まず、突然変異誘発により生じた様々な花色のキク系統のメタボローム解析を行いました。さらに、得られた結果について、ラッソを使用した教師ありロジスティック回帰という手法の機械学習を行いました。メタボローム解析データを一般的によく行われる主成分解析(PCA)にかけた場合は花色によってサンプルのキク系統が分離した一方で、機械学習により解析したものでは突然変異効率ごとに分離する識別モデルが生成されました。このモデルを元に突然変異効率に関連した11の代謝物の選抜に成功し、これらをバイオマーカーとして測定するだけで突然変異効率の予測が可能になりました(Sawada et al. 2019, Metabolomics)。
また、同プロジェクトにおいてトマトの開花率の予測をメタボロームデータと機械学習を用いて行いました。その結果、トリゴネリンと呼ばれる代謝物が最も開花率を予測するためのバイオマーカーである可能性が示唆されました(Siriwach et al. 2022 Frontiers in Molecular Biosciences)。
このように、メタボロームデータと機械学習を組み合わせることで、各種バイオマーカーの特定が効率的に行えることがわかりました。現在においては非常に多数の植物においてゲノム構造や遺伝子発現情報も明らかになってきており、メタボロームデータのみならずこれらも組み込むことでより効率的なバイオマーカーの探索も行っています。
研究成果
- キクの突然変異育種における花色変異の起こりやすさをメタボロームデータから予測する判別モデルを構築した。(Sawada et al. 2019 Metabolomics)