血液専門医と医療関係者のための情報サイト「ヘマトパセオ」

気鋭の群像Young Japanese Hematologist

統計学から血液疾患のゲノム解析の道へ
がんゲノムの配列と構造の完全な再現を目指す(前編)

白石友一(国立がん研究センター研究所 ゲノム解析基盤開発分野 分野長)

大学院時代は数理統計学の研究に従事し、その後、次世代シークエンサー(NGS)の情報解析パイプライン開発をきっかけに血液学との関連を深めるようになった白石友一氏。現在は、国立がん研究センター研究所でゲノム解析のプラットフォームの開発を進めている。特に、公共オミクスデータレポジトリからの知識獲得基盤の構築、さらに最新のシークエンス技術を駆使してがんゲノムの配列と構造を完全に再現することを目指して日々研究を進めている。

白石友一氏
国立がん研究センター研究所の白石友一氏

 2018年4月から、国立がん研究センター研究所細胞情報学分野ユニット長を務め、2020年4月からは同研究所ゲノム解析基盤開発分野の分野長に就任しました。これまで、がんゲノムシークエンス解析パイプラインの開発、それに付随する後天的変異の検出や、構造異常の検出ツールの開発を行なってきました。さらに、機械学習に基づく変異のパターンマイニングの方法論、ベイズモデルに基づいたスプライシング変異のスクリーニング手法の開発など、様々な統計的方法論の開発と、それらを用いた大規模がんゲノム解析プロジェクトに参画してきました。今後も、機械学習やクラウドといった情報技術を取り入れた情報解析の基盤を開発し、自ら新しい知見を見出しつつ、多くのがん研究者による新しい発見に貢献していきたいと考えています。

 大学で統計学の理論研究をしていた私が、色々な道を辿って血液学、そして、がん研究分野に深く関わって研究を進めるようになりました。ゲノム解析に携わり、今は血液を含むすべてのがんを対象に完全ゲノム配列と構造の再現に挑んでいます。

数学が好きで東大の計数工学科へ
現象に基づく統計学に興味を抱く

 私は千葉県茂原市の出身で、高校までは県内の学校に通い、1999年4月に東京大学教養学部理科Ⅰ類に入学しました。理Ⅰを選んだのは、中学時代から数学が好きだったというのが一番大きな理由です。3年生からは工学部計数工学科に進みました。計数工学科は純粋な数学ではなくて工学的側面を重要視した応用数学を追究するところで、なんとなく純粋数学よりも自分に合っているかなと直感していたこと、あと、計数工学科は最近ではAIブームから進学に必要な成績の底点が上がってきているようですが、当時は自分の成績でも進学することができたということもあります。応用数学の中でも、特にデータを扱う研究に当時から興味があったので、統計学を研究する研究室に進みました。その後、博士課程では、総合研究大学院大学に進学し、当時は広尾にあった統計数理研究所に通い、学位を取得しました。

 実際に統計学の分野に進んで研究を進めていると、当時、自分の周辺では、実際のデータを解析することよりも統計手法の数学的な性質を研究する理論研究に重きが置かれていることもあって、実は「自分の肌に合わないな」ということも感じていました。自分は正直なところ劣等生の方で、それでも理論研究をなんとか進めようとしていましたが、博士号を取得するには限界を認識し始めていました。ただ、無理をしてでもなんとか理論研究を頑張っていたことは、その後のキャリアに深いところで生かされていると思います。

 博士課程終了の頃に転機が訪れ、東京工業大学(現・京都大学大学院)の下平英寿先生から、理化学研究所(理研)でシステム生物学を研究している岡田眞里子先生(現・大阪大学)が統計学ができる人を探していると連絡をいただいて、理研に勤務することにしました。理論的な統計研究から完全に分野を変えることは、大きな決断でした。理研では生物学を一から勉強しつつ、遺伝子発現データのモデリング研究に従事しました。その過程で近くの色々な分野の方々と話したり、ほんの少しだけ細胞実験をさせてもらったり、非常に貴重な体験をさせてもらいました。岡田先生には本当に伸び伸びと研究をさせていただきました。

大学院時代の統計理論勉強合宿にて
大学院時代の統計理論勉強合宿にて

東大医科研で京大とゲノム解析の共同研究へ
データ解析パイプラインのGenomonを開発

 私が血液学の領域と関わることになったのは、2010年10月に東京大学医科学研究所の宮野悟先生(現・東京医科歯科大学)の研究室に移ってからのことです。ちょうど宮野先生が領域代表の「システムがん」と呼ばれる新学術領域研究のプロジェクトを立ち上げ、東京大学医学部附属病院の小川誠司先生(現・京都大学)のチームが班員だった縁で、共同研究が始まりました。

 小川先生の研究室では、NGSによる遺伝子変異の解析を日本で先駆けて始めており、宮野研はゲノム解析のための解析パイプラインの構築を担当することになりました。当時はNGSの黎明期であり、後天的変異を検出する方法論の整備が進んでいないこと、大量の検体の処理のためにスパコン上に解析パイプラインを実装することなど数多くの課題がありました。最初はミーティングベースで共同研究・開発を進めていましたが、コミュニケーションがうまくいかないことが多く、紆余曲折の末、自分が本郷にある小川研に出向き週4〜5日ほどフルタイムで滞在して開発することになりました。2011年3月の東日本大震災の瞬間も小川研で働いており、その日は大変な思いをして帰宅したことを覚えています。

 私は、シークエンスデータから後天的変異の検出に加えて、後天的変異のアノテーションプログラム、シークエンスデータの品質評価や、データの取り違えなどの対処など、シークエンス解析研究に必要な事項を相当網羅したプログラムの開発を一手に行ないました。正直なところ、統計学とはほとんど関係なく自分がそれまでにやっていた統計手法開発にも結びつかない仕事が多かったので、キャリア的に少々不安に感じることもありました。ただ、今考えると、この時になんでもやってみて現実のデータ解析プロジェクトでの全体工程を体系的に理解できたことは本当に良かったと思います。どうしても統計学を専門として生物学に関わると、解析工程の中の一部のモジュールのみを数理的に詳細に詰めるというようなスタンスになりがちなのですが、その呪縛から逃れて、プラクティカルに現実世界の「問題を解く」ということについての俯瞰的なイメージを持つことができたと思います。また、本当に幸運なことに、骨髄異形成症候群(MDS)でのRNA splicing関連の遺伝子発見の仕事に貢献することができました(Yoshida et al., Nature, 2011)。当時の小川研で集まっていた吉田健一先生(現・国立がん研究センター)、鈴木啓道先生(現・国立がん研究センター)、片岡圭亮先生(現・慶應義塾大学、国立がん研究センター)など、その後日本のがんゲノム解析研究をリードされる先生方という知己を得ることができたことも貴重な経験でした。

 この時に開発していた解析パイプラインをベースとして、2012年には千葉健一氏(現・国立がん研究センター)と解析パイプラインの「Genomon」をリリースすることになりました。また、2016年には岡田愛氏(現・国立がん研究センター)というメンバーも加わり、全ゲノム解析、トランスクリプトーム解析にも対応した「Genomon2」をリリースしました。この過程で、小川先生の絶大なパワーと信頼力もあり、Genomonは日本で数多くの研究者に利用され、多くの新規の発見に貢献できたことは、とても幸運なことだったと思います。また、片岡圭亮先生を中心に開発された血液がんの遺伝子パネル検査でもGenomonが中心に使われていて、ここでも血液学分野へも貢献できているのかなと感じています。

〈後編では、京大小川研究室との共同研究で、がん種横断的にPD-L1の構造異常を調査されたことや、国立がん研究センター研究所のゲノム解析基盤開発分野の分野長となられてからの新しいご研究についてお話しいただきました。〉