Researcher

片山 俊明

TOSHIAKI KATAYAMA

所属:
大阪大学 蛋白質研究所 蛋白質構造データバンク構築研究室 招へい教授
研究内容:
生命科学データの標準化と相互運用性を支える基盤技術の開発

Researchmap

研究紹介

生命科学データベースの標準化・相互運用性の向上に取り組み、データ科学のための基盤技術開発を行っている。生命科学では生物の多様性および生命の階層性を受けて多数のデータベースが作られてきているが、生命のシステムや環境の理解のためにはそれらをつなぐことが重要である。例えば、疾患情報とゲノム情報を組み合わせることで疾患関連遺伝子を推定できるが、病気のメカニズムまで理解しようとすると、遺伝子に関係するバリアント・発現制御・修飾や立体構造・相互作用する分子・パスウェイ・細胞・臓器などの情報を組み合わせる必要がある。多様な生命科学データベースの統合利用を実現するためには、各データベースに共通するID・用語・コンセプトなどを統一するとともにデータ形式の標準化が求められるが、表形式や木構造など単純なデータモデルでは既存の生命科学データの複雑な内容を表現することはできない。このため、W3Cの国際標準であり最も柔軟なデータ構造である知識グラフを用い、共通のIDとオントロジーを用いたアノテーションの整備と、集積されたデータの統合利用のための技術開発を行っている。また近年進展している長鎖シーケンサーを用いたゲノムグラフの構築にも取り組んでおり、新時代のゲノム解析と統合データを用いた解釈をシームレスに結合するための基盤研究を推進している。

もっとくわしくQ&A

この研究のユニークな点や強みを教えてください。

生命科学では数千を超える公共データベースが開発・維持されているが、それらが持つ情報を統合的に利用するための仕組みは世界的にもまだ十分に確立されていない。この実現には国際連携が必須であり、国際開発者会議BioHackathonを毎年開催するなどしてデータベース開発者・研究者の人的ネットワークを構築し、データ科学に資するデータ統合と共同研究の推進に取り組んでいる。次世代の生命科学の基盤として、知識グラフとゲノムグラフの2つのグラフデータを両輪として扱う研究開発は、今後の主流となり得るユニークなアプローチであると考えている。

この研究の成果は、社会や産業にどのように役立つと考えていますか?

これまで知識グラフによるデータ統合が最も活用されているドメインは創薬分野であるが、この枠組みは基礎生命科学から地球環境まで幅広く応用できるものである。近年、大規模言語モデルの利用が普及しているが、すでに学習に利用可能な情報の枯渇が指摘されている一方で、バリアントや立体構造など専門的な情報については必ずしも正確な回答ができていないのが現状である。このため、データベースに集積されている正確な知識を引き出し、何が既知で何が未知なのか、それをサポートするデータや文献は何か、といった科学的なファクトをアカデミアの責任で維持することは非常に重要で、社会や産業の課題解決に正しい情報を提供することに繋がる。

この研究では、データサイエンスがどのように活用されていますか?

統合データに対し判別問題など機械学習の各種手法を適用する研究が発展しつつあるが、データの意味を明確に表現することができ機械可読性が高い知識グラフは、このための基盤として最適な技術といえる。一方で膨大で複雑なデータの中から適切な説明変数や目的変数を取得するための仕組みはまだ発展途上であり、このための技術開発を進めている。また、大規模言語モデルとデータベースや知識グラフを結合することはカッティングエッジな研究分野となっており、この進展により統合データへのアクセスと利活用における利便性が向上することが期待される。

共同研究の事例や今後のコラボレーションの可能性について教えてください。

近年の長鎖シーケンサーの進展により、個人ゲノムもT2Tに近い精度で解読されるようになってきており、一塩基多型だけでなく大量の構造多型が同定される時代を迎えている。これらの構造多型およびコピー数変化の発現制御や立体構造および機能への影響の解明が今後のゲノム医科学の大きな課題となる。このため、国内の主要なゲノム変異データベースを管理している研究拠点とバリアント情報標準化研究会を運営してコラボレーションを進めており、構造多型のデータベースにおける表現とアノテーションの標準化に取り組んでいる。また、これまでに蓄積した知識グラフの情報を用いた基盤モデルの開発や、バイオバンクにおけるデータ統合への技術提供などの共同研究も進めている。

今後の研究の展望や目標を教えてください。

生命科学の大規模化にともない、実験のデザインからデータの再利用までデータマネジメントプランの策定が非常に重要になってきている。実験の自動化も含めた生命科学研究のパラダイムシフトが進む中で、どのようなデータを体系的に持つことが新しい仮説生成に資するかといった観点での研究活動の評価も行われるようになるだろう。このとき、人類の知の全貌を明らかにするためのデータの集積とアクセシビリティの保全はデータサイエンスの研究基盤として必須なものとなる。まだ生命や疾患の仕組みは未解明なことだらけであるため、誰もが最新データにアクセスして、これらの謎を一つずつ明らかにする研究の営みに参加できるようにしたい。同時に、共同研究を中心にデータサイエンスを推進し、新しく統合されるデータによる研究成果の創出を目指す。

主な論文、書籍

論文

  1. G.-J. Bekker, C. Nagao, M. Shirota, T. Nakamura, T. Katayama, D. Kihara, K. Kinoshita and G. Kurisu, Protein Data Bank Japan: Improved tools for sequence-oriented analysis of protein structures, Protein Science, 34(3), e70052 (2025).
    https://doi.org/10.1002/pro.70052
  2. S. Ikeda, K. F. Aoki-Kinoshita, H. Chiba, S. Goto, M. Hosoda, S. Kawashima, J.-D. Kim, Y. Moriya, T. Ohta, H. Ono, …, Expanding the concept of ID conversion in TogoID by introducing multi-semantic and label features, Journal of Biomedical Semantics, 16(1) (2025).
    https://doi.org/10.1186/s13326-024-00322-1
  3. S. Nakagawa, T. Katayama, L. Jin, J. Wu, K. Kryukov, R. Oyachi, J. S. Takeuchi, T. Fujisawa, S. Asano, M. Komatsu, …, SARS-CoV-2 HaploGraph: visualization of SARS-CoV-2 haplotype spread in Japan, Genes & Genetic Systems (2023).
    https://doi.org/10.1266/ggs.23-00085
  4. N. Mitsuhashi, L. Toyo-Oka, T. Katayama, M. Kawashima, S. Kawashima, K. Miyazaki and T. Takagi, TogoVar: A comprehensive Japanese genetic variation database, Human Genome Variation, 9(1), 44 (2022).
    https://doi.org/10.1038/s41439-022-00222-9
  5. L. Garcia, E. Antezana, A. Garcia, E. Bolton, R. Jimenez, P. Prins, J. M. Banda and T. Katayama, Ten simple rules to run a successful BioHackathon, PLoS Computational Biology, 16(5), e1007808 (2020).
    https://doi.org/10.1371/journal.pcbi.1007808