バイオインフォマティクス｜ざいつ内科クリニック｜山口市小郡の一般内科、血液内科、アレルギー科

バイオインフォマティクス

日本語では生命情報科学や生物情報学、情報生命科学などと表記される

生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico 解析)ことを目的とした学問分野である。そのためバイオインフォマティクスは広義には、生物学、コンピュータサイエンス、情報工学、数学、統計学といった様々な学問分野が組み合わさった学際分野自体を指す。

バイオインフォマティクスの主な研究対象としては、

遺伝子予測、

遺伝子機能予測、

遺伝子分類、

配列アラインメント、

ゲノムアセンブリ、

タンパク質構造アラインメント、

タンパク質構造予測、

遺伝子発現解析、

タンパク質間相互作用の予測、

進化モデリング、

ドラッグデザイン、創薬、

等の、様々なコンピュータープログラミングを使用した各種の生物学研究分野が挙げられる。

配列解析

種内や種間で遺伝子配列を比較することで、タンパク質機能間の類似性を評価したり、あるいは系統樹を構築することで種間の分子系統学的関係を示すことができる。データ量の増加に伴い、DNA配列を手作業で分析することはすでに非現実的である。今日ではBLASTなどの相同性検索を行うコンピュータプログラムを用いて、例えばGenBankに登録された1600億以上のヌクレオチドを含む260,000を超える生物から配列を検索することが日常的に行われている(数字は2008年のもの)^[17]。これらのプログラムは、DNAシーケンスの変異（塩基の置換、欠失、挿入など）を補正して、類似するが同一ではない配列を検索できる。検索結果は、クローニングした遺伝子の部分情報から遺伝子全体の配列を予測したり、構造が未知のタンパク質の二次構造を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するなどの研究の基盤となる。

DNAシーケンサーからの出力データの解析

DNAシーケンサーから出力される生データには多量のノイズや弱信号が含まれており、下流の解析に悪影響を与える可能性がある。さまざまな実験プロトコルや環境におけるDNAシーケンシングデータからの塩基決定(ベースコール)を行うアルゴリズムが開発されている。

アセンブリ

多くのDNAシーケンス技術は、短い配列フラグメントを生成する。そのため、完全な遺伝子や全ゲノム配列を取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。ヒトゲノム計画では、ある配列断片から順番に配列を解読する手法が考えられていたが、クレイグ・ベンターらによるショットガン法により遥かに高効率で解読が進められるようになった。いわゆるショットガンシーケンステクニック（たとえば、Institute for Genomic Research （TIGR）による最初の細菌ゲノムHaemophilus influenzaeのゲノム決定でも使用された^[18]）は、ゲノム配列をバラバラな短い断片に分断してそれぞれを解読し（シーケンシング技術に応じて、35〜900ヌクレオチド長）、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる(配列アセンブリング)。しかしながら、多くの断片がある中で正しい並び方を決定することはコンピュータの計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度のゲノムの場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。

アノテーション

ゲノミクスの文脈においてアノテーションとは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため、手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。

包括的なゲノムアノテーションシステムは、自由生活生物である細菌Haemophilus influenzaeのゲノムの最初の完全な配列決定と分析を行ったThe Institute for Genomic Researchのチームによって、1995年に初めて報告された^[18]。Owen Whiteは、タンパク質をコードするすべての遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した^[18]。現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えばHaemophilus influenzaeでタンパク質をコードする遺伝子を見つけるために使用されたGeneMarkプログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。

ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、アメリカ国立衛生研究所内の国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。

計算進化生物学

進化生物学とは、種の起源と分化、そして系統の経時的な変化を明らかにする学問分野である。バイオインフォマティクスは進化生物学分野においても重要な役割を果たしている。より複雑な課題としては、生命の木を再構築する研究も進められている。

形態に基づく物理的な分類法や生理学的・生態学的観察のみではなく、ゲノム配列の変化を測定することにより、遺伝学的なアプローチから生物の進化を追跡することができる。
ゲノム全体を比較解析が可能となる。これにより例えば、遺伝子の重複や遺伝子の水平伝達、細菌の種分化に重要な因子の予測など、より複雑な進化的事象の研究が可能になる。
複雑な計算集団遺伝学モデルを構築して、経時的なシステムの結果をシミュレーション予測する研究も進められている^[19]。
従来よりもより多数の生物種や系統において、進化学に関する情報を得ることができ、その結果を研究者間で広く共有することができる。

比較ゲノム解析

比較ゲノム解析の目的の一つは、異なる生物における遺伝子(オルソログ遺伝子）や他のゲノム上の特徴の対応関係を明らかにすることである。また例えば、2つのゲノムが系統上で分岐した際の進化過程は、両ゲノム間の対応関係を取ることで、例えばどのゲノム領域が欠失したり重複したのかを明らかにし、進化過程を追跡することができる。現実的には、様々な組織レベルで作用する多数の進化イベントが組み合わさって、ゲノム進化が形作られる。最も最小レベルでの変化は、個々のヌクレオチドが影響してくる点変異である。一方でより高いレベルでは、大きな染色体セグメントが複製、移動、逆位、転位、欠失、および挿入を受けることがある^[20]。最も大きなレベルでは、ゲノム全体のハイブリダイゼーションや倍数化、そして細胞内共生過程といったイベントに関与し、しばしば急速な種分化を引き起こす。このようなゲノム進化の複雑さは、数学モデルやアルゴリズム開発を行う上でもチャレンジングな課題となっている。そのため、正確なヒューリスティックやパラメーター固定、節約モデルに基づく問題の近似アルゴリズムや、確率モデルに基づくベイズ分析のためのマルコフチェーンモンテカルロアルゴリズムの利用に至るまで、アルゴリズム、統計、および数学的な様々な手法の利用が研究されている。これらの研究の多くにおいては、事前に遺伝子配列を配列相同性に基づいてタンパク質ファミリーに割り当てている^[21]。

メタゲノム解析

環境中には多様で大量の原核微生物系統が生息しており、その生理生態を理解することは、地球上の物質循環やその環境における生態系を理解する上で重要である。そのためには、どのような生理学的機能を持つ微生物が、どのような割合でそこに存在するのか、を理解することが必要である。メタゲノム解析は、環境中に存在する細菌叢サンプルからゲノム DNAを直接回収し、主にショットガンシーケンスを行ってバイオインフォマティクス解析を行うことで、それらに関して解析する、微生物学・ウイルス学の研究分野である^[22]。

パンゲノム解析

パンゲノム解析(Pac Genomics)は2005年にTettelinとMediniによって導入された概念であり、特定の分類群において保持されている遺伝子の網羅的な遺伝子レパートリーを表す。最初は種レベルの近縁系統に適用されましたが、属や門といったより大きな分類群にも適用できる。パンゲノムはコアゲノムとフレキシブルゲノムの2つの群から構成されている。コアゲノムは全ゲノムに共通した遺伝子セットを指し、多くの場合、これらの遺伝子は生存に不可欠なハウスキーピング遺伝子である。一方でフレキシブルゲノム(Dispensable / Flexible Genome)は、1つ以上のゲノムにおいて存在しない一連の遺伝子を指す。例えばバイオインフォマティクスツールであるBPGAを使用して、細菌種のパンゲノムを特徴付けることができる^[23]。

遺伝的疾患

次世代シーケンシングの登場により、不妊症^[24] や乳がん^[25]、アルツハイマー病といった複雑な遺伝性疾患の関連遺伝子をマッピングする研究が進められている^[26]。ゲノムワイド関連研究（GWAS）は、このような複雑な疾患の原因となる変異を特定するための有用なアプローチである^[27]。これらの研究により、類似の疾患や形質に関連する何千ものDNA変異体が特定されている^[28]。さらに、遺伝子情報を予後の推定や診断、治療方針の決定に利用するための研究も進められている。そのために、使用する遺伝子を選択する手法や、疾患の存在または予後を予測するために遺伝子を使用することの問題点の両方について、多くの研究において議論がすすめられている^[29]。

癌細胞の変異解析

悪性腫瘍(癌)においては、癌細胞のゲノムは非常に複雑(予測不可能)な形で組み換えが起きることが知られている。大規模なシーケンシング研究により、癌細胞に見られるさまざまな遺伝子上の点突然変異の特定が進められてきた。このような研究においては、膨大な量の配列データを管理するための専用の自動化システムや新しいアルゴリズムとソフトウェアの作成を通じて、シーケンシングの結果をヒトゲノム配列や生殖系列多型のコレクションと比較するバイオインフォマティクス解析が進められている。また、染色体の増減を比較するオリゴヌクレオチドマイクロアレイ（比較ゲノムハイブリダイゼーション）や、既知の点変異を検出する一塩基多型アレイなど、新しい物理的検出技術が採用されています。これらの検出方法は、ゲノム全体で数十万のサイトを同時に測定することができ、ハイスループットで数千のサンプルを測定する場合、実験ごとに数テラバイトものデータを生成する。そのため、この膨大なデータ量を処理するための新しい手法に関する研究も進められている。また、データにはかなりの変動性またはノイズが含まれているため、実際のコピー数の変化を推測するために、隠れマルコフモデルに基づく変化点分析法が開発されている。また、エクソソームの突然変異の同定では、癌は遺伝子に蓄積された体細胞変異の疾患であり、がんには疾患発症に関係する(ドライバー)変異と無関係な(パッセンジャー)変異の区別される2種類が含まれている、という2つの重要な原則があり、生物情報学的解析を行う上でも重要になっている^[30]。

シーケンシング技術のさらなる進歩により、癌のゲノミクスは劇的に変化する可能性がある。新しい方法とソフトウェアにより、より多くの癌ゲノムをより迅速かつ手頃な価格でシーケンスできるようになれば、がんによるゲノム内変異の分析とがんの種類の分類がさらに発展する可能性がある。さらに、癌サンプルのシーケンスからがんの進行状況を追跡できるようになる可能性も指摘されている^[31]。

遺伝子とタンパク質の発現

遺伝子発現解析

多くの場合、遺伝子の発現はマイクロアレイ、発現cDNAシーケンスタグ（expressed cDNA sequence tag; EST）シーケンス、遺伝子発現連続分析（serial analysis of gene expression; SAGE）タグシーケンス、超並列シグネチャシーケンス（massively parallel signature sequencing; MPSS）、RNA-Seq（またはWhole Transcriptome Shotgun Sequencing; WTSS）、マルチプレックスin-situハイブリダイゼーション、などの手法でmRNAレベルを測定することで決定する。これらの手法はすべて、ノイズが非常に発生しやすく、生物学的な測定バイアスがかかってくるため、ハイスループットの遺伝子発現研究においてこのようなノイズを除去して信頼できる信号を分離する統計ツールの開発が計算生物学の研究分野で重要になっている^[32]。このような遺伝子発現研究は、疾患に関与する遺伝子を特定するためによく使用される。例えば癌性上皮細胞のマイクロアレイデータを非癌性細胞のデータと比較して、特定の癌細胞集団で発現上昇あるいは発現抑制される転写産物を決定することができる。

タンパク質発現解析

タンパク質マイクロアレイとハイスループット（HT）質量分析（mass spectrometry; MS）は、生体サンプルに存在するタンパク質のスナップショットを提供する。得られるタンパク質マイクロアレイとHTMSデータの解析には、バイオインフォマティクスは重要である。前者のアプローチはmRNAをターゲットとするマイクロアレイと同様の問題に直面し、後者は大量の質量データをタンパク質配列データベースからの予測質量と照合し、不完全なペプチドを除くための複雑な統計分析が必要になる。組織における細胞タンパク質の空間局在は、免疫染色や組織マイクロアレイに基づいたアフィニティプロテオミクスによって解析することができる^[33]。

転写調節解析

遺伝子転写調節は、ホルモンなどを含む細胞内外のシグナルによって、1つ以上のタンパク質の活性の増加・減少が駆動される、複雑な調節システムである。このプロセスの各ステップを検証する、様々なバイオインフォマティクス技術が適用されている。たとえば、遺伝子発現はプロモーターのような、ゲノム内で遺伝子に近接した要素によって調節される。プロモーター分析ではまず、遺伝子コード領域に近接しているDNA配列中から、特定の配列モチーフを検出する。これらのモチーフは、その領域がmRNAに転写される際に影響を与える。一方で、プロモーターから離れたエンハンサー要素は、3次元的な相互作用を通じて遺伝子発現を調節することもある。このような相互作用は、染色体コンフォメーションキャプチャ(Hi-C)法による実験と得られたデータのバイオインフォマティクス解析から決定される。

また、遺伝子発現データから、遺伝子転写調節の要因を推測する研究もある。さまざまな状態の組織から得られたマイクロアレイデータを比較して、各状態に関与する遺伝子の挙動を推測することができる。例えば単細胞生物では、細胞周期の段階におけるストレス条件（熱ショック、飢餓など）を比較できる。あるいはクラスタリングアルゴリズムを発現データに適用することで、遺伝子の共発現を解析できる。たとえば、共発現する遺伝子の上流領域（プロモーター）を探索することで、過剰発現を引き起こす調節要素を調べることができる。遺伝子クラスタリングに適用されるクラスタリングアルゴリズムの例には、k平均クラスタリング、自己組織化マップ（SOM）、階層的クラスタリング、コンセンサスクラスタリング、などの手法がある。

細胞組織の解析

細胞内のオルガネラや遺伝子、タンパク質、およびその他のコンポーネントの位置を分析するために、様々なアプローチが開発されている。これらのコンポーネントの位置は細胞内のイベントに影響を与えるため、その分布や局在を調べることは生物系の挙動を予測するのに役立つ。

オルガネライメージング

顕微鏡写真から、オルガネラや分子を検出することができる。

タンパク質の局在

タンパク質の局在化は、そのタンパク質の役割を評価するのに役立つ。たとえば、タンパク質が核で見つかった場合、それは遺伝子調節やスプライシングに関与している可能性がある。対照的に、タンパク質がミトコンドリアで見つかった場合、それは呼吸や他の代謝プロセスに関与している可能性がある。したがって、タンパク質の局在化は、タンパク質機能を予測する上で重要な情報源となる。タンパク質の細胞内位置に関するデータベースや予測ツールといったリソースが構築されている^[34]^[35]。

染色体における核酸立体構造

Hi-CやChIA-PETなどのハイスループット染色体コンフォメーションキャプチャー実験からのデータは、DNA遺伝子座の空間的近接性、すなわち核内で安定的に構造化されている立体的な折りたたみ構造によって、ゲノム配列上のどことどこの領域が近接して存在しているのか、に関する情報を提供する。そのためこれらの実験の分析から、クロマチンの三次元構造を決定することができると考えられる。ゲノムを3次元空間でまとめて構成されたトポロジカル関連ドメイン（TAD）といったドメイン分割に関する研究が、この分野のバイオインフォマティクスの課題となっている^[36]。

構造生物学

タンパク質のアミノ酸配列からその高次(2次、3次、及び4次)構造を予測することは、バイオインフォマティクスの大きな課題の一つである。タンパク質のアミノ酸配列(一次構造)は、それをコードする遺伝子の配列情報から、比較的簡単に決定できる。そして多くの場合、この1次構造は実際の細胞内における高次構造を一意に決定する。つまり、同じアミノ酸配列を持つタンパク質はずべて同じように細胞内でコンフォメーションをとて折りたたまれ、同じ2次構造や3次構造を立体構造を作り出す、ということである（ただし例外としては、牛海綿状脳症（狂牛病）を引き起こすプリオンなどがある）。高次構造の知識は、タンパク質の機能を理解する上で不可欠である。

バイオインフォマティクスの重要なアイデアの1つは、「配列類似性」の概念である。バイオインフォマティクスのゲノム解析では、配列の類似性を利用して、その遺伝子の機能を予測する。具体的には、例えば機能がわかっている遺伝子Aの配列が、機能が不明な遺伝子Bの配列とある程度類似している場合、BがAの機能を共有することが予想される。バイオインフォマティクスの構造分野では、この配列類似性を使用して、タンパク質のどの部分が構造を作り、どの部分が他のタンパク質との相互作用に重要であるか、等を推測する。ホモロジーモデリングと呼ばれる手法では、配列的に類似なタンパク質の構造がわかっていれば、その情報を使用して任意のタンパク質の高次構造を予測する。この手法は、タンパク質構造を予測する有用な手法の一つである。この手法が効果的な例の一つは、ヒトのヘモグロビンと豆類のヘモグロビン（レグヘモグロビン）である。これらは同じタンパク質スーパーファミリーではあるが、遠い親戚関係のタンパク質である。どちらも生体内で酸素を輸送するという同じ目的を果たし、両者で完全に異なるアミノ酸配列を持っているが、構造的には実質的に同一であるため、ほぼ同一の目的を持り、かつ同一の祖先を共有していると考えられている^[37]。

ネットワークとシステムバイオロジー

ネットワーク分析

ネットワーク分析は、代謝ネットワークやタンパク質間相互作用ネットワークなどの生物学的ネットワークの関係を理解することを目的としている。生物学的ネットワークは単一のタイプの分子またはエンティティ（遺伝子など）から構築される。

システム生物学

システム生物学では、細胞内における複雑なプロセスの関係性を分析し視覚化するために、代謝プロセスを担う代謝産物や酵素のネットワークやシグナル伝達経路、遺伝子調節ネットワークといった細胞システムをコンピューターシミュレーションを用いて解析する研究が進められている。

分子相互作用ネットワーク

2020年現在、数万を超えるタンパク質について、X線結晶学およびタンパク質核磁気共鳴分光法（タンパク質NMR）によって3次元構造が決定されている。

テキスト解析

計算言語学による文献分析では、計算と統計に基づく言語学的解析を通じて、増大するテキストリソースからマイニングすることを目的としている。

画像・動画解析

大量の情報量の多い生物医学画像の処理や定量化、分析を加速または完全に自動化するために計算技術を利用する研究も進められている。画像解析システムにおいては、大規模で複雑な画像セットから測定を行うための精度や客観性、そして処理速度の向上が重要になってくる。理想的には、分析システムの発達により、様々なケースにおいて人が画像や動画の判断をする必要がなくなる。このような画像処理システム自体は生物医学分野に固有のものではないが、例えば疾患の診断や研究においてはそれらの分野に特化した画像解析技術が重要になる。具体的な応用分野としては、以下のものが挙げられる。

ハイスループットで高精度な細胞内局在の定量化（ハイコンテンツスクリーニング、細胞組織病理学、バイオイメージ情報学）
形態計測学
臨床画像の分析と視覚化
生きている動物が呼吸する際、肺のリアルタイムの気流パターンを決定する
実験動物の拡張ビデオ録画から行動観察を行う
代謝活性測定のための赤外線測定
DNAマッピングにおけるクローンの重複の推測（たとえばSulstonスコア）

バイオインフォマティクスとコンピュータ

プログラミング言語

研究用プログラムの開発に使われる言語としては他に以下のようなものがあげられる。これらの殆どにそれぞれバイオインフォマティクス用のライブラリが開発されている。

C++ - C言語を元に新しいプログラミングパラダイムを取り入れて開発された言語。
Java - オブジェクト指向および仮想マシンという概念を取り入れた言語である。BioJava というパッケージが存在する。
Perl - 汎用インタプリタ言語である。BioPerl というパッケージが存在する。
Python - 汎用インタプリタ言語である。BioPython というパッケージが存在する。
Ruby - Javaと同じくオブジェクト指向プログラミング言語である。BioRuby というパッケージが存在する。
R言語 - オブジェクト指向の数値解析言語。行列処理・文字列処理・グラフ機能に優れたフリーソフトウェア。FDA公認。CRANシステムで日々機能強化され、Bioconductor ネットワークにパッケージが集約されている。

データベース

データベースは、バイオインフォマティクスの研究と応用に不可欠である。DNAやタンパク質の配列、分子構造、表現型、生物多様性など、さまざまな情報タイプをカバーする多くのデータベースが構築されている。データベースには、実験的に取得される実験データと、分析から取得される予測データの片方または両方が含まれる。データベースはしばしば、特定の生物や代謝経路、目的分子に特化して構築される。また一方で、他の複数のデータベースからコンパイルされたデータを組み込むこともある。バイオインフォマティクスで扱うデータは、一次元の文字列（シーケンス全般）から、三次元構造のマトリクス (PDB)、計算機科学におけるグラフ（ネットワークデータ全般）、遺伝子オントロジーのような有向非巡回グラフ (DAG; directed acyclic graph) といった非常に多岐にわたるデータ構造を持つ。各種のデータベースは、ファイル形式やアクセスメカニズム、パブリックかどうか、などの様々な点で差異がある。生物学研究に用いられる主なデータベースは、以下のようなものが挙げられる（カッコ内は具体例）：

配列データベース（DDBJ, EMBL, GenBank [1], Swiss-Prot [2]）
立体構造データベース（PDB [3]）
パスウェイ・ネットワークデータベース（KEGG [4], BIND）
マイクロアレイデータベース (ArrayExpress, GEO)
文献データベース（MEDLINE/PubMed [5]）
オントロジーデータベース（遺伝子オントロジー）

ソフトウェア

バイオインフォマティクス用のソフトウェアツール（英語版：Software tools for bioinformatics）は、単純なコマンドラインツールから、さまざまなバイオインフォマティクス企業や公的機関が提供するより複雑なグラフィカルプログラム、スタンドアロンのWebサービスなど、多岐に渡り、非常に多くのバイオインフォマティクスソフトウェアが開発され公開されている。多くのソフトウェアがオープンソースとされており、研究者は自由に利用することができる場合が多いが、有償のものもある。データベースを基盤とするソフトウェアは、開発元がWebブラウザから利用できるウェブアプリケーションとして公開している場合も多い。

オープンソースのバイオインフォマティクスソフトウェア

1980年代にバイオインフォマティクスが盛り上がって以来、多くのフリーでオープンソースのソフトウェアツールが開発され公開されている^[38]。新しいタイプの生物学的な成果を生み出すためには、新しいアルゴリズムを開発することが必要になることも多い。一方で、革新的なin silico実験から新たな知見を得られる可能性もある。そのため、ソフトウェアを自由に利用できるオープンコードで無料で公開することで、あらゆる研究グループがバイオインフォマティクスに貢献する文化が育まれている。オープンソースツールは、アイデアを生み出し育む器として機能し、商業的アプリケーションに組み込まれることもある。また、生体情報統合の課題を支援するための、事実上の標準化や共有オブジェクトモデルを提供することもある。

オープンソース・ソフトウェア・パッケージには、Bioconductor、BioPerl、Biopython、BioJava、BioJS、BioRuby、Bioclipse、EMBOSS、.NET Bio、Orange、Apache Taverna、UGENE、GenoCAD、などのソフトウェア類が挙げられる。また、この伝統を維持し、さらなる機会を創出するために、非営利のOpen Bioinformatics Foundation^[38] は、2000年以来毎年開催されるBioinformatics Open Source Conference（BOSC）を支援してきている^[39]。

パブリックなバイオインフォマティクスデータベースを構築する方法としては、WikiOpener拡張機能を備えたMediaWikiエンジンを使用する方法もある。このシステムでは、その分野の研究者が各自でデータベースにアクセスして更新することができる^[40]。

バイオインフォマティクスのWebサービス

SOAPおよびRESTベースのインターフェースが、さまざまなバイオインフォマティクスアプリケーション向けに開発されている。このようなシステムの元では、サーバー上に保管されているアルゴリズムやデータ、コンピューティングリソースに対して、世界中のコンピューター上からアクセスしてアプリケーションを実行することができる。エンドユーザーがソフトウェアやデータベースのメンテナンスのオーバーヘッドに対処する必要がないという利点がある。

基本的なバイオインフォマティクスサービスは、EBIによる3つのカテゴリに分類できる。シーケンス検索サービス(SSS)、シーケンスアライメント(MSA)、生物学的シーケンス分析(BSA）である^[41]。これらのバイオインフォマティクスリソースの可用性は、Webベースのバイオインフォマティクスソリューションの適用性の広さを示している、このようなWebサービスは、スタンドアロンの各種ツール類から、統合型の分散型で拡張可能なバイオインフォマティクスのワークフロー管理システム(bioinformatics workflow management systems)まで、幅広く存在する。

バイオインフォマティクスワークフロー管理システム

バイオインフォマティクスワークフロー管理システムは、バイオインフォマティクスアプリケーションにおける一連の計算やデータ操作のステップ、つまりワークフローを構成し実行するために設計された、ワークフロー管理システムの特殊な形式である。下記の様な特徴があり、例としてはGalaxy、Kepler、Taverna、UGENE、Anduril、HIVEなどが挙げられる。

個々のアプリケーションサイエンティスト自身が独自のワークフローを作成するための、使いやすい環境を提供する。
科学者がワークフローを実行して結果をリアルタイムで表示できるようにする、インタラクティブなツールを科学者に提供する
科学者間のワークフローの共有と再利用のプロセスを簡素化する
科学者がワークフロー実行結果の出所とワークフロー作成ステップを追跡できるようにする。

BioCompute

2014年に米国食品医薬品局は、バイオインフォマティクスの再現性について議論する会議を主催し、国立衛生研究所のベセスダキャンパスで開催された^[42]。それから3年間に渡り、政府、業界、および学術団体の代表によるコンソーシアムが定期的に開かれ、BioComputeパラダイムについて話し合いが行われた^[43]。セッションリーダーは、FDAとNIHの研究所とセンターの多数の支部、Human Variome ProjectやEuropean Medical Federation for Medical Informaticsなどの非営利団体、Stanford、New York Genome Center、George Washington Universityなどの研究機関の代表であった。

この会議によりBioComputeは、バイオインフォマティクスプロトコルの再現性、複製、レビュー、再利用を可能にするデジタル「ラボノートブック」形式のパラダイムを決定した。これは、グループ間のアイデアの交換を促進しながら、通常の人員流動の過程で研究グループ内のより大きな継続性を可能にするために提案されていた。

2016年、グループはベセスダのNIHで再招集し、BioComputeパラダイムの例であるBioComputeオブジェクトの可能性について議論をすすめた。この成果は、'standard trial use'ドキュメントとbioRxivにアップロードされたプレプリント論文として発表された。BioComputeオブジェクトを使用すると、JSON化されたレコードを従業員、共同編集者、規制当局間で共有することができる^[44]^[45]。

教育プラットフォーム

バイオインフォマティクスの概念と方法を教育するために、様々なプラットフォームが設計されている。たとえば、スイスのバイオインフォマティクス研究所トレーニングポータルを通じて提供される ROSALIND のオンラインコースが挙げられる。カナダのバイオインフォマティクスワークショップは、クリエイティブ・コモンズライセンスに基づいて、ウェブサイトのトレーニングワークショップのビデオとスライドを提供している。 4273πプロジェクトまたは4273piプロジェクト^[46] も、オープンソースの教育資料を無料で提供している。このコースは低コストのRaspberry Piコンピュータを利用し、大人や学校の生徒を教えるために使用されている^[47]^[48]。4273πは、Raspberry Piコンピューターと4273πオペレーティングシステムを使用して、研究レベルのバイオインフォマティクスを利用している研究者や研究スタッフによるコンソーシアムによって積極的に開発されている^[49]^[50]。

2024年8月8日 | カテゴリー：AUTODOCK VINA　, 基礎知識/物理学、統計学、有機化学、数学、英語, 創薬/AUTODOCK |