Quantcast
Channel: Amazon Web Services ブログ
Viewing all articles
Browse latest Browse all 446

新しく追加したAWSパブリックデータセット– 3000イネゲノム

$
0
0
私の同僚のAngel Pizzaroによる、新しいAWSパブリックデータセットについて説明したゲストポストです!

— Jeff;


 
5つの異なる参照ゲノムと比較分析されたイネ3,024品種のゲノムシークエンスデータに、AWSパブリックデータセットとしてアクセスできるようになりました。このデータは3000万以上の遺伝子のバリエーションを含んでおり、これらの遺伝子を囲む潜在的な調節領域だけでなく、既知のイネ遺伝子と予測されているイネ遺伝子を含みます。 このデータを解析することで、研究者は、収穫量のような重要な農業特性に関連する遺伝子を特定できる可能性があります。
 
コメは世界人口の半数が主たる食料源としており、一人あたりのカロリーの20%以上を占めます。世界の人口増加に対応するため、コメ収穫量を2030年までに25%増産する方法を見つけ出す必要があります。特に気象変動や汚染が進行している傾向を考慮すると、従来の交配による収穫量の増加率では十分ではありません。世界中の安定した食料供給の要求を満たすには、遺伝子情報を考慮した現代的な交配手法が、コミュニティ全般で採用される必要があります。
 
3,000イネゲノムシークエンスプロジェクトは、89カ国から集めたイネ3,024品種の配列決定を行う国際的な作業です。協力した機関は、Chinese Academy of Agricultural Sciences(中国農業科学アカデミー)、 BGI Shenzhen(北京ゲノム研究所)と International Rice Research Institute (IRRI, 国際イネ研究所)です。5種類の公開されたイネゲノムのゲノムドラフト配列と、3,204品種のイネのシークエンスデータを分析するために、コンソーシアムはDNAnexusと提携しました。DNAnexusとの提携で、AWSのスケーラブルなコンピューティングキャパシティを使うことができました。37000コアをたった2日間だけ使い、手元の計算インフラより200倍以上高速に全ゲノムデータを処理します。加えて、追加の分析にもDNAnexus経由でデータを参照できます。DNAnexus内データを参照する方法の詳細は、プロジェクトドキュメントを参照してください。
 
データをより詳しく分析することで、より高い生産量と、害虫・病気・気候変動といったストレスへの耐性という結果に結びつきます。3000イネゲノムパブリックデータセットのページで、データとその参照方法についてより詳しく知ることができます。
 
AWS上のゲノムデータセットを使う
データはS3 にホストしており一般的なHTTPプロトコルでアクセスできるため、研究者は既存のツールと驚くような組み合わせを行っています。初期のいくつかの例をこれから示しますが、 IRRIと協力してより多くの例を共有するつもりです。
 
SNP-Seekを使ったデータ可視化
The International Rice Informatics Consortium (IRIC)では、SNP-Seekポータルでデータの検索と可視化を行えるようにしています。ユーザは全ての株を検索でき、イネ研究コミュニティのゲノムアノテーションデータと統合された複数の参照ゲノムから得た様々な結果から 目的のリージョンを絞り込む事ができます:
 
オープンソースツール
ゲノムデータを扱うには、ライフサイエンス分野のAWSパートナー群に加えて、オープンソースのエコシステムも利用可能です。samtools のようなコマンドラインアプリケーションから、 Galaxy や iobioといったリッチなユーザーインターフェースまであり、研究者がすぐにデータを解析することができます。

 
今後は?
研究コミュニティにとっての課題は、新種のイネを継続的に創ることを究極の目的として、網羅的かつ体系的にこのデータセットを採掘し遺伝子型変異を機能上変異に結びつけることです。すでにAWS上で参照可能なLandsatデータのような衛星画像に基づく研究環境と同じように、制御された環境や自然の環境での慎重な特性表現型のような他の研究と、これらの努力を組み合わせることで、将来の世界人口増加による需要に追従するのを助けます。
 
データを参照し、プロジェクトのアップデート受け取りのサインナップするために、3000イネゲノムパブリックデータセットのページにアクセスしてください。
— Angel Pizzaro, Technical Business Development Manager, AWS Scientific Computing 
(日本語訳は松尾が担当しました。原文:New AWS Public Data Set – 3000 Rice Genome )

Viewing all articles
Browse latest Browse all 446

Trending Articles