Cell Montage の話とか

放置している間にあれよと時間が過ぎてしまい久しぶりの更新ですが,今回は DBCLS でのお仕事の話です.
それ以外の話も書いたりしてちゃんと更新を再開していきたいところではあります.


さてさて今回作った統合TVは産総研で開発された発現プロファイルの検索システム "Cell Montage" についての解説動画です.
トップページの "About Cell Montage" をクリックすると

CellMontage is a system for searching gene expression databases for cells or tissues similar to the query gene expression profile. The similarity of two profiles is computed by comparing the order of genes ranked by expression. Although this is a simple measure we have observed that it is sufficient to characterize cell types across different microarray platforms.

とある通り,クエリとして投げられた発現プロファイルとの類似性から細胞や組織の発現データベースを検索します.類似性は発現強度の順位の比較から計算しています.

マイクロアレイの発現強度の比較というのは直接比較しても意味がありません,というのもシグナル自体の強さは実験プロトコル・実験に用いたアレイの種類(プラットフォーム)などによって大きく差が出てしまうからです.シグナルの絶対的な強さにはあまり意味はなく,アレイ全体の中での相対的な強度が重要です.通常は比較したいアレイ同士の間でノーマライズを施したりといったことを行いますが,結局は「ゲノム全体の中である遺伝子がどれくらい発現しているのか」という情報が大きな意味を持ちますから,順位相関係数を用いて類似性を比較するのは有効なアプローチだと思います.

……という核心部のアイデアは良いのですが,このツール結構荒い感じがしてしまうのも事実.UI 的にも疑問符がつくところが結構あります.自分でとった発現データを投げようとした場合,対応しているプラットフォームの種類がかなり限られている(Affymetrix Human Genome U133 シリーズのみ)のも問題でしょう.このツール用の CM 形式という形式が独自に定義されているので,対応されていない形式から CM 形式への変換は計算機の扱いに慣れた人ならスクリプトでも書けばなんとかできるのではありますが.
登録されているデータの中から語句検索をしてヒットした結果をクエリとして使うこともできますので,その場合はそういった問題は生じません.

異なるプラットフォームからのデータベースを同時に検索対象にはできないのは原理的に仕方のない面もあります(ものによってプローブとなっている遺伝子が変わるので順位相関係数の持つ意味が変わる)が.プラットフォームによってはデータベースに登録されているエントリが10程度のものもあって少しさみしい感じがします.GPL96(Affymetrix Human Genome U133A)やGPL570(Affymetrix Human Genome U133 Plus2.0),571(Affymetrix Human Genome U133A 2.0)などはデータが多いので,面白い結果が得られるかもしれません.


また,動画では紹介していませんが"Cellpedia(Cell Catalogue)"では組織サンプルの発現プロファイルの類似度から最小全域木を作ってくれます.各ノードにカーソルをかざすと発現強度を元にした自己組織化マップが表示されます.このあたりの可視化は結構カッコいいです.ただ問題は,ノードに添えられている情報が GEO 中の細胞サンプル ID だけであること.さすがにこれは「細胞サンプルIDみただけで何の組織か分かるやつがおるんかいっ!」というツッコミをいれざるを得ません(笑)

というわけで荒い面が多く見られるツールではありますが,発現パターンの類似した細胞や組織の検索,といったことができるツールはあまり他には知りませんし,もう少し磨き上げられたら,そして発現データベースが量的にも質的にも充実していけば,もっと有用なツールになるかもしれないなあという気もしています.ただ,更新が止まっているんですよね…….いろいろ惜しい感じが.

ではでは今回はそんなところで.