最後の仕事。 Avadis NGS ChIP-seq 編

作ってから、更に言うとアップしてからも非常に時間が経ってしまったのですが一応アップロードしたので記録。

私の統合牧場での最後のお仕事の動画をアップしました。
Avadis NGS の使い方〜ChIP-seq編〜
難しいプログラム書けなくたってよくあるタイプの NGS 解析なら出来るよ、という時代になりつつあるのでしょうかね。次世代シーケンシング技術がどんどん廉価になっていくにつれてこういったソフトの需要も高まるのかなあなどと思っています。

このソフトに入っている各種の解析アルゴリズムは全てスイッチポンで動かせるわけですが、相当に sophisticated なものも中には含まれているのには注意したほうが良いかもしれません。「よく分かんないけどこれ使ったらそれらしい結果が出る」というのは楽ちんではありますけど危険なことでもあるでしょうし。

統合TVを作るお仕事は先年度いっぱいで終わりました。このお仕事を通して知り合った皆さま、私の作った痒いところに手が届かないこともあったであろう解説動画を見て下さった皆さまに感謝の念を。

作業ログ--ガリガリ作ってます

とりあえず半分くらいできたところでしょうか。
ソフト内で用いられているアルゴリズムについてどの程度まで解説を動画内に盛り込むべきかちょっと思案しています。
全部書くとそれだけで動画が終わる(し、そもそも私自身まだよくわかっていない部分もあり)のですが、あんまりにサラっと流すのも……。
まあ使う上で知っておいて便利な程度の知識を良い塩梅で触れられたらいいなといったところですね。

作業ログ――次の統合 TV の構想決め(2)

Peak Detection の複数用意されているアルゴリズムを走らせてみた。三種類、というのは
http://d.hatena.ne.jp/kishu_no_sue/20120221/1329815653
にあるとおりなのですが。

Enrichment Region Detection →理屈は単純なので動作が速い。元々のデータを出した論文もこれに近い方法で、解析した結果についても結構似てます。
PICS →これで出た結果は他の方法よりもかなり範囲が絞りこまれている。False Positive が一番少ない(ように思える)。範囲が絞りこまれているので、その後モチーフ探索などのアルゴリズムを走らせる際の速度が非常に速くなります。
MACS →デフォルト値のまま走らせると感度が良すぎて、ピークといえるのかが怪しい領域までバシバシ拾ってきちゃいます。拾ってくる範囲が広すぎて GADEM アルゴリズムによるモチーフ探索に時間がかかること……。 GO などの解析するとこれの結果だけ全く違う結果が返って来ました。パラメータをうまく調整することで結果が改善されないか少し試行しています。

少しいじった感じだと PICS が一番良いのかなーという印象。MACS の方はパラメータを調整してうまくいくようにできないかなー。

作業ログ――次の統合 TV の構想決め

基本的に前回作った RNA-seq 編とかぶる部分(基本操作、クオリティチェック、フィルタリング、GO 解析など)は軽く触れる程度にして ChIP-seq に特に必要な操作に焦点を絞った動画にする予定。
つまりピーク検出やモチーフ探索の段に焦点を置いて、パラメータ振ったりした時に結果がどの程度変わるのか(あるいは変わらないのか……)ということまで含めて動画に出来れば、と考えております。

作業ログ――motif detection に関して

motif detection のアルゴリズムを走らせてみたが何回やってもまともな結果がでない――と思っていたら、リファレンス配列を(本来 hg18 にマッピングされたデータであるにも関わらずに hg19 に)間違えていた。
参照される配列が全然違うのでそりゃぁまともなモチーフなんか検出されませんよね、という話でして……。リファレンス配列を戻してやれば無事モチーフはまともに検出されるようになりました。

しかし、GADEM アルゴリズム機械学習的な手法の例に漏れず回すごとに違うモチーフが検出されたりするようです。そういう辺りの直面しやすい問題も含めて動画にする予定。

作業ログ―― ChIP-seq の peak detection に関して

Avadis NGS には ChIP-seq データの peak detection のやり方について3つの方法が用意されている。ヘルプからそのまま引用すると、

Enriched Region Detection:
The algorithm is very fast, but could identify regions where the positive and negative coverage patterns do not conform to the two-peak model. The size of the regions generated is entirely upto the user, so multiple runs with different choice of parameters can be tried.
PICS:
This is based on the PICS algorithm. This finds very precise binding regions, and is capable of differentiating between multiple closely occurring peaks.
MACS:
This is based on the MACS algorithm. This tends to give wider regions compared to PICS. Its ability to handle local biases gives it an edge over the more simplistic Enriched Region Detection algorithm.

となっているのですが、これについてもう少し詳しく知りたいなと思ってそれぞれの手法の原論文を読んでみました。
PICS と MACS はどちらもモデルに基づいた推定手法なのですが、 PICS は複数のピークが近接しているような状況をモデル化してあるのが大きな違いでしょうか。なのでそういった状況でそれぞれを別々のピークとして検出することができる、という強味があるようです。