今日は基本的に遺伝的アルゴリズムについて勉強して終わり。
モチーフ探索に使われている GADEM というアルゴリズム遺伝的アルゴリズムと EM アルゴリズムを組み合わせたもののようなので。
機械学習の手法について勉強するといつも、上手いなあと思う反面ちょっと釈然としなさ(ヒューリスティックとしてどの程度有効なんだろうとか)が残る。多分専門にしている人はそれをもっと強く感じているんだろうなあとは思いますが。

本日の作業ログ

Avadis-NGS ChIP-seq 編の下調べ。
このソフトではモチーフ探索用のアルゴリズムとして GADEM なるアルゴリズムを用いているようなのですが、それについて論文を読みあさってます。……しかしわからん(´・ω・`)
遺伝的アルゴリズムが使われているようなのだがそのあたりの知識が欠けているせいで論文がなかなか読み進まない。

次回の動画に向けて

RNA-seq編も作ったしということで、次は Avadis-NGS ChIP-seq 編を作ろうかなどと考えています。
ChIP (クロマチン免疫沈降)とは何ぞやというとこのリンク先を見てもらうとして、この最後の「DNA断片の同定」を NGS で読み取ってリファレンス配列に当ててしまおうっていう手法が ChIP-seq です。
これで ChIP on chip つまり DNA マイクロアレイを使った手法の問題点(プローブにない配列は捉えられないとか)が解決できる! というわけですが。
私もこの手法にはそんなに詳しくなかったのですが、このリファレンス配列に当てたあとのピーク検出とかも案外面倒で、いろいろやり方が考えられてるようです。
そういった ChIP-seq 解析で使われている手法について下調べをしています。

Avadis NGS 動画 RNA-seq 編(だいぶ前に)アップしました

Avadis NGS の使い方〜RNA-seq編〜 です。アップした時にログ書くのをすっかり忘れてました。
http://togotv.dbcls.jp/20111124.html

"Avadis NGS" でググると拙ブログがかなり上位にヒットするという状況に若干のプレッシャーを感じないでもありません。
このソフトウェアの日本でのユーザ人口がどのくらいかわからないのですが、そういう人たちが Avadis NGS でググった場合に結構な確率でこの(方針のよく見えない)ブログがヒットするということも踏まえて、多少動画内容の補足でも書いておきましょう……。

補足というか、言い訳ですね(爆)
今回は適当なデータが無かったので Avadis NGS のサイトから入手できるデモデータを使用したのですが、これに起因してちょっと動画ないで説明をはしょったり妥協した箇所などがありまして……。
データをインポートすると "Interpretation" を作れ、と動画にも注釈を入れましたが、これはデモデータみたいな2つしかデータがない場合は別に何も美味しくないわけですね^^; 3つ4つとデータが増えてきたときに、それらを対照とする基準をぱっぱっと変えるための機能です。
QC はもっと色々なことができるはずなんですが、デモデータにリードのクオリティとかに関する情報がほとんど無かったので QC に関する部分はかなりはしょられておりますm(_ _)m

この動画では実にありきたりな解析手順を追った訳でしかもパラメータなんかことごとくデフォルト値だったわけですが、それでも割りとまあパスウェイ解析の結果とかも妥当な感じになったのがちょっと面白いかなあと思います。
しかし NGS の解析にこういうオールインワンのソフトウェア使ってる研究室とかってどのくらいあるんでしょう……。
NGS のデータ解析やってる研究室に関して個人的に持ってるイメージですが(私が今いるラボも含め)大体は計算機のスキルぶっ飛んだ人がいて自前で解析パイプラインを作ってそう。
逆に、こういったソフトが普及することで、データ解析の際の計算機スキルに関する要求水準が下がる手助けになればもちろんそれは良いことなのですが。生物の知識が豊富な人がやった方が結果を見た時にたくさん情報を得られるという面はありますし。
これからこの業界がどういう風に動くのかと共にこういうソフトの使われ方がちょっと気になったりしています。

Avadis NGS 動画 RNA-seq 編の作成作業にそろそろとりかかれそう

相談してだいたい筋書きも決めた.

デモデータのダウンロードからはじめて,下準備-> Fold Change を見る-> GO 解析及びパスウェイ解析,で一本.
GO 解析はいまいちだったのだが,パスウェイ解析の結果はデモデータとデフォルト設定のパラメータでもある程度妥当なものになる感じである.
Jurkat 細胞とコントロールを比較して,前者の方で発現が大きかったもののパスウェイを見ていると,アポトーシスを抑制する遺伝子がパスウェイのネットワークで重要な位置に来ている.
逆に Jurkat 細胞の方で発現が減少した遺伝子のネットワークで重要な位置にあるのは IL10 で,こちらは調べてみると免疫機能の抑制に働いている.

つまり Jurkat 細胞ではアポトーシスが抑制されており,なおかつ免疫機能を抑制する方向の制御がほとんど働いていない.まさに白血病患者の T 細胞で起きていそうなことが生じていることが分かる.

これ自体が別に新しい内容というわけではないけれど,こういう結果が GUI でスムーズに出せますよ,ということがアピールできるように動画を作りたい.

Avadis NGS 動画 RNA-seq 編への下調べ (3)

じゃあさてさて,このデモデータから何を見ようかと.
まあひと通りやればいいわけですけど,思ったよりいろいろ癖がある.

このソフトでは実験サンプルをグループ化したりした上で "Interpretation" というものを作ることができるのですが,なんだかこれがちょっとよくわからなかった.
まず Interpretation を作る前に "Experiment Grourping" を選択して,各実験についていろいろパラメータを割り振っていく必要があります.テストデータだと2つしか無いのであまり旨みは無いのですが,例えば2種類の細胞について何らかの処置を施したもの/施さないもの,という合計4つのサンプルがあった場合を考えます.
すると処置したもの同士としてないもの同士で比較したいとき,また同じ細胞間で処置の前後の比較をしたいとき,といったように異なるもの同士を比べたい時があります.そういったときに使うことを期待してこのような扱いになっているようですね.


あと Expression Analysis の辺りをいじってみたのですが,正直よくわからない(;_;)
例えば "Replicate Analysis" とか "Pooled Analysis" とか用意されてるのがなんなのかとか…….うーん.難しい.

Avadis NGS 動画 RNA-seq 編への下調べ (2)

先日のエントリで触れた論文を引き続き読んでいたが,なんでこの論文では発現量について触れられていないんだろう,と思ったら,この論文でのリードのフィルタリングの方式とも関係するようで.
この論文ではこれはPCR増幅産物の影響などを取り除き,擬陽性が出るのを防ぐために以下の方法でリードのフィルタリングを行っているそう.

(i) Retain only a single copy of each read. (A read is defined as a string of letters A, C, G, T and N.)
(ii) There can still be multiple U1 and U2 reads that passed Filter 1 at the same genomic location. (Note that there can be at most one single U0 read that passed Filter 1 at each genomic location). Randomly select only one read each from U1 and U2 reads that map to the same location.

つまり(i)重複したリードは全て削る,そして(ii)ミスマッチの数が0,1,2つのもののうちからランダムでひとつ選んでくる,という方法.
結果として

In fact, for reads of length 30 bp there can be as many as 3×30=90 reads that cover an SNV. Since 90-fold coverage is the upper-bound for coverage possible by filtered reads, the number of reads in very highly expressed exons will not correspond to actual expression levels. However, it should not be a concern because the purpose of the filtering procedure is to reduce false positive rate of SNV detection and 90-fold coverage is a very significant coverage.

確かにこのフィルタリングをしたあとじゃ発現解析にはちょっと使えないか…….
ちなみに配布されている RNA-seq 用のデモファイルはフィルタリングする前のものである.

Avadis NGS ではフィルタリングの方法がいくつか用意されているが,この論文でいう(i)の Duplicate を除くという処理はできても,(ii)のミスマッチが2以下のものについてそれぞれランダムで採ってくる,というフィルタリング方法は用意されていない.
しかし,このソフトはスクリプトを書いて処理をすることが出来るので,そういった機能を使えば恐らく全く同じフィルタリング処理を行うことは可能だろう.
ただ,もし発現解析を行いたい場合は先述の通りこのフィルタリング方法はフィルタリング条件として厳しすぎる.ちょっと調べてみたが普通は擬陽性が交じるのを覚悟でそういったフィルタリングは行わなずにやってるのか……?
例えばRNA-Seq: a revolutionary tool for transcriptomicsというReviewには

Some manipulations during library construction also complicate the analysis of RNA-Seq results. For example, many shorts reads that are identical to each other can be obtained from cDNA libraries that have been amplified. These could be a genuine reflection of abundant RNA species, or they could be PCR artefacts. One way to discriminate between these possibilities is to determine whether the same sequences are observed in different biological replicates.

とある.つまり後で別の方法でアンプリファイしたものと比較すれば良い,と.リードだけ見てなんてうまい方法はなかなかないのか.