microarray  statistics  

Jul 2, 2016 • Michael Chen

隨著次世代定序 (next generation sequencing) 的風行,微陣列 (microarray) 的重要性不如以往。那麼,在這個時候 (2016 年),這本書「Statistics and Data Analysis for Microarrays Using R and Bioconductor」是否變得無用武之地呢?本文將會簡略地介紹這本書,供有需要的讀者參考。

首先,這本書的容量相當驚人,超過了 1,000 頁。以一本介紹微陣列的書籍來說,這樣的份量似乎太厚了。然而,這本書實際上是三個學門的結合,包括微陣列、統計學和 R/Bioconductor 程式設計等。而在這三者之中,統計學占得比重最多。由其行文來看,作者假設讀者是大學程度,但沒有統計學和生物資訊的基礎,所以,作者相當地有耐心,從基礎的統計學和生物學開始講起,然後,適時地引入相關的 R/Bioconductor 程式設計。以 CRC Press 出版社的書籍來看,許多的書籍都是針對研究所以上程度的讀者,這本書相對地淺顯易懂,即使是初學者,也可以很快地吸收其內容。

雖然本書的標題提到 R/Bioconductor,不過,除了兩章專門的相關內容外,其實,R 程式設計的比重不會占得很重。由於 R 算是相對高階的語言,除了要自己實作套件外,往往只要數行程式碼就可以完成相關的運算,其實也不需要過度著重在程式設計這方面。不過,Bioconductor 在生物資訊生態圈中,有著相當的份量,不僅僅是用在微陣列數據分析而已。筆者在這裡鼓勵各位有志學習生物資訊的讀者,在學完基本的 R 程式設計後,花一些時間研究一下 Bioconductor 相關的功能,會有相當的收穫。

由於本書主要是探討微陣列數據分析,章節的分布也是和此相關。幸好這本書不是 Bioconductor 套件大集合,而著重在基本的生物資訊和統計學概念,否則,這本書很快就會過時了。由於 R/Bioconductor 的進展很快,套件過一陣子就可能會更新,比起參考這本書籍,還不如參考相關套件的說明手冊來得準確。不過,這不代表這本書完全無用,相反地,這本書可協助讀者建立相關的基礎概念。許多的線上手冊,都假設讀者已經熟悉生物資訊和統計學,而直接說明其功能。對於初學者來說,很容易被這些專有名詞搞混。建議先看完書本上的相關敘述,再去研究套件的使用方式,比較可以正確地使用套件。

由於次世代定序技術抬頭,單純以微陣列為主的研究比較少了,而是以橫跨數個資料集的整合分析 (meta-analysis) 為主。這類的研究,結合微陣列和資料探勘 (data mining),從龐大的資料集中,挖掘潛在、有價值的資訊。由於 GEO 和 ArrayExpress 上累積了許多先前的研究數據,有志者可以往這方面鑽硑下去。不過,這本書對這方面著墨較少,而是以傳統的微陣列數據分析為主。

這本書除了微陣列數據分析這個大主題外,也可以當成統計學的入門書籍。如果剛好手邊有一些利用微陣列的研究,那麼,這本書還是有一定的參考價值。不過,不要把這本書當成 R/Bioconductor 程式設計的書籍比較好,市面上有許多更好的 R 程式設計的專書。

Disclaimer: 筆者和 CRC Press 無對價關係。