長谷川ラボTopへ


第7章 進化と系統 -進化の歴史を再現する-

7・1 生物多様性と系統



7・1・1 系統とは何か?なぜ進化生物学に必要か
 前章までで、主に、生物のもつ形や性質が、どのように進化してきたと考えられるかについて触れてきた。確かに、新しい生物が現れることは進化そのものだが、そうやって現れたさまざまな生物によって構成される、現在の世界もまた進化の結果に違いない。そうやって、ある生物集団の中に新しい形や性質を持つ生物が現れ、元の生物とのつながりが切れると今まで1種類だった生物は2種類になったことになる。これを2分岐といい、それを繰り返すことで現在見られる生物の多様性が現れてきた、と考えられている。「系統」とは、その様々な生物が一体どのような順番で現れてきたのか、という順序関係(=歴史)のことであり、系統推定とは、現在の生物から得られる情報をもとに、生物間の系統関係を推定しようという試みのことだ。従って、推定された系統関係は、まさに進化の歴史そのものを表していることになる。系統推定が進化の研究に必要不可欠なのは、まさにそれが進化の歴史を表しているので、地球で起こった進化を再現することができる、というのが第1の理由であり、第2には、進化の歴史を知ることで、自然選択や遺伝的浮動が実際の進化にどの程度寄与しているのかがわかる、という点である。

 さて、少し話がそれるが、自然界に存在するアミノ酸には、L型とD型と呼ばれる、2つのタイプが存在する。構成成分はまったく同じなのだが、その立体的な配置が鏡に映したように左右逆になっているのである(図7・1参照)。ところが、生物が実際に利用するアミノ酸はL型のみである。同様な現象は、遺伝子の本体である、DNAを構成する糖の立体構造にも見られ、こちらではD型と呼ばれるタイプしか利用されない。これらのことから、多くの科学者は、現在の生命の起源はただ1度であったと考えている。もし、生命の起源がただ1度きりであり、全ての新しい生物が上記のように2分岐パターンによって現れたなら、生命の「系統」は巨大な木のような形であると考えられる。次々に2分岐を繰り返す巨大な樹形。これにちなんで系統関係を表すグラフを「系統樹」と呼ぶのが一般的である。系統樹の一例を図7・2に示す。

 系統推定とは、枝の先端にあたる現存の生物のもつ情報から、系統樹の樹形および枝の長さを復元(推定)する作業であるといえる。近年の研究からは、新しい生物が生じるときには、必ずしも2分岐パターンのみではなく、すでに存在している2つ以上の異なる生物が1つになることで新しい生物が生じたと考えられる例もあることが分かっている。このような場合には、系統はいったん分かれた枝同士が再びつながることになり、「系統樹」というよりは「系統網」といった形になる。たとえば、真核生物の細胞内に見られるミトコンドリアや、植物の細胞内に存在する葉緑体は、かつては独立の生物だったものが、それらの細胞内に取り込まれ、現在では細胞内小器官のひとつになってしまった、ということが、複数の証拠からほぼ確実になっている。しかし、このような例はまれであり、基本的には、生物進化の歴史は系統樹によって表すことができる。系統樹を用いたのでは、実際の現象をどうしてもうまく説明できない場合には、系統網を考える必要があるかもしれないが、系統樹は進化の歴史を著す基本といえるので、この章では系統樹推定についてのみ触れる。では、系統推定に必要な考え方と、そして系統推定から得られた、実際の生物進化についての興味深い知見などについて見ていくことにしよう。


7・1・2 種、分類、進化のユニット、そして系統
 さて、図7・2でもそうであるように、系統樹の枝の末端には、その生物が属している「種」の名前が書かれることが多い。では、得られた系統樹は「種」の系統関係を表しているのだろうか。答えは、塩基配列から得られた系統樹を考えてみればすぐ分かる。塩基配列からの系統樹は、使われた塩基配列(=遺伝子)の間の系統関係を示しているにすぎず、それ以上のものではない。従って、それを「種」の系統樹として扱うときには、その遺伝子は「種」に特徴的なものであり、その遺伝子をもってその「種」を表すことが出来る、という暗黙の仮定が置かれていることになる。しかし、現在の生物学の知識では、「生物個体」は遺伝子の集合体であり、「種」は個体の集合と考えられている。従って、その暗黙の仮定が正しいかどうかは、塩基配列の情報からだけでは分からないのだ。このことは、系統推定の情報源に形態を使っても全く同じである。結論として、系統樹に基づいて議論をするときは、用いている系統樹が一体何の系統関係を表しているのかに十分注意を払わなければならない、といえるだろう。遺伝子の系統関係と、個体の集合である「種」の系統関係が一致しない例を図7・3に示しておく。

 では、系統をもちいて進化について考えるとき、我々は系統樹の末端に、一体なにを置いたらいいのだろうか。「種」だろうか?そもそも「種」とは生物学的には一体何か?驚くべきことに、現在のすべての「種」をうまく言い表す単一の生物学的な定義は存在しない。たとえば、多くの生物学者が賛同する「生物学的種」という考え方があるが、これは「潜在的に遺伝子交換可能な有性生殖の生物集団」のことであり、無性生殖生物に関しては全く適用することが出来ないのだ。このようなことは一般の読者には驚きなのではないだろうか。生物を分ける基本単位である「種」に、全ての生物に適用できる明快な学問的定義はないのだ。私個人は、進化生物学に用いられる系統樹の枝の末端には、「種」ではなく「進化のユニット」が置かれるべきだ、と考えている。つまり、前章までで述べたように、自然選択によるにせよ遺伝的浮動によるにせよ、生物の進化とは、ある限定された生物集団の中で、ある形質を発現させる遺伝子の頻度が増減することによって起こる。従って、扱う形質が現れたときに、その頻度変化を考える母集団となる集団を「進化のユニット」とし、系統樹の末端に置くことで、一つのユニットの中から、自然選択や遺伝的浮動により別のユニットが現れてくる、という「進化」をよく表すことが出来るのではないだろうか。また、「進化のユニット」は無性生殖生物にも存在するので、全生物に適用できる。すなわち、同じような形質を持った無性生殖生物(たとえば大腸菌など)の集団で、個体間に「競争」などの相互作用が起こる場合、この限定された集団の中で自然選択や遺伝的浮動は働くわけで、これが進化のユニットを新たに発生させるからだ。ともあれ、系統樹を用いた進化の研究においては、たとえ「種名」が用いられていたとしても、その研究にとって、枝の末端におかれているものが本当は何を表しているのか、という点に十分な注意を払って研究内容を理解していただきたいと思う。


7・2 系統推定の原理

7・2・1 共有派生の法則
 では、系統推定について、具体的な話に移ろう。我々はタイムマシンは持っていないので、真の系統を知ることは不可能だ。従って、現存する生物の持っている情報からその系統関係を推定する事になる。もちろん、すでに絶滅していて、化石記録しか残っていないような生物についてはその情報が利用される。また、得られた系統樹から、実際には何年前にその分岐が起こったか、というような議論をするときにも、化石がでている地質年代などの情報が利用されることがある。さて、基本的な考え方を図7・4に示す。まず、最初は1つだった生物集団が2分岐を繰り返し、最終的に現在見られるA,B,Cの3つの集団に、分岐順序A->B->Cで分かれたとする。現在得られる情報から系統推定をするとき、真の分岐順序は分からないので、次のように考える。

 1)集団が、1回目の分岐で2つになり、さらに、どちらかでもう1度分岐が起き3つになったはずだ。  2)1回目と2回目の分岐の間にも両集団は遺伝的に分化して行くはずだから、最初に別れた両集団の間で形質に違いが生じるだろう。  3)従って、片方で2回目の分岐が起こる前に、再分岐を起こす方の集団に新たな特徴的な形質が獲得される(派生形質の獲得)かもしれない。特に、1回目の分岐と2回目の分岐の間の時間が長ければその可能性は高い。  4)そのような形質は、片方の集団で再分岐が起こったあとも、再分岐後の2集団では共通しているが(派生形質の共有)、最初に分かれた集団とは共通しないだろう。  5)従って、3集団で形質比較をしたとき、特徴形質を共有している2集団はあとから分岐したほうであり、残りが最初に分かれた集団であるはずだ。

これが、形態形質を用いて系統推定を行っていた初期の時代に考案された、系統推定のひとつの基本である「共有派生」の考え方だ。3つの集団に属する生物で、様々な形質を比較して、派生形質をより多く共有している2つをより近い過去に分かれたグループである、と判定するわけだ。また、このように、過去の祖先集団から、直接分岐してできた現在の2集団のことを「姉妹群」と呼んでいる。共有派生の原理に基づく系統推定の簡単な例を図7・5に示す。また、調べた形質間に、共有派生性に関して矛盾する形質分布パターンが存在する場合、様々な共有派生の組み合わせパターンが考えられる。これを解決するために、考えられる限りの分岐図のうち、内部での形質変化の回数がもっとも少なくするような樹形を「正しい」とする「最節約原理」が採用された。形態形質を用いて系統推定を行う場合、実際の進化においては、同じような形質がむやみに独立には進化しないだろう、という考えに基づいてのことである。そして、この原理に基づく系統推定法を「最節約法」と呼んでいる。「共有派生」の考え方は、形態であろうと塩基配列であろうと、質的データで表される生物の性質には全て適用できる。


7・2・2 遺伝的基盤に基づく形質
 どのような形質を用いて系統解析を行うか、という点に関して、推定法の原理に関わらず、比較される形質データに要求される属性がいくつかある。それは、遺伝的基盤を持つことと、相同形質であることの2つである。これらについて少しくわしく説明しよう。

 系統推定に使える形質は、遺伝する形質だけである。なぜなら、我々が知りたいのは集団が分かれていった進化的な歴史であり、これまで見てきたように、進化を遺伝する形質の集団内での頻度変化と捉える一般的な立場からは、遺伝しない形質に基づく比較は意味を持たないからだ。極端な例を挙げると、たとえば、複数の人間の間の分岐関係を、その人が使っている言語の種類で判定するとする。ご存知のように、言語は完全な学習によるものなので、日本人の子どもでも、日本語以外の言語圏で育てばそこの言葉しか使えないようになるし、元々そこにいた人よりその言語が下手である、ということもない。こういう状況で、使用言語を形質として、共有派生によって人の分岐関係を作ったとしても、それは生物学的な分岐関係とは一致しなくなるだろう。もちろん、情報の複製とミスがあれば、どんなものにでも進化は起きるので、こういう獲得形質による分岐関係の推定も、文化進化などを論じる上では重要な情報になる。しかし、ここで問題にするのは生物進化なので、遺伝する形質以外による分岐関係の推定は進化の歴史を正確に表さなくなるのだ。


7・2・3 相同形質とは何か?
 さて、もう一つの重要な点は、比較する形質は「起源が同じ」形質でなければならない、ということである。起源が同じ形質のことを「相同形質」と呼んでいる。たとえば、翼を持つ生物はいくつもいるが、トリの翼とコウモリの翼はまったく独立に生じたものである、と考えられるから相同ではない。この非相同形質(相似形質または収斂形質ともいう、収斂については Box 7.1 を参照)を、「翼を持つ」という共通性でくくってしまうと分析を誤ることになる。コウモリの翼は構造的にはむしろ恐竜の翼竜(プテラノドンなど)の翼に似ているが、もちろんこれも非相同形質と考えられている。なぜ「非相同」と判断されているかと言えば、その他の多数の形質の共有派生性が、それらの翼が独立に生じたという仮説を支持するからだ。従って、実際には、相同性の判定すらも系統分析の結果に頼っていることになる。

 ややこしいことに、陸上脊椎動物に見られる「四肢」という観点から見ると、コウモリと鳥の翼は相同形質になってしまうのだ。それは、コウモリとトリが分かれる遥か前の、初めての陸上脊椎動物が持っていた前肢がその翼に変化しているからだ。つまり、「翼」としては非相同だが、「前肢」としては相同なのである。結局、「相同」か「非相同」かは、その「形質状態」が、初めて現れたときから、比較しようとする生物間で共有されていれば「相同」、そうでなければ「非相同」ということになる。このことから次のことが導ける。すなわち、多数の生物の系統解析をしようとするときは、全ての生物で「相同」である形質しか用いることはできず、その相同形質に派生して起こった変化の共有性により、選んだ生物群の内部での分岐関係が推定される、ということである。

 この相同性の問題は、系統分析に使う形質として何が適当か、という問題にやがて大きな議論をもたらすことになる。それについては次節で考えることにしよう。


7・3 形態 vs. 分子:系統推定の主役の座をめぐる戦い



7・3・1 形態系統の黄金時代と苦悩
 昔の人は、身の回りにいる生物にまず名前をつけた。おそらく、名前を付けて分類しないと、身の回りの環境にあるものを記憶しにくいのと、名前がないのはひどく不安に感じるからだろう。草原にいて人を食う恐ろしい動物、というだけではひどく不安なのだが、それに一旦「シンバ(アフリカのある部族の言葉でライオンのこと)」と名前が付いてしまうと、「あれはシンバだ!」ということで一応納得するのだ。そして、「シンバは食べられないどころか危険」とか、「ガゼルはおいしいけど逃げ足が早い」とか、名前は、それに付随した生活に必要な情報に結びついて、記憶と世界認識の道具に使われたのだろう。これが、分類、という行為の始まりだろう。

 さて、学問として生物を眺めるようになると、どの生物とどの生物がもっとも近いのか?という疑問が生じてくるのはどうしても避けられない。確かに、ゴリラとライオンよりは、ヒョウとライオンの方が似ているように見えるから、「果たして、本当にヒョウとライオンの方が近い生き物なのだろうか?」という疑問がわき上がるのである。

 そこで昔の人が知恵を絞って考えたのが、眼に見える「形」を使った系統推定だった。こうして、形を用いて「種」を記載し分類するという段階の次に、分類学が目指すのは、それらの間の系統関係を推定することである、というふうになっていった。このように、系統推定は分類学の高次段階の研究とされ、系統学と分類学は「系統分類学」として1つの学問のようにあらわされることが普通だった。しかし、近年、この考えは不適切であり、生物の系統関係を扱う「系統学」と、生物をどのように区分するかを問題にする「分類学」は独立した別の学問であるという主張がなされている(引用:生物系統学)。

 もちろん、形態のかなりの部分は遺伝するし、相同性の判定も簡単なものもあるので、形態を用いた系統解析が盛んに行われた。そして、様々な生物、特に大型の動物や昆虫の系統関係が議論された。まさに「形態系統樹に花が咲いた」わけである。しかし、先にも少し述べたように、形態からの系統推定には困難な点も多くある。まず第1に、用いる形態形質の相同性すら、コウモリの翼のように系統推定の後にしか判断できない場合がある。また、第2には、用いる形質としてどれを使い、どれは使わないか、という問題がある。多くの場合、用いる形質の選択は個々の分類学者の裁量にまかされており、彼らの経験から「この形質は収斂(Box 7.1 参照のこと)を起こしにくいので系統推定に適している」というような判断に基づいて選ばれるしか他になかったのである。これが客観的かどうかはかなり難しい。この2つの問題は密接に関係しており、たとえば、多数の収斂形質を含むような形質群を、形質の吟味をせずに安易に分析すれば、収斂形質の共有によって結果を誤る。かといって、本当にそれが収斂形質なのかどうかは、実は真の系統関係がわからなければ判断しようがなかったのである。

 それらはまだしも、さらに困難で解決不可能な問題点があった。あまりにもかけ離れた生き物だと、何が相同形質なのかまったくわからなくなってしまうのである。コウモリの翼とトリの翼ならまだいい。読者のみなさん、ハエとヒトの相同形質って言えますか?ハエなら言える?じゃあ、ヒトとアメーバでは?というわけで、形態を用いた系統解析は、あまりに遠い生き物の間だと実行不可能になってしまう、という欠点を持っていた。そこで勃興してきたのが、タンパク質のアミノ酸配列やDNAの塩基配列などに存在する情報の置換と、その進化の法則性を研究する「分子進化学」の発展にともなって現れた「分子系統」であった。



7・3・2 分子系統の勃興
 「分子系統」という言葉は、「形態系統」と対をなすもののように考えられているが、その本質は分子生物学的手法でに検出される形質(これを分子マーカーという)を用いて行う系統推定のことで、生物の持っている遺伝する相同形質に基づいて系統推定を行うという点では形態によるものと何の違いもない。分子系統推定に用いられる形質は、現在ではほとんど全てがDNAの塩基配列そのものになってしまったが、その初期には、酵素タンパク質の多型の集団内の頻度データとか、特定のDNA配列の二重鎖の結合が、熱によってほどける温度を用いた「DNAハイブリダイゼーション」と呼ばれる方法などが主流だった。これらの初期の方法では、用いる分子マーカーの性質を「塩基配列」という質的データで表すことができなかったので、測定された関係を、ある尺度を用いて「距離」に変換することで対象生物間の「近さ、遠さ」を表現し、これに基づいて系統関係を推定する、というアプローチがとられた。この、生物観の遺伝的な関係を距離に変換して系統を推定する、という考え方を支える重要な原理が、「中立進化」と呼ばれる、分子進化に顕著に現れる進化様式である。重要な概念なので少々解説をしてみよう。


7・3・3 遺伝的浮動による中立形質の進化
 第6章でも少し述べたが、「中立進化」とは、遺伝形質の内で、存在する変異の間に増殖効率に関する差がないものに起こる進化の様式のことだ。このような変異には自然選択は働かないので、その進化は別のメカニズム「遺伝的浮動」によって説明されることになる。単純な例を考えてみよう。いま、1匹の2倍体の有性生殖生物がいて、ある遺伝子座に、AとBという組み合わせで、2つの対立遺伝子を持っているとする。従って、遺伝子頻度はA:B=1:1である。また、対立遺伝子A,B間で、それを持つ個体の適応度に差はないものとする。さて、この個体が、子供にこの遺伝子を伝えていくとき、子孫個体に伝わるA,Bの頻度は常に1:1になるだろうか?一見そうであるように思えるが、実はそうはならない。実際に残す子供の数は有限なので、偶然の作用により子供に伝わるAとBの比は1:1からずれる場合があるのだ。たとえば、この個体が2匹の子供を残すとしよう。この個体は、確かにA:B=1:1で配偶子を作るから、ある子供にAが伝わる確率は1/2、Bが伝わる確率も1/2である。この時、この個体の2匹の子供に伝わる遺伝子の組み合わせと、その実現確率は次のようになる。

子供1  子供2 実現確率 ケース1  A    A 1/2 x 1/2 = 1/4 ケース2  A    B 1/2 x 1/2 = 1/4 ケース3  B    A 1/2 x 1/2 = 1/4 ケース4  B    B 1/2 x 1/2 = 1/4

従って、子供の中での遺伝子頻度がA:B=1:1になるのは、ケース2と3の場合しかなく、実に1/2の確率で、どちらかの対立遺伝子は次世代に伝わらないことになるのだ。このように、ある遺伝子が次の世代に伝わるときに、サンプリングされる確率に基づく偶然の効果により、その頻度が世代ごとに変動することを遺伝的浮動と呼んでいる。集団全体で見ると、遺伝的浮動の効果は、繁殖に加わる個体の数が少なければ少ないほど大きいことがわかっており、この効果だけである対立遺伝子が集団の中から消えてしまったり、集団中に固定されるということが起こる。自然選択に対して中立な形質の進化は、この遺伝的浮動の効果によって起こることになる。また、遺伝的浮動は中立な変異だけに働くわけではないから、自然選択が働くような形質の進化を考えるときも、遺伝的浮動の効果を考慮する必要があるのはいうまでもない。しかし、繁殖に参加する個体数が十分大きい場合には、遺伝的浮動の効果は無視できるほど小さいこともわかっている。


7・3・4 分子進化の中立説
 さて、1960年代になって、タンパク質のアミノ酸配列の情報が様々な生物について得られるようになった。このアミノ酸配列に見られるアミノ酸の置換数を、生物の2種ごとについて比較してみると、化石記録から得られている、その2種間の分岐後の経過時間と大体一致することがわかってきた。このことを「分子時計」と呼んでいる。

 また、同じ頃、酵素タンパク質の集団内多型のデータが蓄積されてきた。その解析結果からは、多型を示す遺伝子座は、「そのような多型の量は、突然変異によって集団中に新しく生じる率と、自然選択によって集団から排除される速度が釣り合うところで平衡状態になっている」という、「古典学説」からはとても考えられないほど大量に存在していることが明らかになってきた。この事実は、酵素タンパク質の多型に関して、自然選択がほとんど働いていないのではないか、ということを示していると解釈することもできる。しかし、ある遺伝子座に異なる対立遺伝子の組み合わせがある方が適応度が高くなる、という仮定をおけば、自然選択説の考えでも説明できるので、自然選択が働いているかどうかについて激しい論争が展開された。

 そんな中、木村資生博士が1968年に、「中立説」と名付けられた分子進化のモデルを提出した。その骨子は次のようなものである。 1)DNAの塩基配列上に起こる突然変異は、有利なものはほとんどなく、中立なものが多いであろう。 2)そのような変異は遺伝的浮動によって集団中に固定されるはずだ。 3)従って、分子に起こる置換の率は、中立な突然変異の発生率とほぼ等しくなるはずであり、一定速度で分子情報は置き換わることになるだろう。

 提出された当初、「中立説」は自然選択派の学者から手ひどい批判を受け、ほとんど受け入れられなかった。しかし、中立説が正しいとすれば、次のような予測が成り立つ。 1)自然選択が強く働くような機能的に重要な遺伝子は進化速度が遅く、そうでない遺伝子では速いはず。 2)タンパク質を指定する遺伝子では、アミノ酸の置換を引き起こさない塩基置換(同義置換)は、アミノ酸を置換させるような塩基置換(非同義置換)に比べてずっと速く集団中に固定されるため、進化速度が速いはず。 3)まったく機能を持たないDNA領域の置換速度は、他のどの領域よりも速いはず。 これらの予測について、分子遺伝学の研究者を中心に分子マーカーのデータが蓄積され、それらのデータはこのような予測とよく一致したために、中立説は次第に受け入れられるようになっていった。


7・3・5 中立説に基づく「距離」からの系統推定
 中立説は、「異なる生物の間での分子情報の置換数は、その生物が分岐してからの経過時間に比例する」という予測を導くので、先に紹介したアミノ酸配列の置換数や、DNAの塩基配列に見られる置換数を、比較する生物間の分岐後の経過時間の指標として直接用いること、すなわち「分子時計」に根拠を与える。最も単純に考えれば、2つ生物の配列を比較して、全配列中の置換が起こっている箇所の割合を、その生物が分かれた後の時間の指標として使えることになる。このようにして、当初から、分子系統は「距離法」として出発した。すなわち、配列データやその他の分子マーカーデータを何らかの尺度により「距離」に変換し、距離の近いものは近い、遠いものは遠い、として系統推定を行ったのだ。これは形態系統が用いた共有派生の法則に基づく最節約法とはまったく違う考え方である。もちろん、もっとあとになって、分子マーカーとして塩基配列そのものが普通に使われるようになると、ひとつひとつの塩基座に存在する塩基の種類は質的データなので最節約法を適用することもできるようになるのだが、分子系統が「距離法」として出発したことは、後述する系統推定のアルゴリズムに関する問題を考える上で重要だと思われるので記憶しておいていただきたい。

 さらに、分子生物学的技術の発展によって、特定の遺伝子の塩基配列を決めることが簡単にできるようになると、塩基配列そのものが分子系統推定に用いられるようになった。こうして、分子系統は現在の姿を完成させていった(分子系統の具体的な距離のの計算法などについては「分子系統学」を参照)。


7・3・6 分子と形態、どちらが正しい?
 いろいろな生物について分子系統が作られるようになってくると、従来の形態系統と分子系統で結果が食い違う、ということがしばしば見られることがわかってきた。同じ生物を用いているのだから分岐の歴史が2つのわけはない。どちらが正しい?というわけで、「形態」vs. 「分子」で、どちらが系統推定に適しているかについての議論が展開された。両方の大まかな性質を表7・1に示す。現在では、一般的に分子マーカー(特に塩基配列)の方が系統推定に適した情報源である、という意見が大勢を占めている。もちろん、異論もあるが、ここでは著者が重要だと思うポイントを3点あげる。

1)塩基配列は遺伝子そのものの情報なので、環境による形質の変動の効果を含まない。 2)形質変化のパターンの推定がデータセットからのみで可能。既存の系統樹を必要としない。 3)相同性の判定(DNAの場合は、配列上の位置が同じであること)が容易。

塩基配列の持つこれらの性質は、形態では不可能だったアメーバとヒトとの系統関係の推定も可能にした。また、多くの系統推定のアルゴリズムが必要とする、形質変化のパターンの推定が可能になったことによって、形態情報のみでは用いることのできなかった新しいアルゴリズム「最尤法」の適用が可能になったことも分子系統の大きな利点の一つといえるだろう。もちろん、化石生物など、DNAを採取する事が不可能な生物については形態情報に基づく系統推定しかできないわけだから、形態情報が全く無力になったわけではないが、少なくとも現在は、可能ならばいつでも塩基配列情報を用いるのが第一義的な選択肢といえるだろう。

 さて、肝心の「どっちが正しい」問題だが、これはケースバイケースで必ずしも分子系統がいつも正しい、とはいえないようだ。ある遺伝子の情報から、みんなが驚くような系統関係が得られた時でも、他の遺伝子を使って調べると、従来の形態系統と一致する結果が得られたりしたこともある。しかし、形態系統がうまく明らかにできなかった関係が、分子系統によってほぼ明らかになった例もある。たとえば、ゴリラとチンパンジーのどちらがヒトと近縁かという問題は長らく未解決だったが、多数の分子情報が示すところによれば、チンパンジーの方がより近縁であることはほぼ確実になっている。また、非常に遠縁の生物で、形態では比較が不可能なような生物間でも、共通に持つ遺伝子の塩基配列から系統が推定されたりしている。これらのことは、分子系統が系統推定にとって有力な方法であることを示していると言えるだろう。しかし、すでに形態系統が存在する場合、分子系統がそれと大きく矛盾するような結果を出すことはまれであることも追加しておこう。つまり、形態系統やそれを作るための形質の吟味も、たいていの場合はさほど間違った結果をもたらしてはいない、というのが現在までの「経験則」である。

 これらのことを踏まえた上で、次節では、塩基配列からの分子系統推定に用いられる代表的なアルゴリズムを紹介し、いまだに続く「どのアルゴリズムが一番か」という問題を絡めつつ、塩基配列から系統推定をする上で、最近注目されつつある問題を紹介してみたいと思う。



7・3 分子系統推定のアルゴリズム


7・3・1 距離法と形質状態法
 塩基配列からの系統推定法には大きく分けて2つの考え方(アルゴリズム)が存在する。一つは、配列データを何らかの距離データに変換して距離行列を作成し、距離の近いものからつなげて系統樹作製を行う「距離法」である。もう一つは、一つ一つの塩基座の情報をそのまま用い、考えられる様々な樹形に、それらの塩基座のデータから、ある最適化規準を計算し、最も優れた値を示す系統樹を選ぶ「形質状態法」である。前者でよく用いられるのは、近隣結合(Neighbor-Joining: NJ)法や非加重群平均(UPGMA)法である。一方、形質状態法では最節約法(Maximum Parsimony: MP)と最尤法(Maximum Likelihood: ML)がよく用いられる。このうち、UPGMA法は、系統樹の各枝で塩基置換速度がいつも一定である、という条件が満たされるときは正しく系統を推定するが、そうでないときは間違いやすい事がわかっている。また、様々な遺伝子の配列データがそろうにつれ、このような置換速度一定は成り立たない場合も多いことがわかってきたため(後述)、最近はUPGMA法は使われなくなりつつある。

 ここで、距離法と形質状態法の特徴について簡単にまとめておこう。距離法は処理速度がきわめて速いが、形質状態を距離に変換する際に、一部の情報量が失われるという欠点を持つ。そもそも距離法は複数の系統樹候補からどれかを選ぶのではなく、計算された距離行列に基づいてただ一つの系統樹を導くので、実質的な計算時間は距離行列の計算時間しかかからないのだ。情報のロスについては、Box 7.2 に簡単な例で説明してある。要するに、異なる情報を持つ配列間で距離が同じになってしまったりすることがある、と考えればよいだろう。

 逆に形質状態法は、情報量のロスはないが、多数の系統樹候補についていちいち最適基準の計算を行うので処理時間がひどくかかる、という欠点を持つ。コンピュータを使えば処理時間なんて問題にならないだろうと思う読者もいるだろう。しかし、完全に2分岐の系統樹を考えたとき、枝の末端に来る分析の対象生物が1つ増えると、今の枝の全てにその生物への分岐の枝がつながる可能性があるわけだから、対象生物が増えるにつれ、可能な系統樹の数は2のべき乗(嶋田さん!2x(上付き文字)を入れて下さい!)で増えていく。有名なネズミ算とおなじで、あっというまに天文学的数字になってしまうのだ。したがって、計算時間の問題は深刻である。5年ほど前には「最尤法は対象生物の数が20を超えたら、計算させるよりも実際に進化させた方が早い」という冗談が「まじめ」にささやかれていた。

 次に、NJ, MP, MLの各方法の原理について簡単に説明しよう。
1)近隣結合法
 塩基配列データからある方法に基づいた距離を生物のペア毎に計算し、距離の一番近い者同士を「近隣」として最初につなげ、つないだグループと「近隣」なものを次々につなぎ、結果として、距離行列から得られる系統樹のうち、枝の総長が一番小さくなるような系統樹を作っていく。計算処理は少ないので処理速度は非常に速いし、原理的に塩基置換速度の一定を仮定していないので適用しやすい。

2)最節約法
 7・2・1節で述べたように、派生形質の共有性に基づいてグルーピングを行い、枝上での形質変化の回数が最も少なくなるような系統樹を最良の系統樹として選び出す。対象生物の形質状態から系統樹作製のための変数を計算するわけではないので、形態形質のような形質にも適用できる。また、扱う形質の進化パターンについて特に仮定はないとされているが、形質の変化回数が最小なものを正しいとするからには、扱う形質に収斂(Box 7.1参照)が多いときは推定を誤る。また、実際の進化過程で形質の変化が比較的少ないときにより有効だと考えられる。

3)最尤法
 塩基配列データが使えるようになって初めて可能になった方法で、DNAなら、ある塩基座にはA, T, G, C のどれかが必ずあり、その塩基が置換する行き先もその4つのうちのどれかしかない。したがって、ある塩基が4つの塩基のそれぞれに置換する確率を推定することができれば、あるデータセットに対して、ある樹形の上で、枝の末端の現在の塩基状態から、その系統樹において観察されているような置換が起こる「確率」というものを計算できる。これを「尤度(それが起こる確率)」といい、可能な樹形についてそれぞれの尤度を計算し、尤度の最も高い系統樹を選ぶ、という方法である。最近は高速計算ができるプログラムも開発されてきているが、それでも計算時間は最節約法以上にかかる。しかし、統計的に厳密な取り扱いができるので統計学者には評判がいい方法である。


7・3・2 どのアルゴリズムがよいのか?
 「形態」vs. 「分子」と同じで、3つのアルゴリズムが同じデータセットに対して異なる樹形を与えることはしばしばある。そこで、1980年代はじめ頃から、どの方法が優れているかをシミュレーションなどによって比較する研究が行われた。ある塩基配列を、与えられた系統樹通りの分岐パターンで、一定の塩基置換率にしたがってコンピュータ上で進化させ、生じた配列のデータセットから、各アルゴリズムが元々の系統樹の樹形を再現できるかどうかしらべる、というのがこの手のシミュレーションの常套手段である。初期の研究例では、NJやMLの方が、MPよりも成績がいい、という結果が多い。しかし、シミュレーションにおいて配列を人工進化させる上で、特定の塩基間の置換率を他の組み合わせよりも大きくしたりするような進化モデルを与えているにも関わらず、MPの初期設定は、そのような差を樹形推定時に考慮するようにはできていない。従って、このような結果は当然のことといえる。MPでもそのような置換パターンを推定時に取り込むようなセッティングは可能で、そのような進化モデルを組み込んだ最節約法を一般化最節約法(generalized pasimony: GP)と呼んでいる。GPも含めた上でのシミュレーション研究からは、「データセットに内在する進化モデルが、各アルゴリズムの特性に一致する場合には、その方法は成績がいい」というごく当たり前の結論が得られている。この結論は、「じゃあ、どれを使えばいいの?」という疑問には、「扱うデータセットが内包する進化モデルを何らかの方法で推定した上で、用いるアルゴリズムを選べ」という解答が用意されている、ということであり、データセットの特質をよく考えないでアルゴリズムを選ぶ、というのは間違う危険性を増大させる、ということになるだろう。

 また、初期のシュミレーション研究では、配列の人工進化に用いられる進化モデルは単純なものだったが、様々な生物の塩基配列のデータがたまるにしたがい、実際の配列進化は、当初考えられていたような単純なものではないことが明らかになってきた。最初は、配列進化は完全にランダムに起こる(=自然選択から中立)と考えられていたが、複数の生物の相同な遺伝子座の塩基配列を比較することにより、すぐに、プリン塩基(A・G)同士、ピリミジン塩基(C・T)同士の置換(Transition : 転移)の方が、プリン塩基・ピリミジン塩基間の置換(Transversion : 転換)よりもはるかに起こりやすいことが明らかになってきた。さらに、タンパク質をコードしているような遺伝子の塩基配列では、塩基の置換率は、第2コドン<第1コドン<第3コドンの順であることや、タンパクの種類によって平均置換速度(=進化速度)も大きく異なることがわかっている。また、リボソームDNA(リボソームRNAの配列を指定するDNA領域)などでも、置換速度の速い領域と遅い領域が存在することがわかってきている。その上、そのような領域ではしばしば、系統樹上の枝によって進化速度が異なっているとしか考えられないデータも得られており、進化速度一定の原則に反するような配列進化もあり得ることが示されている。タンパク質コード領域で、タンパクの種類やコドン間で置換パターンが違うのは、重要な機能をもつタンパク質では少しの変異も致命的になる可能性が高いため、変異が集団中に固定しにくいからだと考えられており、実際の進化パターンは、指定するタンパク質ごとに異なる非常に複雑なものであるということになる。

 さて、実際の進化がこのような複雑なものであるからには、その進化モデルをデータセットからいかにうまく推定し、各アルゴリズムに組み込んでいくか、というのが系統推定における重要な問題になってくる。最近の研究例では、タンパク質コード領域では、少なくとも、コドンポジション間および、転移・転換間の置換速度の差を両方組み込んで推定しないと良い結果が得られないのではないか、ということが示唆されている。また、タンパクコード領域では、タンパク質がどのような立体構造をとるかに関係している、ポリペプチド上のアミノ酸座位によってアミノ酸の置換率が異なっていることもわかってきている。こうした、領域によって異なる進化速度を持つ配列のデータセットの場合、NJは現在用いられている距離行列の計算モデルでは正しい系統を推定する能力がかなり落ちることが示されている。他の方法では、上述したような進化モデルを組み込んだ場合、GPはMLを上回る成績を残すことができることが示されている。MLにおいても、より細かいモデルの組み込みを行うことで、より一層の成績向上が見込まれるが、そのような「重いモデル」を入れた場合は、どうしても計算速度の制約が重くのしかかってくる。現実的には、GPで樹形推定し、その樹形上でMLで枝長を決める、というのが良い解決策かもしれない。

 アミノ酸座位毎に置換率が異なるようでは、データセットによっては単にコドンポジションの区別をしただけでは正確な推定が困難な場合もある。従って、データセットから推定を行う前に、データセットに内包される進化パターンをよく吟味することが必要になるが、実際の研究例としては、そこまでの工夫をこらした研究は少ない。しかし、得られた系統樹を「真の系統関係」としてその後の議論を進めるような場合には、その後の議論の内容は全て系統樹に依存しているのだから、推定時に知恵を絞らないようなやり方は、科学的には実り少ない結果しかもたらさないかもしれない。そうならないために本当に大事なことは、用いるデータセットについて、進化パターンについての十分な解析を先に行い、その上で用いるべき適切なアルゴリズムと組み込むべきモデルを選ぶ、という態度であろう。賢明なる読者諸兄は次のことを悟ったに違いない。よりよい系統推定を行うためには、「どのアルゴリズムが一番良いか」という議論は「あまり意味ない」ものである、と。



7・4 系統がわかると、何が面白いのか?


7・4・1 系統関係から明らかになる生物進化の不思議
 ここまで長々と方法論の話をしてきたが、では、系統がわかったとして、生物のどんな面白いことがわかるのか、について、少し実例を出して見ることにしよう。まずは、系統推定が、生物の進化の複雑さ、不思議さを直接明らかにするような研究例を紹介する。

 第1の例は、アフリカのマラウィ湖という湖にいるカワスズメという魚の仲間の話である。ここのカワスズメは、形態的に非常に異なる多数の種が知られている。それらの各種は、形や生活形が、タンガニイカ湖という、別の湖のカワスズメの中に、それぞれ対応する非常によく似たものがあり(図7・6)、昔は似たような形や生活形をもつものが、それぞれの湖に独立に何度も入り込んで、現在のような多様性が現れたものと考えられていた。つまり、それぞれの湖で似たような形や生活形をもつものは共通祖先から別れた姉妹種だと考えられていたのである。ところが、近年詳細な分子系統解析が行われた結果、なんと、マラウィ湖のものは、すべて、タンガニイカ湖の種群とは別の単系統群であることが支持される結果となったのだ(図7・6)。すなわち、両湖でよく似た形や生活形のものはまったく独立に生じた「別のもの」だった、というわけである。おそらくは、両湖に存在した似たような生活環境に対して独立に適応進化が起こった結果、現在のような収斂進化が見られる結果となったのだろう。似たような例は、オーストラリア亜大陸で独自の進化を遂げた、ほ乳類の有袋類でも生じており、有胎盤類の各種とよく似た生活型を持つものが存在することは有名である。これらのことは、似たような生物が同じような環境で独自に進化を遂げた場合、進化の終着点も似たようなものになることを暗示しており、生物進化を考える上で興味深い実例といえるだろう。

 また、カワスズメの続きだが、同じアフリカのビクトリア湖に「いた」500種あまりのカワスズメも、全て他の湖とは別の単系統群であるという系統学的な証拠が得られている。ビクトリア湖は、地質学的な証拠から13000年ほど前に完全に干上がってしまったと考えられているので、500種という膨大な「種」が、わずか13000年の間に分化して多様化した、とも考えられるのである。しかも、このような急速な種分化には、第6章で説明した「性選択」が大きな影響を及ぼしていたのではないか、と考えられており、進化生物学にとって貴重な実例「だった」のである。なぜ過去形なのか?実は、これら500種のカワスズメのほとんどはもはやこの世に存在していない。食用とするために湖の導入されたナイルパーチという大型の肉食魚が、ほとんどのカワスズメを食い尽くして絶滅させてしまったのである。日本のブラックバスと似た話である。ともあれ、このカワスズメの例は、「種分化」というものがどのような機構によってどの程度の年月で起こるのかを知るには格好の材料だったのだが、結論は永遠に得られることはない。

 第2の例は脊椎動物の系統進化の解析例についてだ。みなさんよくご存知のように、動物の分類学では、「爬虫綱」という一つの分類群がもうけられており、カメ、ヘビ、トカゲ、ワニの仲間がその中に入れられている。しかし、分子系統解析の結果では、ワニはなんと、トリと一緒に別の単系統を作ってしまうのである(図7・2参照)。すなわち、ワニは、カメやヘビよりはむしろトリに近いという結論である。この研究結果は分類学の上で大きな問題になっており、ワニを爬虫綱に含めたままにしておくかどうかでいまだに論争が続いている。

 第3の例はヒトと最も近縁なサルは何か?という問題を取り上げよう。候補としては昔から、チンパンジー、ゴリラ、オランウータンがあげられてきた。酵素タンパク質の多型解析や、DNAハイブリダイゼーション解析などで、まずオランウータンは候補から脱落していたのだが、チンパンジーとゴリラはどちらを支持する証拠もあり、はっきりとした結論が得られていなかった。しかし、近年、多数の遺伝子の塩基配列情報が蓄積されるにつれ、チンパンジー(ボノボを含む)のほうが、ヒトにより近縁であることはほぼ確実になってきている(図7・7)。また、塩基配列のレベルでは、ヒトとチンパンジーは約97%が一致しているということである。現在、ヒトとチンパンジーの全ゲノムDNAの塩基配列を決定する作業が進んでいるので、近い将来、どの遺伝子のどの変異が、ヒトとチンパンジーをわける鍵となっているかすら判明するかもしれない。

 最後の例は、寄生者と宿主の協調した進化の例で「共進化」と呼ばれるものだ。例としては、ホリネズミというネズミとそれにつくシラミの関係、および、イヌビワという植物とイヌビワコバチという、イヌビワの花粉を媒介する特殊なハチの共進化をあげておこう(図7・8、7・9)。どちらの例でも、寄生者と宿主の系統関係は、きれいな対応関係を示している。これは、宿主が種分化すると同時に寄生者の個体群も隔離され、引き続いて種分化する、というモデルの予測とよく一致する結果である。

 ビクトリア湖でのカワスズメがそうだったかもしれないように、いくら早く起こることがあるといっても、種分化は年月のかかる現象であるから直接観察による進化仮説の実証はきわめて困難だった。しかし、この章で説明した系統解析を用いて、仮説から予測されるような進化パターンが実際に起こったのかどうか調べることで、従来困難であった種分化に関する進化仮説の検証もできるようになってきている。


7・4・2 系統樹を用いた種間比較
 第6章で少し触れたが、様々な種の形質をデータとして扱い、進化に関するある仮説を検証する場合がある。たとえば、「寒い気候では、動物の体が大きくなる」という進化仮説を検証したいとき、様々な動物種について、生息地の平均気温と体サイズの平均値を調べ、その間の関係を見るわけである。そして、もし、生息地の平均気温と体サイズに正の相関が見られれば、この仮説は支持された、と考えるわけだ。このように、種の持つ平均的な形質を1つのデータ点として、複数種のデータを調べて解析する手法は「種間比較法」と呼ばれている。調べた「種」のデータを単純にプロットしてその関係を見る、単純な種間比較法は、10年ほど前までは生態学においてよく用いられた手法であり、それに基づく結果も多数発表されている。

 ところが近年、「種」と「種」の間には、それらが共通の祖先からどのようなパターンで分化してきたのかという系統関係があり、この関係を無視した解析結果は統計的に信頼できない、という批判がでた。なぜ、系統関係を無視した種間比較はダメなのかを簡単に説明しよう。いま、AとBという2つの形質を共有する、いくつかの種を調べて比較するとする。また、これらの種の系統関係が、図7・10のように、過去に共通祖先から分かれて現在のようになったものとする。この場合、もし、AとBという形質が、それぞれを持つ複数の種が共通祖先から別れる前(図7・10参照)に生じたものとすれば、現在の形質の分布は、過去の影響を引きずっており、互いに独立なデータとはいえないことになる。種間比較法でデータを解析するときに用いられる統計学の方法は、用いるデータが互いに独立であることを前提としており、データの中に互いに独立でないものが含まれる場合には、本当は比較した形質の間には特別な関係はないにもかかわらず、誤って関係があるとする結果を導きやすくなる。図7・10の例でも、単純な相関をとれば統計的に有意な正の相関が現れるが、系統関係を考えた場合、その結果が正しいとは言えなくなる。

 このような問題が論争に発展した例として、第6章でふれた鳥の羽色の派手さと寄生虫の関係を再度見てみることにしよう。

 もう一度、元々の研究内容を簡単に紹介する。鳥では、オスの方が派手な羽色をしているものが多い。そこで、派手な羽色が寄生虫耐性を表す形質として性選択により進化したならば、より寄生虫の蔓延度が高い種ほどオスが派手だろう、という予測が成り立つ。北米にいる109種の燕雀類で、羽色の派手さに6段階のスコアをつけ、各種の寄生虫の蔓延度をしらべて相関をとったところ、寄生虫の蔓延度が高い種ほど羽色が派手である、という予想通りの結果が出た。

 この研究は単純な種間比較法を用いており、系統関係の考慮はしていない。その点に関して批判したグループは、系統の影響をできるだけ取り除くため、似たような種で構成される、種の上位分類群である属の内部で羽色と寄生虫蔓延度を比較してみた。その結果、19属のうち8属でしか相関は見られなかった。また、各属の平均値を1点として相関を取ったところ、弱い相関が見られたが、それはアトリ科の鳥のデータのせいで、アトリ科を取り除くと相関はなくなってしまった。このような結果から、彼らは羽色と寄生虫蔓延度の間に相関があるかどうかははっきりしない、と批判したのだった。もっとも、彼らが用いた上位分類群を用いた方法は、分類を系統の代用として用いており、分類が系統を反映したものであるかどうかの保証がない以上、このやり方でも正しい結果が導けるわけではない。多くの方にとっては意外なことかも知れないが、本来は分類と系統は全然別のものであり、現在の分類体系が本当の系統関係を反映しているかどうかは調べてみなければわからないことなのだ。ともあれ、最終的には各種間の正しい系統関係が得られないうちは、どちらの研究結果が正しいかについての決着はつかないだろう。この例に代表される種間比較法の問題点は、進化生態学の研究にも系統情報が必要であるということを、これ以上ない形ではっきりと知らしめたのだった。

 近年では、DNAの塩基配列の決定が比較的簡単にできるようになったため、進化生態学の研究分野でも系統樹を用いた種間比較法が普通に用いたれるようになってきており、多数の進化仮説が検証されつつある。 系統関係を知ることにより、今まで答えが出せなかった様々な進化学上の問題に、まさに答えが与えられようとしているのだ。これを面白い、といわずして何が面白いといえるのだろうか、と私は考える。

長谷川ラボTopページへ)。