2014年3月9日 星期日

萬維網 (World Wide Web) 的誕生—無用之用

我原來的研究專長是高能物理現象學 (high energy phenomenology),這是一門由實驗數據建立等效模型 (effective model) 的理論。能否有學術競爭力,除了本身的功力之外,另一個物質環境的因素是迅速的取得數據、以及與同行及時的聯繫。

當時的環境是 Bitnet尚未整合入 Internet,但已稍具雛形,可以經過電子郵件互通信息。學術期刊發表前的文章以預印 (preprint) 的形式各研究機構互相郵寄,有點像今日的 Arxiv,不過是紙本的。由於是紙本的,牽涉遞送郵費,能否取得足夠的預印端賴於所處機構的大小、知名度以及個人的學術聯繫。對於當時地處學術邊陲的台灣,這是一個明顯的劣勢。當時能否返台繼續從事研究的考慮,有一部份是這些物質環境的因素。

算是初生之犢,所以決定返台。回台之後,第一件事是申請 email 帳號。我的 email 帳號是學校中的第 2 號,僅次於電算中心主任。學術上的訊息靠著親朋好友經 email 的資訊濟助,勉強存活。

慢慢的,大型的高能物理實驗室的預印電子資料庫紛紛建立,狀況稍有改善。像 CERNSLAC 等地都有可以自行下載的預印電子文本。但電子文本有另外的挑戰。一個完整的學術文章中含有多種格式的檔案,文字、數學公式、圖式、表格、照片等。有些可以用當時已問世的標記語言 (markup language) TEXLatex解決,有些則無法。這些分歧的檔案格式在現在的人很難想在撰寫、排版、傳送、列印、儲存等時會造成多大的困擾,像畫 Feynman diagram 要用針筆自己在圖紙上繪畫、列印要在雷射印表機上另行加掛軟體等這些繁冗的工作程序。

萬維網就是在這樣的需求下催生,柏內茲李(Tim Berners-Lee 1989 3 12 日在歐洲核子研究組織(CERN)提出「全球資訊網」(World Wide Web)的構想。萬維網最核心的觀念就是將各式各樣格式的檔案整合於單一的檔案之下,使用超文本標記語言 (Hypertext Markup LanguageHTML),並且定義了傳輸的規範 (Hypertext Transfer Protocolhttp)。這使得形式各異的檔案可以整合於單一檔案,並且可以傳輸、瀏覽。這個構想成功的解決了為紛歧檔案格式所苦的高能物理社群的問題。我恰好生逢其時、恭逢其盛,見證了這一由我專業內需求誘發的偉大構想。

隨著冷戰結束、二戰的記憶日遠,兼之各國政府的預算拮据,對於基礎科學的研究的支持熱忱不再。現在國內對於基礎研究,要求能應用、貢獻 GDP 的。但想想萬維網這個例子,有大用的概念不一定是畫定標靶就可以射中的。在基礎研究,像群論的發生是要證明五次方程式沒有公式解,很長一段時間沒有人知道其它用途,遑論對 GDP 的貢獻,黎曼幾何亦然。這種例子在基礎研究的領域比比皆是。

萬維網的大興,遠超過當初的標的。以各國歷年來投入高能物理的累計經費來對照萬維網所衍生的巨大經濟利益,這樣的投資報酬還算是便宜了。


埃迪卡拉生物群 (Ediacaran Biota)

這是在寒武紀物種大爆發前的生物群,大概從六億一千萬年前開始出現於地球。是動物或植物未知,也許像是地衣一類的多細胞生物,已出現較複雜的結構。與寒武紀物種大爆炸後的生物找不到明顯的傳承關係,有人說它是失敗的演化。

地球剛開始出現生命跡象大概在四十億年前。為什麼要費那麼久才演化成稍為複雜的埃迪卡拉生物群?其中一個理由可能是氧的含量。原來充滿二氧化碳的地球環境要經藍菌用光合作用工作很多年,才將其轉換成氧。氧含量高,較複雜、大型的生物才有機會將其送至末梢。

埃迪卡拉生物群在全世界都有分佈,在中國這是第一次。但是提「中國」實在有些勉強。六億年是在上兩次大陸板塊漂移之間的年代,那時的三峽在世界的那一個角落還很費猜疑呢!



2014年3月8日 星期六

搜尋、翻譯、輸入法以及網路的其它種種

大陸人民郵電出版社吳軍寫的《數學之美》是一本容易被其書名誤導的書。在博客來的網頁初看時以為這是一本數學科普的書。像這類的書如果作者不是在領域中稍有建樹的,我很難期待它能真的愉悅心智。但是還是買了。

書裏的數學式子真的還不少。數學式子是台灣出版社在選擇科普書籍時的第一個過濾器有數學式子的就不考慮出版。台灣的出版社預計台灣有興趣看數學式子的書市人口不到一刷兩千人,這也是為什麼台灣在討論核能、減碳、污染這種技術性稍濃的議題時永遠像桃谷六仙對話般的夾纏不清。

幸好吳軍在大陸。其實書中的數學只要學過高中的機率、三角及線性代數基礎就能瞭解的。但是書不是講數學本身的,而是講在網路的世界中,數學如何被應用來解決一些棘手的問題。

剛開始幾章就覺得很受用。電腦的翻譯現在當然離完善還很遠,但怎麼考慮這個問題?直覺上是依詞性、文法來分析。但是至目前最有效的方法是撇開語言學教導的這一切,用統計語言模型來尋求最大機率,也就是只看詞在一般文本應用的組合機率來決定翻譯。這是一個概念上的大轉折。

搜索呢?這是另一個更有趣的議題。要搜索,首先要建立網頁資料庫。現有的網頁的數目在兆的數量級。首先需要爬梳 (crawling)、儲存建立資料庫。還得分類,找出其相關性。在輸入關鍵字後,那些網頁相關性較高,最常被重要網頁連結、如何防弊又是另一群有趣的子議題。而這些都可以透過機率、矩陣、餘弦定理 (ab = a2 + b2 + 2ab cosθ)等簡單數學來處理。

書中最深奧、或者是最高尚的字眼是馬可夫鍊 (Markov chain) 。上一次我聽到時還是在當學生時上吳大猷先生《理論物理》課中講熱力學的那一段。現在想明白了,不過是說一個系統的狀態只與前一個狀態有關。這是讓許多問題簡化成可以解的假設。它在統計語言模型的分析中扮演重要的角色。

吳軍本身在 Google 待過,經歷過這一段有趣的發展,所以寫來特別生動。我每天用 Google 的搜尋引擎、翻譯,對於其背後的原理沒有辦法容許自己如此無知,是以讀了很受用,好像吃了人蔘果似的。

幾個小註:一、這本書我買到時已是第七刷了,可見大陸這幾年的快速發展是有其原因的。二、如果不看式子,這本書還是可以只看文字。式子都是擺在延伸閱讀。然而只看文字章節也夠受益了。



2014年2月16日 星期日

哈札拉人源起與基因分析

哈札拉人 (Hazara) [2] 人的源起一直是人類學及歷史學家關注的題目。哈札拉人主要分佈於阿富汗及巴基斯坦,但也有遠至伊朗的族親。以前關於其源起的猜測是蒙古人 (Mongolian) 與突厥 (Turkic) 混血,但也有說是貴霜 (Kushan;阿富汗的人種) 的說法。

從宗教、歷史、地名等,蒙古人的說法有許多跡證。阿富汗主要是遜尼 (Sunni) 教派,而哈札拉人是什葉 (Shia) 教派,原因是伊兒罕國 (Il-khanate) 汗奉什葉教派,因而傳遞下來。哈札拉的部落名有Tulai Khan,咸信這就是拖雷 (Tolui;郭靖的俺答)。而哈札拉原意為波斯的「千」,相信這就是蒙古軍事單位千夫隊 (郭靖第一次被封的職位) 的轉譯流傳。這個命名與大陸的驪靬 [3] (legion;羅馬的軍團) 的起源有些相似。驪靬人的祖先為羅馬第一軍團,在波斯戰敗後輾轉流落至中亞變成傭兵,最後被漢帝國遷至甘肅。

但這一切都不如 DNA分析來的直接。Science 最近的文章確證了蒙古人之後的說法。看來哈札拉人是當初蒙古人滅了撒馬爾干 [4] (Samarkand;現烏玆別克共和國的一省) 後繼續南下的部眾,拖雷軍隊底下的千夫隊。看來《射雕英雄傳》的故事,也不是那麼樣的無稽。而人類基因圖譜分析的應用,在歷史及考古領域又下一城。


2014年2月15日 星期六

數學式子的審美觀

為什麼數學家覺得 Euler’s identity [2] 很美麗?因為這個才三項的式子中涵蓋了1加法與乘法的單位元素;還有 i由實數跨向複數的單位;e,指數與對數的自然基底;以及 pi,幾何最重要的數字。

現在的數學習慣以模式 (model) 來分類數學內容。但是以前的分類就是代數 (algebra),像群 (group)、環 (ring)、場 (field),解析 (analysis),像實 (real)、複 (complex) 變數 (variable),以及幾何 (geometry),如幾何與拓樸 (topology)Euler’s identity以一個簡潔的式子將這三個領域中最基本的數字聯絡起來,神奇美妙、無與倫比。

至於黎曼 (Riemann) [3] 與拉馬努金 (Ramanujun) [4] 不知道招惹誰了,他們的公式被視為奇醜無比。黎曼是幾何領域的先驅,他的黎曼幾何 (Riemannian geometry) 觸發了愛因斯坦的廣義相對論。他的 Riemann-zeta function [6] 在解析數論中有重要貢獻,但是式子寫來簡單,被如此說嘴,有點冤。至於拉馬努金不知其所確指,掛在他名下的至少有 Ramanujun theta function [7] Ramanujan tau function [8]。不過這些式子的確看起很複雜。Wiki詞條要解釋這式子還要先花一大篇幅說明符號。以簡潔就是美的觀點來說,洵不誣也。


2014年2月13日 星期四

漢藏族以及演化中的混合適應選擇

最近 University of Chicago 以及 Case Western Reserve University 共同研究 "Admixture-facilitated genetic adaptations to high altitude in Tibet" [2]發現藏族人的基因約有一半來自於雪巴人 (Sherpa),另一半來自漢族。這個結果發表在最近一期的 Nature

這個結果有預期之中的,也有意料之外的。預期之中的是漢、藏親密的血緣關係。在人類學的分支中,漢藏是一直到最底層才分開的。而在語言學的分類裏頭,漢語及藏語也是在最底層才由漢藏語系分支的。這次結果比較新的地方是這個分支點可以遠溯至 20,000 ~ 40,000 年前,舊說是 3,000 年前。這個改變相當大。近代文明是從上次冰河期結束才開始,大約才一萬兩千年。三萬年前,現代人、尼安德塔人 (Neanderthals)我們普遍含有 2~5 % 其基因以及丹尼索凡人 [3]—我們含有其部份免疫基因還在歐亞大陸分別存在,未完全融合成現代人的模樣。這個發現,對於緊張的大陸、西藏關係,是不是會投下變數?

另一個才是其研究的主題,也是基因科學面向的。在演化中的天擇機制,一般是由於新的有利突變 (mutation)、或者既存的變異 (variant) 在新的環境中變得有利來發生作用。此次發現的重要性是基因混合 (admixture) 也可以是另一種適應 (adaption) 機制高原人 (highlander 雪巴人) 以及低原人 (lowlander;漢人)—基因混合的結果促使他們在海拔 4,000 公尺的平台適應良好。

我越來越喜歡人類基因圖譜的應用了。除了在醫療方面的應用,它在考古學上也往往是一錘定音。像前述的丹尼索凡人,從其指節的粒腺體分析,我們知道他與現代人及尼安德塔人是明顯不同的。而這一切,只有科學,沒有一點意識型態模糊的餘地。


2014年2月10日 星期一

全球免費 WIFI 覆蓋網

如果這個全球免費 WIFI 覆蓋網成真,所有 last mile 以及 ISP 的公司都要掛了。由於無縫的連接,連內容公司 (包括像 GoogleFBline ),廣告權要讓出一大部份。

科技的變化速度實在超乎想像。這讓只有能力做線性外延的公司窮於應付。但這也是創業的好機會。不過像 MDIF 這家公司需要的資金相當龐大。除了創意之外,需要有業界的 credential 去募款。

http://www.chinatimes.com/realtimenews/20140210001063-260401