2014年3月8日 星期六

搜尋、翻譯、輸入法以及網路的其它種種

大陸人民郵電出版社吳軍寫的《數學之美》是一本容易被其書名誤導的書。在博客來的網頁初看時以為這是一本數學科普的書。像這類的書如果作者不是在領域中稍有建樹的,我很難期待它能真的愉悅心智。但是還是買了。

書裏的數學式子真的還不少。數學式子是台灣出版社在選擇科普書籍時的第一個過濾器有數學式子的就不考慮出版。台灣的出版社預計台灣有興趣看數學式子的書市人口不到一刷兩千人,這也是為什麼台灣在討論核能、減碳、污染這種技術性稍濃的議題時永遠像桃谷六仙對話般的夾纏不清。

幸好吳軍在大陸。其實書中的數學只要學過高中的機率、三角及線性代數基礎就能瞭解的。但是書不是講數學本身的,而是講在網路的世界中,數學如何被應用來解決一些棘手的問題。

剛開始幾章就覺得很受用。電腦的翻譯現在當然離完善還很遠,但怎麼考慮這個問題?直覺上是依詞性、文法來分析。但是至目前最有效的方法是撇開語言學教導的這一切,用統計語言模型來尋求最大機率,也就是只看詞在一般文本應用的組合機率來決定翻譯。這是一個概念上的大轉折。

搜索呢?這是另一個更有趣的議題。要搜索,首先要建立網頁資料庫。現有的網頁的數目在兆的數量級。首先需要爬梳 (crawling)、儲存建立資料庫。還得分類,找出其相關性。在輸入關鍵字後,那些網頁相關性較高,最常被重要網頁連結、如何防弊又是另一群有趣的子議題。而這些都可以透過機率、矩陣、餘弦定理 (ab = a2 + b2 + 2ab cosθ)等簡單數學來處理。

書中最深奧、或者是最高尚的字眼是馬可夫鍊 (Markov chain) 。上一次我聽到時還是在當學生時上吳大猷先生《理論物理》課中講熱力學的那一段。現在想明白了,不過是說一個系統的狀態只與前一個狀態有關。這是讓許多問題簡化成可以解的假設。它在統計語言模型的分析中扮演重要的角色。

吳軍本身在 Google 待過,經歷過這一段有趣的發展,所以寫來特別生動。我每天用 Google 的搜尋引擎、翻譯,對於其背後的原理沒有辦法容許自己如此無知,是以讀了很受用,好像吃了人蔘果似的。

幾個小註:一、這本書我買到時已是第七刷了,可見大陸這幾年的快速發展是有其原因的。二、如果不看式子,這本書還是可以只看文字。式子都是擺在延伸閱讀。然而只看文字章節也夠受益了。



沒有留言:

張貼留言