2010年11月22日 星期一

樹木與植物資料庫

先前的"台灣樹木資料庫網站" (該學術研究計劃已經轉到 http://tree2.cycu.org),每天至少都有 2500 人次蒞臨, 最高紀錄則每天到訪人數超過 10000 人次, 可見全世界對於"樹木資訊"的查詢, 有很大的需求.

在全球華人社會已經有許多專家學者建立了大量與樹木相關的資料庫, 內容豐富並且旁徵博引, 只不過大多數的資料庫系統並非以一般普羅大眾的需求作為前提, 其中"台灣樹木解說"則屬例外.

台灣樹木解說 的編排內容, 除了提列與樹木相關的重要資料外, 還有許多樹木照片, 但是卻有以下問題:

1. 中文內容為 Big-5 編碼

以 Big-5 編碼的內容, 在一般的資料瀏覽並不會造成太大的問題, 但是其中穿插許多全形與半形的 Big-5 編碼符號, 就會造成後續資料處理的問題, 一旦大量資料透過程式解讀就會因為少數的內容編碼參差而造成斷字或內容分段上的錯誤.

2. 內容共分五冊

由於許多類似的計劃都是分年進行, 因此紙面的資料, 以分冊進行原本無可厚非, 但是在數位內容資料上仍以分冊編排, 就會造成資料統合與查詢上的問題.

此外,數位資料的處理, 不僅各頁面以框架 (frame) 處理, 單一樹木資料頁面沒有足夠的關鍵字讓搜索引擎可以建立索引,  最可惜的就是數位版本採用紙本版中各樹木標題中的小圖像, 來標註各資料頁面, 更造成網際數位資料重用的障礙, 因為搜索引擎根本無法解讀這些"樹木標題中的小圖像"中的內容, 也就無法將資料納入資料索引中.

3. 全文搜索以 Javascript 技術進行

或許當年在建立數位版本時, 這是最好的單一檔案全文搜尋方法, 但是將全文資料以 Javascript 技術進行搜尋, 除了必須要重複儲存頁面展示與全文搜尋檔案等兩份資料外, 一旦某一頁面資料更新之後, 就必須要重新建立"全文搜尋檔案", 對於後續資料內容的維護就會造成很大的問題.

總之, 許多單位在建置樹木與植物資料庫的同時, 幾乎都沒有考慮到後續資料的維護與重用架構, 就連現在的台北花博也是一樣, 花了許多經費與力氣建立了植栽資料庫, 但是卻沒有任何資料提到, 全台灣眾多的花木喜好者該如何在非營利與教育為前提的情況下, 可以永續加值使用這些資料.

要求政府單位將這些數位資料, 以創用 CC 的授權釋出, 並且提供原始的資料庫檔案, 可以是最能延續價值的手段.

沒有留言: