2009年9月7日 星期一

開始實作 Regex Generator

今天花了一天的時間將Regex Pattern自動產生器的構想做一個測試的小程式.
初步結果還算滿意, 但是今天只是做最簡單的部份: 將 HTML 表格的標題列抓下來.

首先把HTML網頁中的 抓下來. 一般網頁都有很多層的表格, 在此我假設最內層的表格才有包含資料. 我很偷懶地利用 Regex 把 的資料內容抓下來, 再一層一層把外層的 table 給去掉, 最後保留最內層的 內容, 再把 第一排的 抓下來當做欄位標題. 測試幾個公開資訊觀測站的網頁, 還算正常:

公司基本資料
基金基本資料

權證基本資料

接下來的工作可能就沒有那麼簡單了, 要從網頁去產生 Regex Pattern. 今天先到此為止吧.