2009年9月8日 星期二

Regex Pattern 自動產生的結果還算是令人滿意

今天一整天還是忙著做 Regex Pattern 的產生器, 令人興奮的是, 這個 idea 似乎可行性很高.

我修改了 Test 程式, 可以自動將產生的 pattern 自動套用到資料檔上, 看看結果是什麼. 這個版本所產生出來的 pattern 雖然又臭又長, 但是的確是可行的. 我相信這個程式應用到其他相對設計比較簡單的網頁一樣是可行的.

程式輸入的資料只有網頁的原始檔, 再選擇從程式自動產生的 pattern 之後就產出資料表, 並沒有其他的資料或是選項, 當然如果加上選項效果會更好.

在產生 pattern 的過程中, 需要注意的大概就是 .. 之間的 tag 需要想辦法過濾掉, 所以我在程式裡面利用資料找到資料前後最大和最小的 tag 數, 再設計進去 pattern 產生器之中. 如果資料裡面由 tag 分隔成幾段的話, 以現在的程式就沒辦法處理. 不過這應該不是問題, 我想明天就可以處理掉這個問題.

明天想要加入 spider 功能, 讓pattern產生器大展身手一下.

附上另外幾個檔案的測試結果: