2009年9月5日 星期六

Regular Expression Pattern 產生器的構想

使用 Regular Expression 很多年了, 一直都是用人工的方式在設計 pattern, 在證基會所講授的課程也主要著重在 pattern 的設計. 當我們希望從一個網頁去找到有用的資訊並存入資料庫時, 免不了有幾個步驟:
  1. 利用Google找到適當的網站
  2. 分析網站上有用的資訊
  3. 找出網頁設計的邏輯
  4. 設計Regular Expression patterns
  5. 設計自動化下載的流程
  6. 執行下載
但程式寫久了總免不了要問: 有沒有更懶的方式來完成這項工作? 這些工作之中花最多時間的是設計pattern, 其他的步驟大多已經有自動化的工具. 目前的 spider 功能都是將整個網頁下載到硬碟之中成為一個複本, 只能做為離線瀏覽之用, 但如果要經由資料庫的方式來使用就沒有辦法了.能不能自動產生 pattern 成了重要的問題, 如果能夠有自動產生pattern的工具, 整項工作可以利用spider技術來完成大量資料的收集.