blog mail me! feed

Stage2的新爬虫

一直以来, Stage2的爬虫都以DSF模式在进行着勤劳的爬行工作,
DSF决定了在处理最大限制深度的时候显得稍微笨拙.

同时因为一些最早遗留的问题,
在处理FTP文件和目录变更(尤其是目录和文件移动)时, 显得有些繁琐, 所以一直没有着手处理.

今天决定用BSF的模型来重写爬虫的行为,
同时优化本地cache的模式, 不再像原始版本那样从数据库重建cache, 而是直接序列化输出到本地的cache文件.
而cache也将完全的基于文件结构来建立而不是原来的平面目录结构.

另外, 准备加入多线程的支持以保证在爬行的时候, 多线程的工作最大程度的提高效率, 利用网络带宽.

就是这样, 不想写了, 不想写了!~