小说爬虫框架修改三行代码即可添加任意网站

C/C++ 2020-08-30 10:55:37

小说爬虫框架修改三行代码即可添加任意网站

Button 状态修改 有掉用 Log(日志输出类) BeginInvoke 方法 防止异步调用组件崩溃问题

软件架构说明
有使用到第三方库 AngleSharp (Html解析库)
用来解析Html页面 获取 小说 名称 列表 章节 内容
使用到 Regex (正则库)
使用 Replace 命令替换 过滤广告
使用 RegexOptions.Compiled 属性编译为程序集 加速过滤
使用Task做异步调用
名称章节列表解析 有做异步掉用 事件回调 解析结果
Task 数组 多线程同时采集 Task.WaitAny 命令等待完成 继续投递
小说章节采集 错误重试三次 如有某章采集失败三次以上将停止采集