团队-爬取豆瓣电影Top250-项目总结-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

团队-爬取豆瓣电影Top250-项目总结

阅读量：5227 次

发布时间：2019-06-14

本文共 1191 字，大约阅读时间需要 3 分钟。

团队名称：极限定理

项目名称：爬取豆瓣电影Top250

组长：邵文强

成员：张晓亮、潘新宇、邵翰庆、宁培强、李国峰

总结：

一.项目效果演示：

　　输入网址，查询页面所有信息。

　　针对电影类别查询，统计，整合。

二.项目的背景和相关工作：

　　项目的分析

　　项目针对的实际问题

　　完成项目的相关工作（需求的实际报告、程序的设计）

三.确定项目的方向-针对信息的搜索

　　针对网页的搜索引擎发的很比较成熟，而针对的信息的搜索正在成为热点，而且技术上更有难度。

四.项目遇到的问题：

　　爬虫的实时性的问题

　　网站对爬虫的限制

　　自然语言的信息提取

　　（信息更新不是很快）

　　（信息提取相对容易）

五.针对软件资源的问题：

　　正则表达式导致读取网页过慢。

　　软件资源的更新速度不算太快，我们的爬虫可以跟上更新的速度。

　　所有的信息是半结构化，信息的提取比自然语言提取更容易。

　　在实际中，有比较好的应用。

六.项目的相关的工作：

　　信息提取

　　自然语言处理

　　增量式爬虫的原理

　　半结构化的信息提取

七.分析设计：

　　需求分析

　　项目的框架

　　网络爬虫

　　半结构化信息提取

　　查询的预处理

　功能需求分析：

　　1.能够下载任何http协议和HTTPS协议的链接的网页

　　2.构造http请求中的GET请求

　　3.分析http响应请求。

　　4.提取网页链接并统计数量。

　　5.保存，能够正确的保存网页及网页信息到文件。

功能模块流程图：

　　构造GET请求——>链接网站服务器——>发送GET请求——>接受网站的数据——>分析HTTP报文头

需要说明的问题：

　　1,.利用系统函数把网页读入内存。

　　2.利用正则表达式提取相关信息。

　　3.把一个网页URL写入文件保存。

八.模块

主要事件流：

　　1.构造GET请求

　　2.链接服务器。

　　3.发送GET请求

　　4.接受网站返回的数据。

异常事件：

　　1.申请大块内存失败。

　　2.分配内存对象失败。

　　3.链接网站服务器失败。

　　4.发送请求失败。

　　5.接受网站返回数据失败

九.基本工具的使用

　　1) urllib2:　　urllib2的基本用途、只要函数，如何post数据，cookie的设置

　　2）异常处理的方式：

　　　　a)try...except

　　　　b)Http异常码

　　3) 文件读写创建等常用操作

　　4）关于编码问题

　　5）运用以上工具实现一个基本网页的抓取。

十.测试与结果

　　对爬虫程序的设计：输入不合法的URL。能弹出错误提示。

　　输入各种类型的URL，只对http和HTTPS链接处理其他链接被视为异常。

图片示例：

转载于:https://www.cnblogs.com/Lindom/p/7944648.html

你可能感兴趣的文章

大数相乘练习

CentOS 7开机启动脚本

超像素分割, 并获取每一个分区

shell提示符显示git当前分支

iTextSharp生成pdf文档案例

设置IIS7/IIS7.5的FTP支持断点续传

JPA规范及其它持久层框架

CentOS 6 安装Syslog-ng

hdu Rikka with string （dfs）

我的第一条博客

http://qiye.qianzhan.com/ 企业查询宝

unity3d-解密加密数据

异步多线程处理

jenkins 构建后发送钉钉消息通知（插件）

自定义admin组件

城市小区信息

Python迭代器和关键字 global ,nonlocal

eclipse如何设置编译后target目录不提交svn服务器

sourcetree 免登录跳过初始设置

数据库事务隔离级别与锁

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-23 19:02:30 当前IP: 18.191.162.73 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我