通过PHP爬取【豆瓣TOP250】
爬虫目的:
考虑到一些喜欢看电影的人对找不到好看的电影而发愁,因此,就通 过在豆瓣_上的高评分电影进行爬取,爬取的项目确定为爬取豆瓣 TOP250。在初步设想后,通过对爬取的数据存储,然后再以网页的方 式展示出来,方便了大家对高评电影的电影名,电影简介,主演和导演等的相 关介绍。
爬取数据的网址:豆瓣电影 Top 250
将爬取的数据存储在数据库中:
将存储在数据库的数据通过网页展示出来:
爬取数据主要代码:
import urllib.request # z定url,获取网页数据
from bs4 import BeautifulSoup # 网页解析,获取数据
import re # 正则表达式,进行文字匹配
import xlwt # 进行excel操作
import sqlite3 # 进行mysql数据库操作
# 影片详情链接
findlink = re.compile(r'') # 正则表达式
# 影片图片链接
findim
共有 0 条评论