python爬虫自学4-继续爬网站-2022-02-14
感觉应该要趁热打铁,不然放几天又凉了。
跟上一个例子比呢:
1.这次我使用了字典来保存数据,并且把字典的内容存储到excel表格
2.使用正则表达式解析字符串,分离字符串
3.替换掉出现的中文全角空格
import requests
from bs4 import BeautifulSoup
import re
# import bs4
import xlsxwriter as xw
baseUrl = "https://www.ygdy8.com"
# 用于解析文本
listContents = ("译名", "片名", "年代", "产地", "类别", "语言", "字幕", "上映日期", "IMDb评分", "豆瓣评分", "片长", "导演", "编剧", "主演", "简介")
def getHtmlText(url):
try:
r = requests.get(url)
r.raise_for_status() # 网页打开失败,触发异常
共有 0 条评论