python爬虫自学4-继续爬网站-2022-02-14

感觉应该要趁热打铁,不然放几天又凉了。
跟上一个例子比呢:
1.这次我使用了字典来保存数据,并且把字典的内容存储到excel表格
2.使用正则表达式解析字符串,分离字符串
3.替换掉出现的中文全角空格

import requests
from bs4 import BeautifulSoup
import re
# import bs4
import xlsxwriter as xw

baseUrl = "https://www.ygdy8.com"

# 用于解析文本
listContents = ("译名", "片名", "年代", "产地", "类别", "语言", "字幕", "上映日期", "IMDb评分", "豆瓣评分", "片长", "导演", "编剧", "主演", "简介")

def getHtmlText(url):
try:
r = requests.get(url)
r.raise_for_status() # 网页打开失败,触发异常

python爬虫自学4-继续爬网站-2022-02-14最先出现在Python成神之路

版权声明:
作者:Mr李
链接:https://www.techfm.club/p/20878.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>