python爬虫自学4-继续爬网站-2022-02-14

Mr李 • 2022-02-14 21:39 • 好物分享

感觉应该要趁热打铁，不然放几天又凉了。
跟上一个例子比呢：
1.这次我使用了字典来保存数据，并且把字典的内容存储到excel表格
2.使用正则表达式解析字符串，分离字符串
3.替换掉出现的中文全角空格

import requests
from bs4 import BeautifulSoup
import re
# import bs4
import xlsxwriter as xw

baseUrl = "https://www.ygdy8.com"

# 用于解析文本
listContents = ("译名", "片名", "年代", "产地", "类别", "语言", "字幕", "上映日期", "IMDb评分", "豆瓣评分", "片长", "导演", "编剧", "主演", "简介")

def getHtmlText(url):
try:
r = requests.get(url)
r.raise_for_status() # 网页打开失败，触发异常

版权声明：
作者：Mr李
链接：https://www.techfm.club/p/20878.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

VMware workstation 16下体验安装Vmware ESXi 6.7

关于Windows PE

下一篇>>

搜索内容