继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

Python 爬取喜马拉雅音频

忽然笑
关注TA
已关注
手记 191
粉丝 64
获赞 275

一、分析音频下载相关链接地址

1. 分析专辑音频列表页面

  在 PC端用 Chrome 浏览器中打开 喜马拉雅 网站,打开 Chrome开发者工具,随意打开一个音频专辑页面,Chrome开发者工具中返回如下图结果:

https://img1.mukewang.com/5b5d9d150001c86315460807.jpg

  经过分析专辑音频列表地址为

https://www.ximalaya.com/revision/album/getTracksList?albumId=12378382&pageNum=1

  其中:

  • albumId 专辑ID

  • pageNum 页号

  返回的页面内容是 json 格式,相比于 html 源码,json 还是很容易处理的,下载音频只需要用到如下参数:

  • tracks 音频信息列表

  • tracks -> title 音频标题

  • tracks -> trackId 音频ID

2. 分析音频下载链接地址

  随意播放一个音频,在Chrome开发者工具中返回如下图结果:

https://img3.mukewang.com/5b5d9cd50001f5db00150020.jpg

  经过分析专辑音频下载链接为

  其中

  • trackIds 音频ID

  返回的页面内容也是 JSON 格式,其中 tracksForAudioPlay 字段包含了音频的相关信息,其 src 就是音频下载地址。

  • src 音频下载链接

  • trackName 音频名称

  • trackId 音频ID

二、编写代码

1. 安装相关依赖模块

  本程序使用 requests 访问 web 页面,因此需要安装 requests 模块

pip install requests

2. 编写代码

  提取专辑内的音频列表信息,如下:

https://img4.mukewang.com/5b5d9cc50001e89c13881088.jpg

  提取音频下载地址,如下:

https://img3.mukewang.com/5b5d9cbb00019d1d14060830.jpg

  下载音频文件,如下:

https://img4.mukewang.com/5b5d9cb00001071714060646.jpg

  完整源码:

https://img1.mukewang.com/5b5d9ca0000146c422423664.jpg

原文出处:https://www.cnblogs.com/wuliqv/p/9386143.html

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP