正确的使用HTTP代理-原创手记-慕课网

HTTP代理对于网络爬虫是一种很常见的协议，HTTP代理协议也是大数据时代不可缺少的一部分。HTTP代理在网络爬虫中发挥出了他大量用途。HTTP代理其实有许多用途，例如：刷票，爬虫，抢单，刷单，等等一系列业务都适合HTTP代理。其实对于网络爬虫工作来着说，许多网络工作者都不知道如何使用HTTP代理。那么如何才能正确使用HTTP代理呢？

1、大数据时代，各类网站的限制，限制爬虫，限制访问等导致无法访问和获取数据，这对爬虫用户就会产生极大的影响，这是网络爬虫用户就会运行HTTP代理来完成这些工作。网络爬虫需要在短时间内采集到大量数据，就需要运行HTTP代理IP，避免网站的反爬和网站的IP限制。使用网络爬虫程序接入HTTP代理，直接采集数据即可。

使用HTTP代理方案：

const http = require("http");
const url = require("url");

// 要访问的目标页面
const targetUrl = "http://httpbin.org/ip";


const urlParsed = url.parse(targetUrl);

// 代理服务器(产品官网 www.16yun.cn)
const proxyHost = "t.16yun.cn";
const proxyPort = "36600";

// 生成一个随机 proxy tunnel
var seed = 1;
function random() {
    var x = Math.sin(seed++) * 10000;
    return x - Math.floor(x);
}
const tunnel = random()*100;

// 代理验证信息
const proxyUser = "username";
const proxyPass = "password";

const base64    = new Buffer.from(proxyUser + ":" + proxyPass).toString("base64");

const options = {
    host: proxyHost,
    port: proxyPort,
    path: targetUrl,
    method: "GET",
    headers: {
        "Host": urlParsed.hostname,
        "Proxy-Tunnel": tunnel,
        "Proxy-Authorization" : "Basic " + base64
    }
};

http.request(options, function (res) {
    console.log("got response: " + res.statusCode);
    res.pipe(process.stdout);
}).on("error", function (err) {
    console.log(err);
}).end();

2、或者直接在网站服务器上使用HTTP代理，把HTTP代理直接配置到浏览器当中，在HTTP代理有效时间内访问即可，这样也能修改访问的IP。只不过这种使用方式对于爬虫用户来说，麻烦，不方便，建议使用上面的方案。