中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

C#多線程爬蟲如何抓取免費(fèi)代理IP-創(chuàng)新互聯(lián)

這篇文章將為大家詳細(xì)講解有關(guān)C#多線程爬蟲如何抓取免費(fèi)代理IP,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

創(chuàng)新互聯(lián)公司主營(yíng)察雅網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,重慶APP軟件開發(fā),察雅h5微信小程序定制開發(fā)搭建,察雅網(wǎng)站營(yíng)銷推廣歡迎察雅等地區(qū)企業(yè)咨詢

這里用到一個(gè)HTML解析輔助類:HtmlAgilityPack,如果沒有網(wǎng)上找一個(gè)增加到庫(kù)里,這個(gè)插件有很多版本,如果你開發(fā)環(huán)境是使用VS2005就2.0的類庫(kù),VS2010就使用4.0,以此類推..........然后直接創(chuàng)建一個(gè)控制臺(tái)應(yīng)用,將我下面的代碼COPY替換就可以運(yùn)行,下面就來(lái)講講我兩年前做爬蟲經(jīng)歷,當(dāng)時(shí)是給一家公司做,也是用的C#,不過當(dāng)時(shí)遇到一個(gè)頭痛的問題就是抓的圖片有病毒,然后系統(tǒng)掛了幾次。所以抓網(wǎng)站圖片要注意安全,雖然我這里沒涉及到圖片,但是還是提醒下看文章的朋友。

 class Program
  {
    //存放所有抓取的代理
    public static List<proxy> masterPorxyList = new List<proxy>();
    //代理IP類
    public class proxy
    {
      public string ip;

      public string port;
      public int speed;

      public proxy(string pip,string pport,int pspeed)
      
      {
        this.ip = pip;
        this.port = pport;
        this.speed = pspeed;
       }


    }
    //抓去處理方法
    static void getProxyList(object pageIndex)
    {

      string urlCombin = "http://www.xicidaili.com/wt/" + pageIndex.ToString();
      string catchHtml = catchProxIpMethord(urlCombin, "UTF8");
      

      HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
      doc.LoadHtml(catchHtml);


      HtmlNode table = doc.DocumentNode.SelectSingleNode("//div[@id='wrapper']//div[@id='body']/table[1]");

      HtmlNodeCollection collectiontrs = table.SelectNodes("./tr");  

 
      
        for (int i = 0; i < collectiontrs.Count; i++)
        {
          HtmlAgilityPack.HtmlNode itemtr = collectiontrs[i];


          HtmlNodeCollection collectiontds = itemtr.ChildNodes;
          //table中第一個(gè)是能用的代理標(biāo)題,所以這里從第二行TR開始取值
          if (i>0)
          {
            HtmlNode itemtdip = (HtmlNode)collectiontds[3];

            HtmlNode itemtdport = (HtmlNode)collectiontds[5];

            HtmlNode itemtdspeed = (HtmlNode)collectiontds[13];
 
            string ip = itemtdip.InnerText.Trim();
            string port = itemtdport.InnerText.Trim();


            string speed = itemtdspeed.InnerHtml;
            int beginIndex = speed.IndexOf(":", 0, speed.Length);
            int endIndex = speed.IndexOf("%", 0, speed.Length);

            int subSpeed = int.Parse(speed.Substring(beginIndex + 1, endIndex - beginIndex - 1));
            //如果速度展示條的值大于90,表示這個(gè)代理速度快。
           if (subSpeed > 90)
            {
              proxy temp = new proxy(ip, port, subSpeed);
              
              masterPorxyList.Add(temp);
              Console.WriteLine("當(dāng)前是第:" + masterPorxyList.Count.ToString() + "個(gè)代理IP");
            }
          
           }


        }
 
    }

    //抓網(wǎng)頁(yè)方法
    static string catchProxIpMethord(string url,string encoding )
    {

      string htmlStr = "";
      try
      {
        if (!String.IsNullOrEmpty(url))
        {
          WebRequest request = WebRequest.Create(url);  
          WebResponse response = request.GetResponse();      
          Stream datastream = response.GetResponseStream(); 
          Encoding ec = Encoding.Default;
          if (encoding == "UTF8")
          {
            ec = Encoding.UTF8;
          }
          else if (encoding == "Default")
          {
            ec = Encoding.Default;
          }
          StreamReader reader = new StreamReader(datastream, ec);
          htmlStr = reader.ReadToEnd();        
          reader.Close();
          datastream.Close();
          response.Close();
        }
      }
      catch { }
      return htmlStr;
    }


   static void Main(string[] args)
     {
       //多線程同時(shí)抓15頁(yè)
       for (int i = 1; i <= 15; i++)
       {
        
         
         ThreadPool.QueueUserWorkItem(getProxyList, i);
       }
       Console.Read();
     }

  }

關(guān)于“C#多線程爬蟲如何抓取免費(fèi)代理IP”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

新聞標(biāo)題:C#多線程爬蟲如何抓取免費(fèi)代理IP-創(chuàng)新互聯(lián)
標(biāo)題網(wǎng)址:http://www.rwnh.cn/article4/copgoe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動(dòng)態(tài)網(wǎng)站、外貿(mào)建站軟件開發(fā)、做網(wǎng)站ChatGPT、網(wǎng)站內(nèi)鏈

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)
漠河县| 东安县| 台东县| 彰化县| 赤峰市| 连平县| 宝应县| 苍山县| 明水县| 新晃| 玉树县| 怀来县| 万全县| 武威市| 正镶白旗| 邵东县| 固镇县| 昌邑市| 扎囊县| 五峰| 钟山县| 托克逊县| 上栗县| 玉溪市| 兰考县| 杨浦区| 义乌市| 鄂尔多斯市| 青浦区| 通许县| 杭锦旗| 武功县| 襄樊市| 政和县| 双江| 靖宇县| 固安县| 巴楚县| 冷水江市| 武陟县| 临汾市|