您现在的位置是：网站首页> 编程资料编程资料

Python爬取城市租房信息实战分享_python_

2023-05-26 616人已围观

简介 Python爬取城市租房信息实战分享_python_

一、单线程爬虫

# 用session取代requests # 解析库使用bs4 # 并发库使用concurrent import requests # from lxml import etree    # 使用xpath解析 from bs4 import BeautifulSoup from urllib import parse import re import time   headers = {     'referer': 'https://zz.zu.fang.com/',     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',     'cookie': 'global_cookie=ffzvt3kztwck05jm6twso2wjw18kl67hqft; city=zz; integratecover=1; __utma=147393320.427795962.1613371106.1613371106.1613371106.1; __utmc=147393320; __utmz=147393320.1613371106.1.1.utmcsr=zz.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; ASP.NET_SessionId=aamzdnhzct4i5mx3ak4cyoyp; Rent_StatLog=23d82b94-13d6-4601-9019-ce0225c092f6; Captcha=61584F355169576F3355317957376E4F6F7552365351342B7574693561766E63785A70522F56557370586E3376585853346651565256574F37694B7074576B2B34536C5747715856516A4D3D; g_sourcepage=zf_fy%5Elb_pc; unique_cookie=U_ffzvt3kztwck05jm6twso2wjw18kl67hqft*6; __utmb=147393320.12.10.1613371106' } data={     'agentbid':'' }   session = requests.session() session.headers = headers   # 获取页面 def getHtml(url):     try:         re = session.get(url)         re.encoding = re.apparent_encoding         return re.text     except:         print(re.status_code)   # 获取页面总数量 def getNum(text):     soup = BeautifulSoup(text, 'lxml')     txt = soup.select('.fanye .txt')[0].text     # 取出“共**页”中间的数字     num = re.search(r'\d+', txt).group(0)     return num   # 获取详细链接 def getLink(tex):     soup=BeautifulSoup(text,'lxml')     links=soup.select('.title a')     for link in links:         href=parse.urljoin('https://zz.zu.fang.com/',link['href'])         hrefs.append(href)   # 解析页面 def parsePage(url):     res=session.get(url)     if res.status_code==200:         res.encoding=res.apparent_encoding         soup=BeautifulSoup(res.text,'lxml')         try:             title=soup.select('div .title')[0].text.strip().replace(' ','')             price=soup.select('div .trl-item')[0].text.strip()             block=soup.select('.rcont #agantzfxq_C02_08')[0].text.strip()             building=soup.select('.rcont #agantzfxq_C02_07')[0].text.strip()             try:                 address=soup.select('.trl-item2 .rcont')[2].text.strip()             except:                 address=soup.select('.trl-item2 .rcont')[1].text.strip()             detail1=soup.select('.clearfix')[4].text.strip().replace('\n\n\n',',').replace('\n','')             detail2=soup.select('.clearfix')[5].text.strip().replace('\n\n\n',',').replace('\n','')             detail=detail1+detail2             name=soup.select('.zf_jjname')[0].text.strip()             buserid=re.search('buserid: \'(\d+)\'',res.text).group(1)             phone=getPhone(buserid)             print(title,price,block,building,address,detail,name,phone)             house = (title, price, block, building, address, detail, name, phone)             info.append(house)         except:             pass     else:         print(re.status_code,re.text)   # 获取代理人号码 def getPhone(buserid):     url='https://zz.zu.fang.com/RentDetails/Ajax/GetAgentVirtualMobile.aspx'     data['agentbid']=buserid     res=session.post(url,data=data)     if res.status_code==200:         return res.text     else:         print(res.status_code)         return   if __name__ == '__main__':     start_time=time.time()     hrefs=[]     info=[]     init_url = 'https://zz.zu.fang.com/house/'     num=getNum(getHtml(init_url))     for i in range(0,num):         url = f'https://zz.zu.fang.com/house/i3{i+1}/'         text=getHtml(url)         getLink(text)     print(hrefs)     for href in hrefs:         parsePage(href)       print("共获取%d条数据"%len(info))     print("共耗时{}".format(time.time()-start_time))     session.close()

二、优化为多线程爬虫

# 用session取代requests # 解析库使用bs4 # 并发库使用concurrent import requests # from lxml import etree    # 使用xpath解析 from bs4 import BeautifulSoup from concurrent.futures import ThreadPoolExecutor from urllib import parse import re import time   headers = {     'referer': 'https://zz.zu.fang.com/',     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',     'cookie': 'global_cookie=ffzvt3kztwck05jm6twso2wjw18kl67hqft; integratecover=1; city=zz; keyWord_recenthousezz=%5b%7b%22name%22%3a%22%e6%96%b0%e5%af%86%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014868%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e4%ba%8c%e4%b8%83%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014864%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e9%83%91%e4%b8%9c%e6%96%b0%e5%8c%ba%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a0842%2f%22%2c%22sort%22%3a1%7d%5d; __utma=147393320.427795962.1613371106.1613558547.1613575774.5; __utmc=147393320; __utmz=147393320.1613575774.5.4.utmcsr=zz.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/; ASP.NET_SessionId=vhrhxr1tdatcc1xyoxwybuwv; g_sourcepage=zf_fy%5Elb_pc; Captcha=4937566532507336644D6557347143746B5A6A6B4A7A48445A422F2F6A51746C67516F31357446573052634562725162316152533247514250736F72775566574A2B33514357304B6976343D; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; __utmb=147393320.9.10.1613575774; unique_cookie=U_0l0d1ilf1t0ci2rozai9qi24k1pkl9lcmrs*4' } data={     'agentbid':'' }   session = requests.session() session.headers = headers   # 获取页面 def getHtml(url):     res = session.get(url)     if res.status_code==200:         res.encoding = res.apparent_encoding         return res.text     else:         print(res.status_code)   # 获取页面总数量 def getNum(text):     soup = BeautifulSoup(text, 'lxml')     txt = soup.select('.fanye .txt')[0].text     # 取出“共**页”中间的数字     num = re.search(r'\d+', txt).group(0)     return num   # 获取详细链接 def getLink(url):     text=getHtml(url)     soup=BeautifulSoup(text,'lxml')     links=soup.select('.title a')     for link in links:         href=parse.urljoin('https://zz.zu.fang.com/',link['href'])         hrefs.append(href)   # 解析页面 def parsePage(url):     res=session.get(url)     if res.status_code==200:         res.encoding=res.apparent_encoding         soup=BeautifulSoup(res.text,'lxml')         try:             title=soup.select('div .title')[0].text.strip().replace(' ','')             price=soup.select('div .trl-item')[0].text.strip()             block=soup.select('.rcont #agantzfxq_C02_08')[0].text.strip()             building=soup.select('.rcont #agantzfxq_C02_07')[0].text.strip()             try:                 address=soup.select('.trl-item2 .rcont')[2].text.strip()             except:                 address=soup.select('.trl-item2 .rcont')[1].text.strip()             detail1=soup.select('.clearfix')[4].text.strip().replace('\n\n\n',',').replace('\n','')             detail2=soup.select('.clearfix')[5].text.strip().replace('\n\n\n',',').replace('\n','')             detail=detail1+detail2             name=soup.select('.zf_jjname')[0].text.strip()             buserid=re.search('buserid: \'(\d+)\'',res.text).group(1)             phone=getPhone(buserid)             print(title,price,block,building,address,detail,name,phone)             house = (title, price, block, building, address, detail, name, phone)             info.append(house)         except:             pass     else:         print(re.status_code,re.text)   # 获取代理人号码 def getPhone(buserid):     url='https://zz.zu.fang.com/RentDetails/Ajax/GetAgentVirtualMobile.aspx'     data['agentbid']=buserid     res=session.post(url,data=data)     if res.status_code==200:         return res.text     else:         print(res.status_code)         return   if __name__ == '__main__':     start_time=time.time()     hrefs=[]     info=[]     init_url = 'https://zz.zu.fang.com/house/'     num=getNum(getHtml(init_url))     with ThreadPoolExecutor(max_workers=5) as t:         for i in range(0,num):             url = f'https://zz.zu.fang.com/house/i3{i+1}/'             t.submit(getLink,url)     print("共获取%d个链接"%len(hrefs))     print(hrefs)     with ThreadPoolExecutor(max_workers=30) as t:         for href in hrefs:             t.submit(parsePage,href)     print("共获取%d条数据"%len(info))     print("耗时{}".format(time.time()-start_time))     session.close()

三、使用asyncio进一步优化

# 用session取代requests # 解析库使用bs4 # 并发库使用concurrent import requests # from lxml import etree    # 使用xpath解析 from bs4 import BeautifulSoup from concurrent.futures import ThreadPoolExecutor from urllib import parse import re import time import asyncio   headers = {     'referer': 'https://zz.zu.fang.com/',     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',     'cookie': 'global_cookie=ffzvt3kztwck05jm6twso2wjw18kl67hqft; integratecover=1; city=zz; keyWord_recenthousezz=%5b%7b%22name%22%3a%22%e6%96%b0%e5%af%86%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014868%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e4%ba%8c%e4%b8%83%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014864%2f%22%2c%22so
                提示：
                    本文由神整理自网络，如有侵权请联系本站删除！
                    

                    本站声明： 

                    1、本站所有资源均来源于互联网，不保证100%完整、不提供任何技术支持； 

                    2、本站所发布的文章以及附件仅限用于学习和研究目的;不得将用于商业或者非法用途；否则由此产生的法律后果，本站概不负责！
                
                
                
                                            上一篇：Python爬取京东商品信息评论存并进MySQL_python_
                                                                下一篇：Python异步爬取知乎热榜实例分享_python_

您现在的位置是：网站首页> 编程资料编程资料

Python爬取城市租房信息实战分享_python_

目录

一、单线程爬虫

二、优化为多线程爬虫

三、使用asyncio进一步优化

相关内容

点击排行

本栏推荐

猜你喜欢