欢迎访问开心洋葱网站，在线教程，推荐使用最新版火狐浏览器和Chrome浏览器访问本网站，欢迎加入开心洋葱 QQ群
为方便开心洋葱网用户，开心洋葱官网已经开启复制功能！
欢迎访问开心洋葱网站，手机也能访问哦~欢迎加入开心洋葱多维思维学习平台 QQ群
如果您觉得本站非常有看点，那么赶紧使用Ctrl+D 收藏开心洋葱吧~~~~~~~~~~~~~！
感谢各位客官的到来，小站的已经免费运营了15年头了，如果您觉着好，看着文章写的不错，还请看官给小站打个赏~~~~~~~~~~~~~！

> python > python抓取网页及网页上所有连接的示范代码

python抓取网页及网页上所有连接的示范代码

python 水墨上仙 5年前 (2021-03-05) 1912次浏览手机上查看

python抓取网页及网页上所有连接的演示代码
Website crawler in python

import urllib, htmllib, formatter, re, sys
 
url = sys.argv[1]
website = urllib.urlopen("http://"+url)
data = website.read()
website.close()
format = formatter.AbstractFormatter(formatter.NullWriter())
ptext = htmllib.HTMLParser(format)
ptext.feed(data)
links = []
links = ptext.anchorlist
for link in links:
   if re.search('http', link) != None:
      print(link)
      website = urllib.urlopen(link)
      data = website.read()
      website.close()
      ptext = htmllib.HTMLParser(format)
      ptext.feed(data)
      morelinks = ptext.anchorlist
      for alink in morelinks:
         if re.search('http', alink) != None:
            links.append(alink)

关于作者：水墨上仙

水墨上仙

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31