1樓:緣lai如茨
入門」是良好的動機,但是可能作用緩慢。如果你手
裡或者腦子裡有乙個專案,那麼實踐起來你會被目標驅動,而不會像學習模組一樣慢慢學習。
另外如果說知識體系裡的每乙個知識點是圖里的點,依賴關係是邊的話,那麼這個圖一定不是乙個有向無環圖。因為學習a的經驗可以幫助你學習b。因此,你不需要學習怎麼樣「入門」,因為這樣的「入門」點根本不存在!
你需要學習的是怎麼樣做乙個比較大的東西,在這個過程中,你會很快地學會需要學會的東西的。當然,你可以爭論說需要先懂python,不然怎麼學會python做爬蟲呢?但是事實上,你完全可以在做這個爬蟲的過程中學習python :
d看到前面很多答案都講的「術」——用什麼軟體怎麼爬,那我就講講「道」和「術」吧——爬蟲怎麼工作以及怎麼在python實現。
先長話短說summarize一下:
你需要學習
基本的爬蟲工作原理
基本的http抓取工具,scrapy
bloom filter: bloom filters by example
如果需要大規模網頁抓取,你需要學習分布式爬蟲的概念。其實沒那麼玄乎,你只要學會怎樣維護乙個所有集群機器能夠有效分享的分布式佇列就好。最簡單的實現是python-rq:
rq和scrapy的結合:darkrho/scrapy-redis · github
後續處理,網頁析取(grangier/python-goose · github),儲存(mongodb)
如何從零基礎開始寫乙個關於搜尋知乎答案的python爬蟲
2樓:杜爺1號
首先來說爬蟲。
關於爬蟲乙個不太嚴謹的理解就是,你可以給爬蟲程式設定乙個初始的目標頁面,然後程式返回目標頁面的html文件後,從中提取頁面中的超連結,然後繼續爬到下乙個頁面中去。從這些頁面的html文件中可以通過對標籤的處理解析出你想要的具體內容。
所以我們可以這麼來簡單定義乙個爬蟲的工作過程:
抓取目標頁面
解析頁面文件獲得目的資訊
繼續爬取下乙個頁面
儲存結果
為了實現這些工作,你需要學習一些常用庫的簡單用法,包括但不限於:
urllib、urllib2、urllib.request、cookilib (python的內建庫,用來處理http請求)
requests (第三方庫,推薦使用requests來處理請求,比urllib方便一些)
re、beautifulsoup (正規表示式匹配內容、bs4解析html文件)
其次呢,因為你要跟網頁的原始碼打交道,尤其是解析html文件,所以你最好對html和瀏覽器通訊有點簡單的了解,會使用firebug檢視原始碼定位資訊在原始碼中的位置。
落實到題主給出的示例
如何使用python爬取知乎資料並做簡單分析
3樓:龍氏風采
一、使用的技術棧:
爬蟲:python27 +requests+json+bs4+time
分析工具: elk套件
開發工具:pycharm
資料成果簡單的視覺化分析
1.性別分布
如何入門Python爬蟲
從爬蟲必要的幾個基本需求來講 1.抓取 python的urllib不一定去用,但是要學,如果還沒用過的話。比較好的替代品有requests等第三方更人性化 成熟的庫,如果pyer不了解各種庫,那就白學了。抓取最基本就是拉網頁回來。如果深入做下去,會發現要面對不同的網頁要求,比如有認證的,不同檔案格式...
知乎上有哪些Python牛人,知乎為什麼用Python,而不用PHP
我個人比較推崇limodou.謙虛,有實力,愛分享,這些標籤讓李大哥在python界口碑一直很好,另外,他的ulipad,一直是很多python初學者最喜歡用的編輯器.uliweb也是很優秀的web框架 國內還有很多人,python寫的都很牛,但是接觸不多,就不推薦了 知乎為什麼用python,而不...
python爬蟲解析效率如何提公升
提高爬蟲效率的方法 協程。採用協程,讓多個爬蟲一起工作,可以大幅度提高效率。多程序。使用cpu的多個核,使用幾個核就能提高幾倍。多執行緒。將任務分成多個,併發 交替 的執行。分布式爬蟲。讓多個裝置去跑同乙個專案,效率也能大幅提公升。打包技術。可以將python檔案打包成可執行的exe檔案,讓其在後台...