-
電子元件電路板類網(wǎng)站織...
-
人力資源管理類網(wǎng)站織夢...
-
食品百貨英文外貿(mào)類網(wǎng)站...
-
儀器儀表科技公司類網(wǎng)站...
-
中英雙語律師事務(wù)所類網(wǎng)...
-
手游APP軟件下載類網(wǎng)站織...
-
網(wǎng)站模板資源下載類網(wǎng)站...
-
蔬菜鮮果配送類網(wǎng)站織夢...
-
電腦系統(tǒng)軟件下載類網(wǎng)站...
-
精工機(jī)械軸承生產(chǎn)廠家類...
-
裝飾建材公司類網(wǎng)站織夢...
-
水利工程施工類網(wǎng)站織夢...
-
貂絨大衣服裝設(shè)計類網(wǎng)站...
-
財稅記賬工商注冊認(rèn)證類...
-
展覽展會信息類網(wǎng)站織夢...
-
營銷型無縫鋼管定制生產(chǎn)...
-
玩具動漫類網(wǎng)站織夢模板...
-
鋼結(jié)構(gòu)崗?fù)I銷型織夢網(wǎng)...
-
儀器分析儀類網(wǎng)站織夢模...
-
物流快運(yùn)速遞類網(wǎng)站織夢...
首先我們打開自己的織夢后臺點擊 采集——采集節(jié)點管理——增加新節(jié)點

這里我們以采集普通文章為例,我們選擇普通文章,然后確定

我們進(jìn)入了采集的設(shè)置頁面,填寫節(jié)點名稱,就是給這個新節(jié)點取個名字,這里你可以任意填寫。
然后打開你想要采集的文章列表頁,這里我們以織夢官網(wǎng)為例http://www.dedecms.com/web-manage/jianzhanxinde/打開這個頁面,右鍵——查看源文件
找到目標(biāo)頁面編碼,就在charset后面
找到目標(biāo)頁面編碼,就在charset后面

頁面基本信息其他的一般就不用管了,填完了如圖

現(xiàn)在我們來填寫列表網(wǎng)址獲取規(guī)則
看看文章列表第一頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_1.html
對比第二頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_2.html
我們發(fā)現(xiàn)了他們除了49_后面的數(shù)字不一樣,其他的都一樣,所以我們可以這樣寫
http://www.dedecms.com/web-manage/jianzhanxinde/list_49_(*).html
就是把1換成了(*) 因為這里只有2頁,所以我們就填從1到2 每頁遞增當(dāng)然是1了,2-1...是等于1吧
這里我們就填寫完了

可能大家采集的有些列表沒有規(guī)則,那就只有手工指定列表網(wǎng)址了,如圖

每行寫一個頁面地址
列表規(guī)則寫完了,我們就開始寫文章網(wǎng)址匹配規(guī)則了,回到文章列表頁
右鍵查看源文件 找到區(qū)域開始的HTML,就是找文章列表開始的標(biāo)志。

我們很容易的找到了如圖中的“新聞列表” 。從這里開始,后面就是文章列表里
我們再找文章列表結(jié)束的HTML

就是這個了,一個很容易找到的標(biāo)志

如果鏈接中含有圖片: 不處理 采集為縮略圖 這里根據(jù)自己的需要選擇
對區(qū)域網(wǎng)址進(jìn)行再次篩選:
(使用正則表達(dá)式)
必須包含: (優(yōu)先級高于后者)
不能包含:
打查看文件,我們可以很清楚的看到,文章鏈接都是以.html結(jié)束的
所以,我們在必須包含后面填.html 如果遇到有些列表很麻煩,還可以填寫后面的不能包含

我們點擊保存設(shè)置進(jìn)入下一步,可以看到我們獲得的文章網(wǎng)址
看到這些就是對的了,我們保存信息進(jìn)入下一步設(shè)置內(nèi)容字段獲取規(guī)則
我們看看文章有沒有分頁,隨便進(jìn)入一篇文章看看。。我們看到這里的文章沒有分頁
所以這里的我們就默認(rèn)了

我們現(xiàn)在來找文章標(biāo)題等等 隨便進(jìn)入一篇文章,右鍵查看源文件
看看這些

依照源碼填寫

我們再來填寫文章內(nèi)容的開始,結(jié)束
和上面的一樣,找到開始和結(jié)束標(biāo)志
開始

結(jié)束

你想過濾文章中的什么內(nèi)容就到過濾規(guī)則里寫吧,比如要過濾文章中的圖片

選擇常用規(guī)則

再勾選IMG 然后確定
這樣我們就把正文中的圖片過濾了
設(shè)置完畢后點保存設(shè)置并預(yù)覽

這樣一個采集規(guī)則就寫好了,很簡單吧有些網(wǎng)站很難寫,可要多下點功夫了哦
我們點保存并開始采集——開始采集網(wǎng)頁 一會的功夫就采集完了

我們看看我們采集到的文章



成功了,我們導(dǎo)出數(shù)據(jù)吧

首先選擇要導(dǎo)入到的欄目,按“請選擇”那里即可在彈出的窗口中選擇你需要導(dǎo)入的欄目發(fā)布選項這里一般默認(rèn)即可,除非你不想馬上發(fā)布。每批導(dǎo)入默認(rèn)是30條,這里修改與否都無所謂,附帶選項一般選“排除重復(fù)標(biāo)題”,至于自動生成HTML那個選項建議先別生成,因為我們還要去批量提取摘要和關(guān)鍵字




豫公網(wǎng)安備 41022402000130號
