Trang chủ  Diễn đàn  Đăng ký  Đăng Nhập  Cá Nhân  Hộp thư  Sổ địa chỉ  Gửi bài qua email 
Diễn đàn cá nhân  Thư viện hình ảnh  Thành viên  Tìm Kiếm  Lịnh sự kiện  Thắc mắc thường gặp?  Ticket List  Thoát

RE: [Spider] - Đôi chút về bóc tách dữ liệu

 
View related threads: (trong diễn đàn này | trong tất cả diễn đàn)

Xin chào bạn: Guest
Đang cùng đọc chủ đề này: không có ai
  Printable Version
Diễn Đàn Chính >> [Lập trình - Phát triển dự án với Microsoft .NET] >> Các bài hướng dẫn >> RE: [Spider] - Đôi chút về bóc tách dữ liệu Trang: <<   < Trang trước  1 [2] 3   Trang tiếp >   >>
Tên Login
Thân bài << Đề mục cũ   Đề mục mới >>
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 3/27/2010 9:08:00 PM   
tonytonda2004

 

Bài viết đã đăng: 4
Điểm: 0
Ghi ngày: 3/27/2010
Tình trạng: offline
Các pác xem giúp em với,em có 1 dòng dữ liệu thế này : Mar 24 10:00 - Asian Cups: Afc Champions League: Adelaide (Aus) [0-0] Hiroshima (Jpn). Status: 7. em dùng RegEx để cắt lấy ra dữ liệu nhưng không hiểu sao toàn lỗi không lấy được hết dữ liệu chuỗi pattern của em như sau :
string pattern = "(?<DatePlay>.*?)-(?<Competation>.*?):(?<League>.*?):(?<Home>.*?)[(?<Score>.*?)](?<Away>.*?)Status:(?<Time>.*?).";
Các pác xem làm sao giúp em bóc tách đoạn trên với!

(in reply to hikaru7641)
Post #: 21
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 3/27/2010 11:26:06 PM   
justin

 

Bài viết đã đăng: 1264
Điểm: 34
Ghi ngày: 9/22/2008
Tình trạng: offline
quote:

Trích đoạn: tonytonda2004

Các pác xem giúp em với,em có 1 dòng dữ liệu thế này : Mar 24 10:00 - Asian Cups: Afc Champions League: Adelaide (Aus) [0-0] Hiroshima (Jpn). Status: 7. em dùng RegEx để cắt lấy ra dữ liệu nhưng không hiểu sao toàn lỗi không lấy được hết dữ liệu chuỗi pattern của em như sau :
string pattern = "(?<DatePlay>.*?)-(?<Competation>.*?):(?<League>.*?):(?<Home>.*?)[(?<Score>.*?)](?<Away>.*?)Status:(?<Time>.*?).";
Các pác xem làm sao giúp em bóc tách đoạn trên với!


Bác thử đoạn này xem ;))

(?<DatePlay>.*?) - (?<Competation>.*?):(?<League>.*?):(?<Home>.*?)\[(?<Score>.*?)](?<Away>.*?)\. Status: (?<Time>.*?)\.

_____________________________

Dev: http://dev.meotom.net/
Blog: http://blog.meotom.net/
Upload ảnh miễn phí up.meotom.net

(in reply to tonytonda2004)
Post #: 22
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 3/28/2010 9:09:11 AM   
tonytonda2004

 

Bài viết đã đăng: 4
Điểm: 0
Ghi ngày: 3/27/2010
Tình trạng: offline
Cảm ơn bac justin nhé,thêm 1 vài '\' vào chuỗi của bác là ok rồi.Vậy mà em vất vả mãi không xong.Cảm ơn bác. :)
"(?<DatePlay>.*?) - (?<Competation>.*?):(?<League>.*?):(?<Home>.*?)\\[(?<Score>.*?)](?<Away>.*?)\\. Status: (?<Time>.*?)\\.";

Bác cho em hỏi luôn chuỗi này em phải tách làm sao?
<b>Banfield</b> - <b>Goals:</b> 46' Ramirez, 66' Ramirez, 74' Fernandez <b>Yellow Cards:</b> <b>Red Cards:</b><br><b>Gimnasia L.P.</b> - <b>Goals:</b> 21' Stracqualursi, 69' Perez <b>Yellow Cards:</b> <b>Red Cards:</b><br /><br><b>Halft Time Score:</b> [0-1]

Em tách thế này không được
"<b>(<Home>.*?)</b> - <b>Goals:</b>(<HomeGoal>.*?)<b>Yellow Cards:</b>(<HomeYellow>.*?)<b>Red Cards:</b>(<HomeRed>.*?)<br><b>(<Away>.*?)</b> - <b>Goals:</b>(<AwayGoal>.*?)<b>Yellow Cards:</b>(<AwayYellow>.*?)<b>Red Cards:</b>(<AwayRed>.*?)<br /><br><b>Halft Time Score:</b> \\[(<Halftime>.*?)]"

Cao thủ nào có thể tách được lịch thi đấu từ trang này không ạ?Em dốt cái khoản bóc tách này quá.
http://news.bbc.co.uk/sport2/hi/football/eng_prem/fixtures/default.stm

< Sửa đổi bởi tonytonda2004 -- 3/28/2010 10:17:45 AM >

(in reply to justin)
Post #: 23
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 3/30/2010 12:08:58 PM   
hikaru7641

 

Bài viết đã đăng: 5
Điểm: 0
Ghi ngày: 5/18/2009
Tình trạng: offline
quote:

Cao thủ nào có thể tách được lịch thi đấu từ trang này không ạ?Em dốt cái khoản bóc tách này quá.
http://news.bbc.co.uk/sport2/hi/football/eng_prem/fixtures/default.stm

< Sửa đổi bởi tonytonda2004 -- 3/28/2010 10:17:45 AM >


Trang này khi ViewSource nó có hiển thị dữ liệu lên.Nếu là tớ thì tớ làm các bước sau:

1. Chọn Vùng cần lấy dữ liệu: Bôi đen , phải chuột, chọn View Selection Source.
2. Chon cả Page rồi View Page Source.  Xem cái đoạn code trên nằm ở đoạn nào trong Page.
3. Đánh dấu đoạn code chứa "Nội dung của bảng xếp hạng" bằng các text "đặc biệt"--> là Text xuất hiện gần đoạn cần lấy và ít xuất hiện nhất trong Page.
4. Lấy toàn Bộ Code dạng HMLT cho vào một chuỗi.
5. Cắt lấy đoạn HTML chứa nội dung của "Bảng xếp hạng".
6. Xử lý đoạn String đó theo các thẻ <td>, <tr>.
7.Xóa bỏ hết các Code HTML chỉ giữ lại Text cần thiết.(cái này em chả bit diễn tả thế nào cho rõ).
8. cho dữ liệu xử lý được vào mảng rồi insert vào database.
......

hết nhiệm vụ, còn lại là việc người khác vào DB mà lấy dữ liệu làm j thì làm :D:D:D

p/s:
1. Tớ code bằng Java nên hem có VD nào về C# để làm rõ cái này cả.
2. Just ơi: chỉ tớ chút kinh nghiệm về RegEx với, đọc mấy cái như thế này hiểu lõm bõm quá.
a.
quote:

string pattern = "(?<DatePlay>.*?)-(?<Competation>.*?):(?<League>.*?):(?<Home>.*?)[(?<Score>.*?)](?<Away>.*?)Status:(?<Time>.*?).";


b.
quote:

"(?<DatePlay>.*?) - (?<Competation>.*?):(?<League>.*?):(?<Home>.*?)\\[(?<Score>.*?)](?<Away>.*?)\\. Status: (?<Time>.*?)\\.";


các bạn giải thik chi tiết một chút được ko? Mình hiểu mỗi cái ".*?" --> thay thế cho một loạt các ký tự bên, "\\[" là cái thể hiện cho các ký tự đặc biệt như: \n, ", .....

Nhưng khi ghép vào một Viduj cụ thể như trên thì ko hiểu được chuỗi RegEx trên.^_^ helpme !

_____________________________

Pinky

(in reply to tonytonda2004)
Post #: 24
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 4/25/2010 9:07:00 PM   
phuonganh_ticon

 

Bài viết đã đăng: 1
Điểm: 0
Ghi ngày: 4/25/2010
Tình trạng: offline
quote:

Em cũng xem qua cái file js kia của người ta rồi http://data.7m.cn/matches_data/34/vn/Standing.js, nói chung nếu để hiểu dc thì fai mất chút thời gian, hơi lằng nhằng >.< em chỉ thích dễ hiểu thôi ợ,
Nhìn sơ sơ thì em đoán nó thế này:

var f_sds_tn = [ 'Inter Milan','AS Roma','AC Milan','Palermo','Sampdoria','Napoli','Juventus'...]


bạn cho mình hỏi cái file js này chỉ là file của đội Ý, vậy các bạn có thể làm sao để có thể lấy tin của tất cả các đội không?

(in reply to justin)
Post #: 25
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 4/26/2010 5:21:44 PM   
hikaru7641

 

Bài viết đã đăng: 5
Điểm: 0
Ghi ngày: 5/18/2009
Tình trạng: offline
quote:

4/25/2010 9:07:00 PM
quote:

Trích đoạn: phuonganh_ticon

bạn cho mình hỏi cái file js này chỉ là file của đội Ý, vậy các bạn có thể làm sao để có thể lấy tin của tất cả các đội không?


File .js đó là tổng hợp của all dữ liệu theo các mảng sắp xếp theo thứ tự.

Bạn cứ để ý xem thông tin mình cần nằm ở mảng nào thì lấy mảng đó ra.

Hơi rắc rối tí nhưng cố so sánh thông tin là thấy nó cũng thật đơn giản mà.

Good Luck !

_____________________________

Pinky

(in reply to phuonganh_ticon)
Post #: 26
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 6/3/2010 2:04:15 PM   
tommyto050185

 

Bài viết đã đăng: 2
Điểm: 0
Ghi ngày: 6/3/2010
Tình trạng: offline
Chào các cao thủ !!!
Xin các bạn chỉ giúp cho mình cách bóc tách thời gian trên 2 website sau.
http://live.acbs.com.vn/bdck/hose/index.html
http://baobongda.com.vn/
2 trang này, khi view source bằng HTML thì không thể thấy được thời gian vì phải dùng hàm để lấy thời gian.
Các bạn có thể làm demo cho mình 2 cái này và giải thích cho mình với.
Thật sự thì cái việc bóc tách này mình không wan tâm lắm, nhưng vì công việc buộc phải làm tới nó. Nên bi giờ đi cầu cứu mọi người
Mong các bạn quan tâm sớm reply lại cho mình
---Thân&Thanks---

(in reply to hikaru7641)
Post #: 27
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/25/2010 10:54:25 PM   
kimlong008

 

Bài viết đã đăng: 8
Điểm: 0
Ghi ngày: 7/20/2010
Tình trạng: offline
Aloo Admin ! trợ giúp dùm ! tôi dùng code này sao để lấy Regex :
<div id="main-c">
		<div id="giack" >
			<marquee scrolldelay="70" scrollamount="3" onmouseover='this.stop()' onmouseout='this.start()' style="font-family:Arial;font-size:8pt;color:#57BA4D;">AAM 30.8 100 | ABT 52.5 900 | ACL 37.2 1,502 | AGD 37.0 527 | AGF 33.4 110 | AGR 14.7 890 | ALP 22.3 3,221 | ANV 19.3 5,340 | APC 21.2 2,350 | ASM 68.0 4,750 | ASP 13.3 850 | ATA 28.3 130 | BAS 12.8 1,858 | BBC 30.4 1,698 | BCE 23.1 620 | BCI 56.5 765 | BHS 35.3 1,040 | BMC 44.1 250 | BMI 18.5 1,417 | BMP 51.0 1,484 | BT6 0.0 0 | BTP 13.1 1,724 | BTT 38.7 750 | BVH 46.3 1,564 | CAD 12.9 6,250 | CCI 29.0 1,102 | CII 38.2 20,945 | CLC 22.8 80 | CMG 24.5 195 | CMT 40.7 300 | CMV 32.2 500 | CNT 36.0 5,114 | COM 56.5 12 | CSG 12.9 3,870 | CSM 37.9 923 | CTD 75.0 262 | CTG 25.3 1,170 | CTI 45.5 5,739 | CYC 9.7 946 | D2D 54.0 1,454 | DAG 19.7 503 | DCC 25.7 110 | DCL 54.0 81 | DCT 13.3 2,457 | DDM 11.8 1,443 | DHA 27.8 620 | DHC 19.1 7,028 | DHG 120.0 802 | DIC 38.1 13,842 | DIG 58.5 380 | DLG 27.1 20,361 | DMC 38.0 1,200 | DPM 29.7 3,925 | DPR 61.0 100 | DQC 42.9 2,292 | DRC 50.0 2,171 | DTA 30.5 1,250 | DTL 22.4 4,450 | DTT 14.6 910 | DVD 117.0 100 | DVP 38.3 100 | DXG 40.0 1,442 | DXV 35.3 16,258 | EIB 19.1 10,432 | FBT 12.4 175 | FDC 47.5 13,551 | FMC 16.7 21 | FPC 0.0 0 | FPT 70.5 4,843 | GDT 21.4 75 | GIL 26.6 462 | GMC 24.5 770 | GMD 53.5 22,573 | GTA 11.9 198 | GTT 15.0 17,239 | HAG 81.0 8,922 | HAI 30.1 10 | HAP 19.8 3,836 | HAS 15.9 3,997 | HAX 16.5 231 | HBC 41.3 4,352 | HCM 44.5 1,521 | HDC 51.5 3,070 | HDG 98.0 1,401 | HLA 20.0 9,451 | HLG 33.1 7,620 | HMC 23.8 15,320 | HPG 38.0 9,454 | HRC 63.0 28,349 | HSG 29.3 10,503 | HSI 14.9 1,850 | HT1 13.1 4,540 | HTV 28.6 1,702 | HVG 29.9 933 | ICF 16.5 3,365 | IFS 11.9 100 | IJC 27.1 3,471 | IMP 64.0 1 | ITA 21.4 10,031 | ITC 30.3 6,946 | KBC 36.0 1,976 | KDC 53.0 9,250 | KDH 51.0 2,685 | KHA 24.3 4,992 | KHP 12.8 2,378 | KMR 12.1 5,248 | KSB 63.5 1,707 | KSH 55.0 1,500 | KSS 39.1 6,034 | L10 38.7 7,097 | LAF 22.7 2,527 | LBM 16.7 1,700 | LCG 41.0 12,339 | LGC 31.0 1 | LGL 34.6 737 | LHG 55.5 130 | LIX 72.0 50 | LSS 35.2 3,727 | MCG 41.8 17,480 | MCP 14.4 1,107 | MCV 25.9 5,121 | MHC 9.6 4,628 | MKP 60.0 298 | MPC 30.9 1,658 | MSN 50.5 459 | MTG 26.2 1,700 | NAV 16.0 117 | NBB 92.0 2,409 | NHS 38.0 2 | NHW 21.0 60 | NKD 43.1 737 | NNC 56.0 4,080 | NSC 39.1 900 | NTB 27.6 10,311 | NTL 78.0 2,493 | NVN 34.9 4,848 | NVT 26.5 7,295 | OGC 45.1 53,605 | OPC 47.0 4 | PAC 64.5 1,875 | PET 23.7 12,605 | PGC 23.1 2,072 | PGD 39.3 6,267 | PHR 40.0 1,375 | PHT 21.6 1,781 | PIT 21.5 7,269 | PJT 13.0 1,710 | PNC 13.0 350 | PNJ 37.5 1,229 | POM 37.4 660 | PPC 15.4 4,879 | PPI 35.8 1,000 | PTC 17.3 4,834 | PVD 47.0 2,530 | PVF 25.7 6,770 | PVT 14.5 15,375 | PXI 29.6 22,981 | PXM 19.5 5,880 | PXS 21.3 6,834 | PXT 19.3 461 | RAL 28.4 2,585 | RDP 22.6 3,145 | REE 19.6 6,159 | RIC 20.2 456 | SAM 26.9 7,977 | SAV 29.8 2 | SBA 10.8 2,230 | SBC 43.1 781 | SBS 37.5 3,473 | SBT 11.8 8,640 | SC5 58.5 345 | SCD 30.9 300 | SEC 31.8 2,421 | SFC 39.6 118 | SFI 29.0 1,350 | SGT 21.5 25 | SHI 35.0 650 | SJD 16.4 260 | SJS 75.5 3,479 | SMC 30.3 240 | SPM 72.0 3,000 | SRC 38.2 718 | SRF 30.2 681 | SSC 44.6 50 | SSI 33.2 41,971 | ST8 30.9 400 | STB 17.4 52,966 | STG 40.5 11 | SVC 31.5 3,103 | SZL 34.0 2,282 | TAC 30.6 2,160 | TBC 16.1 362 | TCL 41.7 170 | TCM 18.7 15,798 | TCR 9.1 663 | TDC 35.9 500 | TDH 46.9 5,521 | TIC 13.5 5,688 | TIE 26.3 1,676 | TIX 58.0 663 | TLG 34.5 70 | TLH 20.1 5,479 | TMP 15.3 295 | TMS 28.4 103 | TMT 29.8 2 | TNA 32.7 583 | TNC 21.2 6,865 | TNT 32.0 900 | TPC 13.7 4,872 | TRA 44.5 800 | TRC 57.0 20 | TRI 8.7 1,595 | TS4 37.7 4,636 | TSC 26.6 601 | TTF 23.6 800 | TTP 38.0 42 | TYA 8.7 1,941 | UDC 22.5 4,440 | UIC 31.2 7,937 | VCB 38.0 2,042 | VES 35.0 7,636 | VFC 17.4 17,765 | VFG 68.5 304 | VHC 39.2 50 | VHG 25.0 19,586 | VIC 69.0 2,799 | VID 15.4 7,306 | VIP 18.4 2,509 | VIS 53.0 4,681 | VKP 11.0 10,564 | VNA 22.4 900 | VNE 17.4 16,479 | VNG 16.4 1,510 | VNH 14.8 1,102 | VNI 25.0 1,447 | VNL 18.0 10 | VNM 92.0 1,873 | VNS 33.6 425 | VPH 39.0 2,288 | VPK 10.8 2,031 | VPL 35.7 773 | VSC 79.0 1 | VSG 13.7 4,312 | VSH 13.5 13,901 | VST 21.3 12,826 | VTB 19.8 4,293 | VTO 12.1 3,125 | </marquee><marquee scrolldelay="70" scrollamount="3" onmouseover='this.stop()' onmouseout='this.start()' style="font-family:Arial;font-size:8pt;color:#FFFFFF;">AAA 46.0 1 | ACB 30.4 2 | AGC 25.6 2 | ALT 22.0 1 | AME 20.3 10 | AMV 36.2 1 | APG 17.7 5 | APS 18.8 10 | AVS 13.9 5 | B82 27.3 20 | BBS 0.0 0 | BCC 11.6 7 | BDB 12.2 1 | BED 0.0 0 | BHC 17.9 9 | BHV 45.8 1 | BKC 30.1 26 | BLF 16.1 8 | BPC 21.0 10 | BST 13.0 1 | BTH 27.3 1 | BTS 10.7 1 | BVS 27.1 1 | BXH 31.0 7 | C92 27.0 6 | CAN 28.7 9 | CAP 24.8 10 | CCM 65.2 6 | CDC 43.0 1 | CIC 24.3 6 | CID 0.0 0 | CJC 28.8 96 | CKV 19.5 4 | CMC 34.6 1 | CMI 33.8 5 | CPC 26.2 3 | CSC 35.2 6 | CT6 24.6 4 | CTB 20.9 3 | CTC 32.6 10 | CTM 47.2 1 | CTN 33.2 14 | CTS 14.4 5 | CVT 38.6 4 | CX8 24.1 9 | DAC 50.0 1 | DAD 14.2 1 | DAE 15.2 8 | DBC 48.3 2 | DBT 32.3 3 | DC2 40.9 2 | DC4 25.0 10 | DCS 27.8 3 | DHI 14.0 8 | DHT 64.6 5 | DID 36.0 6 | DL1 25.8 2 | DLR 42.9 2 | DNC 18.8 1 | DNP 26.4 9 | DNY 30.9 2 | DPC 26.0 1 | DST 15.3 2 | DTC 0.0 0 | DXP 59.0 9 | DZM 49.2 3 | EBS 18.8 49 | ECI 18.8 10 | EFI 18.4 11 | EID 17.0 5 | GGG 22.2 2 | GHA 43.7 1 | GLT 37.3 43 | HAD 40.7 3 | HBD 18.5 9 | HBE 11.0 20 | HBS 19.0 5 | HCC 0.0 0 | HCT 32.0 5 | HDO 32.6 10 | HEV 19.0 10 | HGM 91.1 1 | HHC 55.4 2 | HHL 26.0 3 | HJS 32.4 9 | HLC 19.5 4 | HLY 38.0 2 | HNM 16.8 3 | HOM 11.7 20 | HPB 39.0 3 | HPC 15.5 1 | HPS 17.5 2 | HST 11.8 5 | HTC 52.3 11 | HTP 20.5 5 | HUT 29.6 5 | HVT 17.6 3 | ICG 28.7 1 | IDV 32.0 20 | ILC 22.1 2 | INN 18.5 3 | KHB 55.6 5 | KKC 40.4 26 | KLS 17.9 100 | KSD 29.5 2 | L18 33.0 20 | L35 28.4 6 | L43 29.9 1 | L44 25.8 1 | L61 22.0 3 | L62 29.2 10 | LBE 12.9 1 | LCS 40.4 5 | LDP 78.5 2 | LHC 51.1 9 | LIG 34.7 56 | LM3 23.3 25 | LO5 19.6 13 | LTC 70.5 5 | LUT 27.3 10 | MAC 22.5 3 | MCC 25.0 1 | MCO 18.6 1 | MDC 23.6 7 | MEC 30.5 3 | MHL 40.4 20 | MIC 84.2 3 | MIH 55.3 3 | MKV 59.0 10 | MMC 34.0 2 | NAG 21.2 12 | NBC 42.0 4 | NBP 27.4 8 | NGC 19.1 6 | NHA 41.0 7 | NHC 36.6 1 | NLC 23.6 1 | NPS 20.0 1 | NSN 23.0 5 | NST 17.3 4 | NTP 95.8 20 | NVC 16.3 27 | ONE 17.0 10 | ORS 12.8 15 | PAN 24.6 20 | PDC 18.0 30 | PGS 36.5 1 | PGT 14.7 8 | PHC 24.9 7 | PHH 30.0 5 | PHS 14.5 4 | PJC 34.0 10 | PLC 48.3 10 | PMC 31.3 1 | PMS 0.0 0 | POT 25.9 5 | PPG 24.6 2 | PSC 34.2 5 | PSI 18.1 3 | PTM 14.1 41 | PTS 42.9 2 | PVA 71.7 4 | PVC 39.2 8 | PVE 27.9 5 | PVG 24.2 2 | PVI 24.8 4 | PVL 27.3 10 | PVR 24.4 3 | PVS 30.7 3 | PVX 28.3 10 | QHD 41.0 1 | QNC 31.9 3 | QST 14.6 1 | QTC 24.3 20 | RCL 82.5 2 | RHC 25.1 9 | S12 31.4 5 | S55 43.8 10 | S64 30.0 6 | S74 36.0 10 | S91 42.1 1 | S96 50.0 11 | S99 38.6 10 | SAF 35.4 1 | SAP 18.4 8 | SCC 21.2 4 | SCJ 30.0 4 | SD1 35.0 5 | SD2 46.7 1 | SD3 42.0 17 | SD4 22.7 6 | SD5 70.0 5 | SD6 46.0 14 | SD7 53.6 7 | SD8 23.0 19 | SD9 51.6 5 | SDA 39.8 10 | SDB 31.0 40 | SDC 28.3 1 | SDD 36.4 17 | SDE 25.1 10 | SDG 30.0 1 | SDH 43.7 5 | SDJ 20.8 1 | SDN 22.0 2 | SDP 33.7 14 | SDS 25.7 2 | SDT 59.5 48 | SDU 102.5 5 | SDY 27.6 10 | SEB 17.5 7 | SED 15.3 1 | SFN 18.8 20 | SGC 21.4 1 | SGD 16.7 1 | SGH 0.0 0 | SHB 15.5 10 | SHC 13.4 1 | SHN 39.1 25 | SHS 18.8 1 | SIC 41.9 2 | SJ1 25.7 6 | SJC 39.0 10 | SJE 41.7 20 | SJM 27.1 13 | SKS 27.2 8 | SME 23.8 54 | SNG 36.2 1 | SPP 29.6 3 | SQC 126.0 1 | SRA 39.6 15 | SRB 28.4 20 | SSM 39.5 5 | SSS 37.5 3 | STC 16.0 10 | STL 48.5 10 | STP 47.5 20 | SVI 30.5 7 | SVS 15.7 20 | TAG 58.0 5 | TAS 13.7 15 | TBX 36.8 9 | TC6 27.8 1 | TCS 28.0 1 | TCT 56.5 4 | TDN 36.3 1 | TET 32.5 10 | TH1 48.7 2 | THB 19.9 1 | THT 31.5 2 | TJC 23.0 10 | TKC 30.5 10 | TKU 19.3 1 | TLC 20.9 1 | TLT 25.5 10 | TMC 30.5 5 | TMX 30.3 2 | TNG 43.4 50 | TPH 13.0 2 | TPP 21.2 5 | TSM 22.0 1 | TST 43.0 5 | TTC 15.0 1 | TV2 23.5 2 | TV3 22.7 3 | TV4 24.6 20 | TXM 12.9 8 | UNI 30.2 1 | V11 29.3 1 | V12 35.0 5 | V15 43.9 10 | V21 54.0 1 | VBC 65.0 2 | VBH 14.2 2 | VC1 58.0 1 | VC2 62.5 1 | VC3 74.6 4 | VC5 41.6 5 | VC6 40.5 2 | VC7 35.9 10 | VC9 35.5 5 | VCC 33.0 5 | VCG 41.0 5 | VCH 26.0 5 | VCM 45.0 5 | VCR 31.5 22 | VCS 46.9 1 | VDL 0.0 0 | VDS 16.1 4 | VE1 31.5 5 | VE3 45.3 23 | VE9 55.1 30 | VFR 19.0 30 | VGP 23.9 1 | VGS 21.0 3 | VHH 0.0 0 | VHL 52.5 19 | VIG 14.3 26 | VIT 21.0 5 | VIX 17.7 5 | VMC 62.0 5 | VMG 18.6 1 | VNC 29.7 25 | VND 30.7 15 | VNR 24.5 6 | VNT 27.0 10 | VSP 42.5 3 | VTA 11.7 2 | VTC 13.3 3 | VTL 0.0 0 | VTS 55.2 1 | VTV 29.4 1 | VXB 25.0 4 | WSS 17.6 1 | XMC 44.5 1 | YBC 31.0 3 | YSC 23.9 2 | </marquee>		</div>
	</div>


< Sửa đổi bởi kimlong008 -- 7/25/2010 11:08:27 PM >

(in reply to yeuhoang)
Post #: 28
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/25/2010 11:59:29 PM   
justin

 

Bài viết đã đăng: 1264
Điểm: 34
Ghi ngày: 9/22/2008
Tình trạng: offline
bạn muốn lấy cái này ra hả ?

AAM 30.8 100 | ABT 52.5 900 | ACL 37.2 1,502 | AGD 37.0 527 | AGF 33.4 110 | AGR 14.7 890 | ALP 22.3 3,221 | ANV 19.3 5,340 | APC 21.2 2,350 | ASM 68.0 4,750 | ASP 13.3 850 | ATA 28.3 130 | BAS 12.8 1,858 | BBC 30.4 1,698 | BCE 23.1 620 | BCI 56.5 765 | BHS 3

thì đơn giản thế này thôi

<marquee .*?>(?<Content>.*?)</marquee>

_____________________________

Dev: http://dev.meotom.net/
Blog: http://blog.meotom.net/
Upload ảnh miễn phí up.meotom.net

(in reply to kimlong008)
Post #: 29
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/26/2010 10:39:22 PM   
kimlong008

 

Bài viết đã đăng: 8
Điểm: 0
Ghi ngày: 7/20/2010
Tình trạng: offline
yeah ! bỏ vô chạy phà phà rồi thanks ! mà trong cái code của tôi có 2 dòng marquee mà lúc chạy chỉ show được 1 dòng àh ! Admin xem lại dùm nha !
chỉ tôi lấy luôn cái thẻ <div id="giack" >
nội dung trong đó có 2 cái marquee ! do đó cần phải lấy hết thẻ div ! ADMIN giúp lần nữa nha !
quote:

Trích đoạn: justin

bạn muốn lấy cái này ra hả ?

AAM 30.8 100 | ABT 52.5 900 | ACL 37.2 1,502 | AGD 37.0 527 | AGF 33.4 110 | AGR 14.7 890 | ALP 22.3 3,221 | ANV 19.3 5,340 | APC 21.2 2,350 | ASM 68.0 4,750 | ASP 13.3 850 | ATA 28.3 130 | BAS 12.8 1,858 | BBC 30.4 1,698 | BCE 23.1 620 | BCI 56.5 765 | BHS 3

thì đơn giản thế này thôi

<marquee .*?>(?<Content>.*?)</marquee>


< Sửa đổi bởi kimlong008 -- 7/26/2010 11:49:02 PM >

(in reply to justin)
Post #: 30
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/27/2010 12:26:28 AM   
kimlong008

 

Bài viết đã đăng: 8
Điểm: 0
Ghi ngày: 7/20/2010
Tình trạng: offline
Nhờ Admin chỉ cách lấy dùm mấy cái thẻ đó, và chỉ cách dùng soft RegexBuddy tôi down về coppy rồi chịu thua không biết xài nó ra làm sao luôn ! làm thế nào để biết và lọc mấy cái html đó ? nếu có tài liệu Admin sent dùm.

(in reply to kimlong008)
Post #: 31
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/27/2010 6:26:28 AM  2 đánh giá
justin

 

Bài viết đã đăng: 1264
Điểm: 34
Ghi ngày: 9/22/2008
Tình trạng: offline
quote:

Trích đoạn: kimlong008

yeah ! bỏ vô chạy phà phà rồi thanks ! mà trong cái code của tôi có 2 dòng marquee mà lúc chạy chỉ show được 1 dòng àh ! Admin xem lại dùm nha !
chỉ tôi lấy luôn cái thẻ <div id="giack" >
nội dung trong đó có 2 cái marquee ! do đó cần phải lấy hết thẻ div ! ADMIN giúp lần nữa nha !
quote:

Trích đoạn: justin

bạn muốn lấy cái này ra hả ?

AAM 30.8 100 | ABT 52.5 900 | ACL 37.2 1,502 | AGD 37.0 527 | AGF 33.4 110 | AGR 14.7 890 | ALP 22.3 3,221 | ANV 19.3 5,340 | APC 21.2 2,350 | ASM 68.0 4,750 | ASP 13.3 850 | ATA 28.3 130 | BAS 12.8 1,858 | BBC 30.4 1,698 | BCE 23.1 620 | BCI 56.5 765 | BHS 3

thì đơn giản thế này thôi

<marquee .*?>(?<Content>.*?)</marquee>



không cần fai lấy nội dung của thẻ <div id="giack" > làm gì vì khi dùng Regex cái

<marquee .*?>(?<Content>.*?)</marquee>

nó sẽ cho 2 kết quả (vì có 2 thẻ marquee) bạn chỉ cần khai báo

Match match;
match = Regex.Match(strHTML,"<marquee .*?>(?<Content>.*?)</marquee>");

rồi

while (match.Success) {
        Response.Write(match.Groups["Content"].ToString() + "<br />");
        match = match.NextMatch();
}

thế là lấy được n thẻ <marquee> rồi còn gì :D

quote:

Trích đoạn: kimlong008

Nhờ Admin chỉ cách lấy dùm mấy cái thẻ đó, và chỉ cách dùng soft RegexBuddy tôi down về coppy rồi chịu thua không biết xài nó ra làm sao luôn ! làm thế nào để biết và lọc mấy cái html đó ? nếu có tài liệu Admin sent dùm.


cái này tự nghiên cứu thôi, đọc thêm các tài liệu về RegEx rồi vào RegexBuddy trỏ vào tab Test: ở đây bạn có thể nhìn thấy 3 ô "textarea" (mình tạm gọi là vậy cho dễ hiểu) được mình tạm đánh dấu là 1 2 3



Ô 1 là nơi bạn gõ RegEx

Ô 2 là nội dung HTML bạn muốn bóc tách

Ô 3 là ô kết quả sau khi bạn ấn vào List all matches of group "Content"



Tool này rất hay ở chỗ khi bạn gõ Regex đến đâu, nếu chính xác nó sẽ HighLight phần nội dung của html cho bạn



_____________________________

Dev: http://dev.meotom.net/
Blog: http://blog.meotom.net/
Upload ảnh miễn phí up.meotom.net

(in reply to kimlong008)
Post #: 32
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/27/2010 8:57:18 AM   
haji

 

Bài viết đã đăng: 847
Điểm: 27
Ghi ngày: 4/1/2007
Tình trạng: offline
goodjob! :)

_____________________________

YM: HVH3W
http://tinyurl.vn/phim - phim ảnh
http://tinyurl.vn/live - tỷ số trực tiếp

(in reply to justin)
Post #: 33
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/27/2010 11:49:20 AM   
kimlong008

 

Bài viết đã đăng: 8
Điểm: 0
Ghi ngày: 7/20/2010
Tình trạng: offline
Thank Justin ! hiểu rồi

(in reply to haji)
Post #: 34
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/27/2010 1:40:35 PM   
justin

 

Bài viết đã đăng: 1264
Điểm: 34
Ghi ngày: 9/22/2008
Tình trạng: offline
Tài liệu học Regular Expression cho các bạn

http://dev.meotom.net/2010/7/26/Tai-lieu-hoc-Regular-Expression-va-Tool-RegexBuddy-3C7

http://download.meotom.net/ebook/Regular_Expression_Cookbook.zip

< Sửa đổi bởi justin -- 8/2/2010 8:28:14 PM >


_____________________________

Dev: http://dev.meotom.net/
Blog: http://blog.meotom.net/
Upload ảnh miễn phí up.meotom.net

(in reply to kimlong008)
Post #: 35
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/28/2010 5:20:22 PM   
kimlong008

 

Bài viết đã đăng: 8
Điểm: 0
Ghi ngày: 7/20/2010
Tình trạng: offline
hixc bạn ơi ! đúng là nó show hết tất cả marquee ra nhưng nó show ra dạng tĩnh chứ nó không chạy nữa ! bạn có cách nào để nó chạy không ?

(in reply to justin)
Post #: 36
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/28/2010 5:38:12 PM   
justin

 

Bài viết đã đăng: 1264
Điểm: 34
Ghi ngày: 9/22/2008
Tình trạng: offline
quote:

Trích đoạn: kimlong008

hixc bạn ơi ! đúng là nó show hết tất cả marquee ra nhưng nó show ra dạng tĩnh chứ nó không chạy nữa ! bạn có cách nào để nó chạy không ?


bạn lại tống nó vào marquee là nó lại chạy ;))

_____________________________

Dev: http://dev.meotom.net/
Blog: http://blog.meotom.net/
Upload ảnh miễn phí up.meotom.net

(in reply to kimlong008)
Post #: 37
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 7/28/2010 9:27:17 PM   
kimlong008

 

Bài viết đã đăng: 8
Điểm: 0
Ghi ngày: 7/20/2010
Tình trạng: offline
hê hê chạy rồi thanks bạn

< Sửa đổi bởi kimlong008 -- 7/28/2010 9:32:29 PM >

(in reply to justin)
Post #: 38
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 8/19/2010 10:11:04 AM   
tonytonda2004

 

Bài viết đã đăng: 4
Điểm: 0
Ghi ngày: 3/27/2010
Tình trạng: offline
Các pro giúp em bóc tách trang này với : http://www.livescore.cz/ Làm sao để lấy ra được các trận đấu?tỉ số,mã trận???

(in reply to kimlong008)
Post #: 39
RE: [Spider] - Đôi chút về bóc tách dữ liệu - 8/19/2010 5:13:21 PM   
xincucu

 

Bài viết đã đăng: 218
Điểm: 0
Ghi ngày: 9/24/2008
Tình trạng: offline
Bài viết rất hay

< Sửa đổi bởi xincucu -- 8/26/2010 11:28:24 AM >


_____________________________

Thanks and Best Regards
Email: nguyenluc@mail.com
Phone: 0988599573
Yahoo: nguyenluc_net

(in reply to tonytonda2004)
Post #: 40
Trang:   <<   < Trang trước  1 [2] 3   Trang tiếp >   >>
Diễn Đàn Chính >> [Lập trình - Phát triển dự án với Microsoft .NET] >> Các bài hướng dẫn >> RE: [Spider] - Đôi chút về bóc tách dữ liệu Trang: <<   < Trang trước  1 [2] 3   Trang tiếp >   >>
Nhảy đến:





Bài Mới Không Có Bài Mới
Chủ đề nóng và CÓ bài viết mới Chủ đề nóng và KHÔNG có bài viết mới
Đã khóa và CÓ bài viết mới Đã khóa và KHÔNG có bài viết mới
 Đăng Đề Mục Mới
 Trả Lời
 Trưng Cầu
 Ý Kiến Của Bạn
 Delete My Own Post
 Delete My Own Thread
 Đánh giá bài





© 2002-2008 Vietnamese ASP.NET. | Trang chủ | Diễn đàn | Đăng ký | Đăng Nhập | Thắc mắc thường gặp?
Sử dụng phần mềm Diễn đàn ASPPlayground.NET phiên bản Advanced Edition 2.5.5 Unicode
Skin phát triển bởi ASPVN.NET phiên bản 1.0.0. Thời gian tải trang: 0.063
Nội dung được xây dựng bởi Ban quản trị và các Thành viên của diễn đàn
Domain & Hosting được tài trợ bởi ViTechNet.,JSC | Microsoft Vietnam
Quảng cáo - Liên kết