Belajar benda baru semalam so better aku tulis kat blog.
Kebiasaan kerja data engineer adalah untuk cari data yang available from web, scrapped data tu, save kat satu tempat dan buat data cleaning.
Selalunya kalau aku buat web scrapping, aku akan code pakai python. Tak susah pun cuma remeh la sikit sebab nak kena identify html tags. Siapa pernah buat faham kot kenapa kena identify html tags ni. Basically, kita code kat python untuk scrapped data based on html tags tu. So katala nak ambil data dari website yang ada table. Kena identify html tags untuk table tu dan barula dapat data.
Semalam kawan aku bgtau boleh jer pakai google sheet. Caranya guna formula importhtml.
1. Buka google sheet baru
2. Pilih cell A1 dan letak formula =IMPORTHTML("web address","table",index)
3. Index tu nak tau table yang ke berapa nak scrap. Nak tau index kena la buka developer console kat web browser pastu pastekan code ni
var i = 1; [].forEach.call(document.getElementsByTagName("table"), function(x) { console.log(i++, x); });
Nanti code tu akan return senarai table berserta indexnya sekali. Bila dah dapat index, letakkan index kat formula dalam google sheet tu.
Dah siap dan dapat data dari table.
Yang bestnya setiap kali data kat table tu update, automatically data kat google sheet tu pun update.
Kebiasaan kerja data engineer adalah untuk cari data yang available from web, scrapped data tu, save kat satu tempat dan buat data cleaning.
Selalunya kalau aku buat web scrapping, aku akan code pakai python. Tak susah pun cuma remeh la sikit sebab nak kena identify html tags. Siapa pernah buat faham kot kenapa kena identify html tags ni. Basically, kita code kat python untuk scrapped data based on html tags tu. So katala nak ambil data dari website yang ada table. Kena identify html tags untuk table tu dan barula dapat data.
Semalam kawan aku bgtau boleh jer pakai google sheet. Caranya guna formula importhtml.
1. Buka google sheet baru
2. Pilih cell A1 dan letak formula =IMPORTHTML("web address","table",index)
3. Index tu nak tau table yang ke berapa nak scrap. Nak tau index kena la buka developer console kat web browser pastu pastekan code ni
var i = 1; [].forEach.call(document.getElementsByTagName("table"), function(x) { console.log(i++, x); });
Nanti code tu akan return senarai table berserta indexnya sekali. Bila dah dapat index, letakkan index kat formula dalam google sheet tu.
Dah siap dan dapat data dari table.
Yang bestnya setiap kali data kat table tu update, automatically data kat google sheet tu pun update.
No comments:
Post a Comment