網絡爬蟲,英文名為Spider,又稱為網頁蜘蛛,網絡機器人,在數(shù)據分析應用中,更多的將爬蟲稱為數(shù)據采集程序,是一種按照一定的規(guī)則,自動地抓取網絡信息的程序或者腳本。
• 原則上,只要是客戶端(瀏覽器)能做的事情,爬蟲都能夠做
• 爬蟲也只能獲取客戶端(瀏覽器)所展示出來的數(shù)據
網絡中的數(shù)據可以是由web服務器【Nginx/Apache】,數(shù)據庫服務【MySQL/Redis/MongoDB】,索引庫,大數(shù)據,視頻/圖片庫,云存儲【阿里云的OSS】等提供的,最主要的來源是Web服務器
不過,大家一定要注意哦,可爬取的數(shù)據必須是公開的,非盈利的,如:如果侵入人家非公開的網絡,人家會通過ip定位到你,屬于違法行為的哦,再或者,一些理財?shù)木W站,如果爬取數(shù)據,肯定是不可以的,如果小伙伴們不聽話,非要去爬取,那任何人都是保護不了你的哦,狗頭保命~~~
有名的爬蟲案件:簡歷大數(shù)據公司“巧達科技”被一鍋端、“車來了”涉嫌偷數(shù)據被警方立案等