Free性欧美Hd另类_精品亚洲欧美视频在线观看_freesex欧美喷水_字幕av在线_久久久久久国产免费_伊人5566

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 軟件研發 > 如何使用Python將LinkedIn上的數據收集到CSV中?

如何使用Python將LinkedIn上的數據收集到CSV中?

2020-07-31 17:12:10 | 來源:中培企業IT培訓網

我們了解了如何使用代理刮擦器 和 Python從Linkedin收集數據,但在嘗試之前請先閱讀下文。在本文中我們將使用Python和Web Scraping Tool從Linkedin抓取數據。我們將提取公司名稱,網站,行業,公司規模,員工人數,總部地址和專業。為什么使用這個工具?該工具將幫助我們使用數百萬個旋轉式住宅代理來抓取動態網站,以免被阻止。它還提供了驗證碼清除功能。

  程序

通常,網頁抓取分為兩個部分:

· 通過發出HTTP請求來獲取數據。

· 通過解析HTML DOM提取重要數據

  庫和工具

· Beautiful Soup 是一個Python庫,用于從HTML和XML文件中提取數據。

· 通過請求,?您可以非常輕松地發送HTTP請求。

· 熊貓 提供 快速,靈活和富有表現力的數據結構

· Web Scraper 提取目標URL的HTML代碼。

  建立

我們的設置非常簡單。只需創建一個文件夾并安裝Beautiful Soup和請求即可。要創建文件夾并安裝庫,請在給定命令下方鍵入。我假設您已經安裝了Python3.x。

mkdir scraper

pip install beautifulsoup4

pip install requests

pip install pandas

現在,使用您喜歡的任何名稱在該文件夾中創建一個文件。我正在使用scraping.py。

首先,您必須注冊 Web Scraper。它將為您提供1000個免費積分。然后,只需在文件中導入Beautiful Soup和請求即可。像這樣。

from bs4 import BeautifulSoupimport requestsimport pandas as pd

  我們要抓的東西

我們 將從Linkedin刮取Google的“關于”頁面 。

  準備

現在,由于我們具備了準備刮板的所有要素,因此我們應該對目標URL 進行GET請求 以獲取原始HTML數據。如果您不熟悉抓取工具,請敦促您仔細閱讀其 文檔。我們將使用請求來發出HTTP GET請求。現在,由于我們正在抓取公司頁面,因此我將“ 類型”設置 為公司,將“ linkId”設置 為google / about /。可以在Linkedin的目標URL中找到LinkId。

r = requests.get(‘api_key=YOUR-API-KEY&type=company&linkId=google/about/').text

這將為您提供這些目標URL的HTML代碼。

提出上述要求時,請使用您的Scrapingdog API密鑰。

現在,您必須使用BeautifulSoup來解析HTML。

soup=BeautifulSoup(r,’html.parser’)

l={}

u=list()

正如上述看到的那樣,公司的名稱存儲在 帶有標簽h1的“ org-top-card-summary__title t-24 t-black truncate ”類中 。

因此,我們將使用可變湯來提取該文本。

try:

l[“Company”]=soup.find(“h1”,{“class”:”org-top-card-summary__title t-24 t-black truncate”}).text.replace(“ ”,””)except:

l[“Company”]=None

我已將 n 替換為空字符串。

現在,我們將專注于提取網站,行業,公司規模,總部(地址),類型和專業。

所有上述特性(除了公司規模)的被存儲在 類 “ ORG-頁面details__definition文本T-14 T-黑-光叔正常 ”與標簽 DD。 我將再次使用可變湯來提取所有屬性。

allProp = soup.find_all(“dd”,{“class”:”org-page-details__definition-text t-14 t-black — light t-normal”})

現在,我們將一一從allProp 列表中提取屬性 。

try:

l[“website”]=allProp[0].text.replace(“ ”,””)except:

l[“website”]=Nonetry:

l[“Industry”]=allProp[1].text.replace(“ ”,””)except:

l[“Industry”]=Nonetry:

l[“Address”]=allProp[2].text.replace(“ ”,””)except:

l[“Address”]=Nonetry:

l[“Type”]=allProp[3].text.replace(“ ”,””)except:

l[“Type”]=Nonetry:

l[“Specialties”]=allProp[4].text.replace(“ ”,””)except:

l[“Specialties”]=None

現在,我們將抓取 公司規模。

try:

l[“Company Size”]=soup.find(“dd”,{“class”:”org-about-company-module__company-size-definition-text t-14 t-black — light mb1 fl”}).text.replace(“ ”,””)except:

l[“Company Size”]=None

現在,我將按字典 l 列出 u。 然后,我們將使用熊貓創建一個列表u的數據框。

u.append(l)

df = pd.io.json.json_normalize(u)

現在,最后將我們的數據保存到CSV文件中。

df.to_csv(‘linkedin.csv’, index=False, encoding=’utf-8')

我們已經成功抓取了Linkedin公司頁面。同樣,您也可以抓取個人資料。 抓取個人資料頁面之前,請先閱讀 文檔。

完整的代碼

from bs4 import BeautifulSoupimport requestsimport pandas as pd

r = requests.get(‘api_key=YOUR-API-KEY&type=company&linkId=google/about/').text

soup=BeautifulSoup(r,’html.parser’)

u=list()

l={}

try:

l[“Company”]=soup.find(“h1”,{“class”:”org-top-card-summary__title t-24 t-black truncate”}).text.replace(“ ”,””)

except:

l[“Company”]=None

allProp = soup.find_all(“dd”,{“class”:”org-page-details__definition-text t-14 t-black — light t-normal”})

try:

l[“website”]=allProp[0].text.replace(“ ”,””)

except:

l[“website”]=None

try:

l[“Industry”]=allProp[1].text.replace(“ ”,””)

except:

l[“Industry”]=None

try:

l[“Company Size”]=soup.find(“dd”,{“class”:”org-about-company-module__company-size-definition-text t-14 t-black — light mb1 fl”}).text.replace(“ ”,””)

except:

l[“Company Size”]=None

try:

l[“Address”]=allProp[2].text.replace(“ ”,””)

except:

l[“Address”]=None

try:

l[“Type”]=allProp[3].text.replace(“ ”,””)

except:

l[“Type”]=None

try:

l[“Specialties”]=allProp[4].text.replace(“ ”,””)

except:

l[“Specialties”]=None

u.append(l)

df = pd.io.json.json_normalize(u)

df.to_csv(‘linkedin.csv’, index=False, encoding=’utf-8')

print(df)

以上就是關于如何使用Python將LinkedIn上的數據收集到CSV中的全部內容,想了解更多關于數據收集的信息,請繼續關注中培偉業。

標簽: Python 數據收集
主站蜘蛛池模板: 狠狠的色 | 国产开嫩苞视频在线观看 | 99久久精品免费看蜜桃的推荐词 | 麻豆入口国产精品 | 人妻中文字幕无码2020 | 国产精品情侣呻吟对白视频 | 色欲av久久无码影院色戒 | 中文字幕乱妇无码AV在线 | 免费观看福利视频 | 中日韩a级片 | 在线视频一区二区三区 | 精品亚洲国产视频 | 亚洲欧美日韩不卡 | 国产亚洲精品久久久久久无码网站 | 黄色录像一级大片 | 99免费| 天天色踪合 | 性69无遮挡免费视频 | 色婷婷久久一区二区爽爽爽 | yyyy11111少妇影院| 在线免费观看av网址 | 亚洲av无码之国产精品网址蜜芽 | 香蕉久久精品日日躁夜夜躁 | aaa大片在线观看 | 成年国产| 99热.com| av网站国产在线 | 91丨九色丨国产 | 脱了美女内裤猛烈进入gif | 天堂资源在线观看免费高清视频 | 国产精品久久精品99国产百盛 | 国产精品内射久久久久欢欢 | 久久精品无码一区二区三区不卡 | 亚洲一区二区三区乱码在线欧洲 | 91精品国产乱码久久桃 | 久久大香伊蕉在人线免费 | 一区二区不卡在线 | 9久9久9久女女女九九九一九 | 国产无套流白浆视频免费 | 国产探花在线观看视频 | 就去色99 |