출처 : UiPath Academy
Demo2 - Data Scraping
Data Scraping Wizard를 사용하여 Google검색 및 Wikipedia에서 구조화 된 데이터를 추출한다.
Part 1 : Data Scraping on Google
📌 설정방법
프로젝트를 Sequence로 시작하고 Open Browser container를 사용하여 Google을 연다.
Inside the Container :
- Type into activity를 사용하여 원하는 텍스트를 검색창에 입력한다.(우리의 경우 "Data Scraping")
- 검색을 수행하기 위해 Send Hotkey activity의 Enter를 사용한다.
- Click activity를 사용하여 검색 결과의 Videos탭으로 이동한다.
- UiPath Studio의 Data Scraping Wizard를 사용하여 :
- 검색 결과 페이지에서 처음 두 개의 Title을 가리킨다.
- Extract URL option을 체크하고 2개의 열 이름을 변경, 원하는 결과 수(100)를 입력한다.
- 각 Result의 날짜를 추출하기 위해 Extract Correlated Data 옵션을 사용한다.
- Wizard가 100개의 결과를 추출할 수 있도록 Next 버튼을 가리킨다.
- Data Scraping Wizard에 의해 자동으로 생성 된 Activities가 새 컨테이너에 위치되기 때문에, Workflow 시작 시 끌어다 놓은 Open Browser 컨테이너 내에 Extract Data Activity를 옮겨다 놓는다.
- Scraped Data가 저장되는 DataTable 변수의 범위(Scope)를 전체 Sequence로 변경한다.
- Write CSV activity를 사용하여 DataTable에 저장된 데이터를 새로 생성 된 CSV파일로 인쇄한다.
- Close Tab activity를 사용하여 처리 종료 시 창을 닫도록 한다.
1.1 Demo Data Scraping (Sequence)
Private = False
Variables
ExtractDataTable(DataTable)
Activities
1.3 Open Browser (OpenBrowser)
Url = www.google.com
Private = False
Body
1.4 Do (Sequence)
Private = False
Activities
1.31 Type Into Search Input Field (TypeInto)
Text = Data Scraping
Activate = True
Target
Selector = <webctrl tag='INPUT' type='text' />
Private = False
1.25 Send Enter Hotkey (SendHotkey)
KeyModifiers = None
Key = enter
SpecialKey = True
Activate = True
Target
Selector = <webctrl tag='INPUT' type='text' />
Private = False
1.20 Click '동영상' (Click)
KeyModifiers = None
CursorPosition
Position = Center
ClickType = CLICK_SINGLE
MouseButton = BTN_LEFT
Target
Selector = <webctrl idx='1' parentid='hdtb-msb-vis' tag='A' />
Private = False
1.10 Extract Structured Data 'DIV rso' (ExtractData)
ExtractMetadata = <extract><row exact='1'><webctrl tag='div' /><webctrl tag='div' idx='1' /></row><column attr='text' name='Title' exact='1' attr2='href' name2='URL'><webctrl tag='div' /><webctrl tag='div' idx='1' /><webctrl tag='div' idx='1' /><webctrl tag='a' idx='1' /><webctrl tag='h3' idx='1' /><webctrl tag='span' idx='1' /></column><column attr='text' name='Date' exact='1'><webctrl tag='div' /><webctrl tag='div' idx='1' /><webctrl tag='div' idx='2' /><webctrl tag='div' idx='2' /><webctrl tag='div' idx='1' /></column></extract>
MaxNumberOfResults = 100
DataTable = ExtractDataTable
NextLinkSelector = <webctrl aaname='다음' parentid='pnnext' tag='SPAN' />
SimulateClick = True
Target
Selector = <webctrl id='rso' tag='DIV' />
WaitForReady = COMPLETE
ContinueOnError = True
Private = False
1.6 Write CSV (WriteCsvFile)
AddHeaders = True
FilePath = SearchResults.csv
DataTable = ExtractDataTable
Delimiter = Comma
Private = False
1.5 Close Tab (CloseTab)
Private = False
Part2 : Data Scraping on Wikipedia
📌 설정방법
프로젝트를 Sequence로 시작하고 Open Browser container를 사용하여 "https://en.wikipedia.org/wiki/Olympic_medal" 페이지를 연다.
Inside the Container :
- UiPath Studio의 Data Scraping Wizard를 사용한다. 표의 cell이 선택되면 Wizard는 전체 표를 인식한다.
- Data Scraping Wizard에 의해 자동으로 생성 된 Activities가 새 컨테이너에 위치되기 때문에, Workflow 시작 시 끌어다 놓은 Open Browser 컨테이너 내에 Extract Data Activity를 옮겨다 놓는다.
- Scraped Data가 저장되는 DataTable 변수의 범위(Scope)를 전체 Sequence로 변경한다.
- Write CSV activity를 사용하여 DataTable에 저장된 데이터를 새로 생성 된 CSV파일로 인쇄한다.
- Close Tab activity를 사용하여 처리 종료 시 창을 닫도록 한다.
1.1 WikiDataScraping (Sequence)
Private = False
Variables
ExtractDataTable(DataTable)
Activities
1.3 Open Browser (OpenBrowser)
Url = https://en.wikipedia.org/wiki/Olympic_medal
Private = False
Body
1.4 Do (Sequence)
Private = False
Activities
1.10 Extract Structured Data Wiki (ExtractData)
ExtractMetadata = <extract-table get_columns_name='1' get_empty_columns='1' columns_name_source='Longest' />
MaxNumberOfResults = 100
DataTable = ExtractDataTable
SimulateClick = True
Target
Selector = <webctrl aaname='Games Host Details Designer(s) Mint Diameter (mm) Thickness (m*' tag='TABLE' />
WaitForReady = COMPLETE
ContinueOnError = True
Private = False
1.6 Write CSV (WriteCsvFile)
AddHeaders = True
FilePath = SummerOlympic.csv
DataTable = ExtractDataTable
Delimiter = Comma
Private = False
1.5 Close Tab (CloseTab)
Private = False
반응형
'UiPath > UiPath Practice' 카테고리의 다른 글
UI Interactions : Practice 1 - Input Actions & Methods (0) | 2020.11.09 |
---|---|
UI Interactions : Demo - Working with UI elements (0) | 2020.11.05 |
UI Interactions : Demo1 - Part3 : OCR methods (0) | 2020.10.29 |
UI Interactions : Demo1 - Part2 : Screen scraping (0) | 2020.10.29 |
UI Interactions : Demo1 - Part1 : Getting text from a Notepad (0) | 2020.10.28 |
댓글