본문 바로가기
UiPath/UiPath Practice

UI Interactions : Demo2 - Data Scraping

by kimyosunnyc 2020. 11. 4.

출처 : UiPath Academy

Demo2 - Data Scraping

Data Scraping Wizard를 사용하여 Google검색 및 Wikipedia에서 구조화 된 데이터를 추출한다.

 

Part 1 : Data Scraping on Google

Demo2 - Data Scraping : Google 검색

📌 설정방법

프로젝트를 Sequence로 시작하고 Open Browser container를 사용하여 Google을 연다.

 

Inside the Container :

  • Type into activity를 사용하여 원하는 텍스트를 검색창에 입력한다.(우리의 경우 "Data Scraping")
  • 검색을 수행하기 위해 Send Hotkey activity의 Enter를 사용한다.
  • Click activity를 사용하여 검색 결과의 Videos탭으로 이동한다.
  • UiPath Studio의 Data Scraping Wizard를 사용하여 : 
    • 검색 결과 페이지에서 처음 두 개의 Title을 가리킨다.
    • Extract URL option을 체크하고 2개의 열 이름을 변경, 원하는 결과 수(100)를 입력한다.
    • 각 Result의 날짜를 추출하기 위해 Extract Correlated Data 옵션을 사용한다.
    • Wizard가 100개의 결과를 추출할 수 있도록 Next 버튼을 가리킨다.
    • Data Scraping Wizard에 의해 자동으로 생성 된 Activities가 새 컨테이너에 위치되기 때문에, Workflow 시작 시 끌어다 놓은 Open Browser 컨테이너 내에 Extract Data Activity를 옮겨다 놓는다.
    • Scraped Data가 저장되는 DataTable 변수의 범위(Scope)를 전체 Sequence로 변경한다.
    • Write CSV activity를 사용하여 DataTable에 저장된 데이터를 새로 생성 된 CSV파일로 인쇄한다.
    • Close Tab activity를 사용하여 처리 종료 시 창을 닫도록 한다.
1.1 Demo Data Scraping (Sequence)								
	Private = False							
	Variables							
		ExtractDataTable(DataTable)						
	Activities							
		1.3 Open Browser (OpenBrowser)						
			Url = www.google.com					
			Private = False					
			Body					
				1.4 Do (Sequence)				
					Private = False			
					Activities			
						1.31 Type Into Search Input Field (TypeInto)		
							Text = Data Scraping	
							Activate = True	
							Target	
								Selector = <webctrl tag='INPUT' type='text' />
							Private = False	
						1.25 Send Enter Hotkey  (SendHotkey)		
							KeyModifiers = None	
							Key = enter	
							SpecialKey = True	
							Activate = True	
							Target	
								Selector = <webctrl tag='INPUT' type='text' />
							Private = False	
						1.20 Click '동영상' (Click)		
							KeyModifiers = None	
							CursorPosition	
								Position = Center
							ClickType = CLICK_SINGLE	
							MouseButton = BTN_LEFT	
							Target	
								Selector = <webctrl idx='1' parentid='hdtb-msb-vis' tag='A' />
							Private = False	
						1.10 Extract Structured Data 'DIV  rso' (ExtractData)		
							ExtractMetadata = <extract><row exact='1'><webctrl tag='div' /><webctrl tag='div' idx='1' /></row><column attr='text' name='Title' exact='1' attr2='href' name2='URL'><webctrl tag='div' /><webctrl tag='div' idx='1' /><webctrl tag='div' idx='1' /><webctrl tag='a' idx='1' /><webctrl tag='h3' idx='1' /><webctrl tag='span' idx='1' /></column><column attr='text' name='Date' exact='1'><webctrl tag='div' /><webctrl tag='div' idx='1' /><webctrl tag='div' idx='2' /><webctrl tag='div' idx='2' /><webctrl tag='div' idx='1' /></column></extract>	
							MaxNumberOfResults = 100	
							DataTable = ExtractDataTable	
							NextLinkSelector = <webctrl aaname='다음' parentid='pnnext' tag='SPAN' />	
							SimulateClick = True	
							Target	
								Selector = <webctrl id='rso' tag='DIV' />
								WaitForReady = COMPLETE
							ContinueOnError = True	
							Private = False	
						1.6 Write CSV (WriteCsvFile)		
							AddHeaders = True	
							FilePath = SearchResults.csv	
							DataTable = ExtractDataTable	
							Delimiter = Comma	
							Private = False	
						1.5 Close Tab (CloseTab)		
							Private = False	

 


 

Part2 : Data Scraping on Wikipedia

Part2 : Data Scraping on Wikipedia

📌 설정방법

프로젝트를 Sequence로 시작하고 Open Browser container를 사용하여 "https://en.wikipedia.org/wiki/Olympic_medal" 페이지를 연다.

 

Inside the Container : 

  • UiPath Studio의 Data Scraping Wizard를 사용한다. 표의 cell이 선택되면 Wizard는 전체 표를 인식한다.
  • Data Scraping Wizard에 의해 자동으로 생성 된 Activities가 새 컨테이너에 위치되기 때문에, Workflow 시작 시 끌어다 놓은 Open Browser 컨테이너 내에 Extract Data Activity를 옮겨다 놓는다.
  • Scraped Data가 저장되는 DataTable 변수의 범위(Scope)를 전체 Sequence로 변경한다.
  • Write CSV activity를 사용하여 DataTable에 저장된 데이터를 새로 생성 된 CSV파일로 인쇄한다.
  • Close Tab activity를 사용하여 처리 종료 시 창을 닫도록 한다.
1.1 WikiDataScraping (Sequence)								
	Private = False							
	Variables							
		ExtractDataTable(DataTable)						
	Activities							
		1.3 Open Browser (OpenBrowser)						
			Url = https://en.wikipedia.org/wiki/Olympic_medal					
			Private = False					
			Body					
				1.4 Do (Sequence)				
					Private = False			
					Activities			
						1.10 Extract Structured Data Wiki (ExtractData)		
							ExtractMetadata = <extract-table get_columns_name='1' get_empty_columns='1' columns_name_source='Longest' />	
							MaxNumberOfResults = 100	
							DataTable = ExtractDataTable	
							SimulateClick = True	
							Target	
								Selector = <webctrl aaname='Games Host Details Designer(s) Mint Diameter  (mm) Thickness  (m*' tag='TABLE' />
								WaitForReady = COMPLETE
							ContinueOnError = True	
							Private = False	
						1.6 Write CSV (WriteCsvFile)		
							AddHeaders = True	
							FilePath = SummerOlympic.csv	
							DataTable = ExtractDataTable	
							Delimiter = Comma	
							Private = False	
						1.5 Close Tab (CloseTab)		
							Private = False	

 

반응형

댓글