본문 바로가기

디지털포렌식(Digital forensic)/알파벳

[파일] 1,237개의 무기 이름

반응형

웹 스크래핑 기술은 스크래핑 봇을 사용하여 웹 페이지에서 데이터를 수집하는 방법이다.
전체 프로세스를 클릭 몇 번으로 자동 진행할 수 있다.
웹 스크래핑 기술을 사용하면 빅데이터를 웹을 통해 빠르게 얻을 수 있는 장점이 있다.

웹 스크래핑 기술을 구현하는 방법은 여러 가지가 있지만
가장 유명하며 기능이 잘 구현되고 간단한 방식은 웹에서 구현하는 Octoparse(옥토퍼스)라는 도구를 사용한다.

 

Octoparse는 웹 스크래핑에 최적화되었고 무료 버전, 유료 버전이 있으며 Windows와 macOS 모두에서 동작하며,

로그인이 필요하고 구글 로그인을 지원한다.

 

https://www.octoparse.com/download

 

Free Download | Octoparse

Released on September 13, 2022

www.octoparse.com

 

'군사 무기 이름'을 수집하고 싶다고 가정하면
아래와 같이 옥토퍼스 초기화면에서 New를 선택하고
수집을 하고 싶은 웹 사이트의 주소를 입력한다.
나는 '유용원의 군사세계'라는 웹사이트 주소에서 '군사무기' 페이지를 사용했다.
https://bemil.chosun.com/nbrd/bbs/view.html?b_bbs_id=10044&branch=&pn=1&num=226916

 

 

주소를 입력하면 해당 웹 사이트에서 수집 가능한 목록이 '초록색'으로 텍스트에 마킹이 된다.

수집을 원하는 '초록색' 데이터를 선택해주면 마치 엑셀처럼 컬럼들이 생성되면서
로봇이 웹 전체를 스크롤링하면서 각 컬럼마다 데이터가 자동으로 만들어지게 된다.

 

작업이 끝나면 수집된 데이터가 모두 몇 개인지 알려주고, 이 데이터들을 저장할 것인지를 묻는다.

 

 

저장하는 방식은 Excel 데이터, CSV, Text 등 다양한 방식으로 저장할 수 있다.

나는 Excel 데이터로 저장하는 방식을 선택했다.

 

수집하고 저장된 데이터들은 1237개가 나왔다.
모두 읽어보지는 못했지만 군사 분야와 관련된 각 나라의 무기 이름이라는 데이터들로 수집이 됐다.
아래에 저장된 엑셀 파일을 첨부한다.

군사분야 블로그인 '유용원의 군사세계'를 통해 수집했지만
동일한 개념으로 필요한 웹 사이트 주소만으로 원하는 데이터를 수집해서 재가공 할 수 있다.

오직 국가와 민족을 위해

유용원의 군사세계.xlsx
0.03MB

 

728x90