웹 스크래핑 기술은 스크래핑 봇을 사용하여 웹 페이지에서 데이터를 수집하는 방법이다.
전체 프로세스를 클릭 몇 번으로 자동 진행할 수 있다.
웹 스크래핑 기술을 사용하면 빅데이터를 웹을 통해 빠르게 얻을 수 있는 장점이 있다.
웹 스크래핑 기술을 구현하는 방법은 여러 가지가 있지만
가장 유명하며 기능이 잘 구현되고 간단한 방식은 웹에서 구현하는 Octoparse(옥토퍼스)라는 도구를 사용한다.
Octoparse는 웹 스크래핑에 최적화되었고 무료 버전, 유료 버전이 있으며 Windows와 macOS 모두에서 동작하며,
로그인이 필요하고 구글 로그인을 지원한다.
https://www.octoparse.com/download
'군사 무기 이름'을 수집하고 싶다고 가정하면
아래와 같이 옥토퍼스 초기화면에서 New를 선택하고
수집을 하고 싶은 웹 사이트의 주소를 입력한다.
나는 '유용원의 군사세계'라는 웹사이트 주소에서 '군사무기' 페이지를 사용했다.
https://bemil.chosun.com/nbrd/bbs/view.html?b_bbs_id=10044&branch=&pn=1&num=226916
주소를 입력하면 해당 웹 사이트에서 수집 가능한 목록이 '초록색'으로 텍스트에 마킹이 된다.
수집을 원하는 '초록색' 데이터를 선택해주면 마치 엑셀처럼 컬럼들이 생성되면서
로봇이 웹 전체를 스크롤링하면서 각 컬럼마다 데이터가 자동으로 만들어지게 된다.
작업이 끝나면 수집된 데이터가 모두 몇 개인지 알려주고, 이 데이터들을 저장할 것인지를 묻는다.
저장하는 방식은 Excel 데이터, CSV, Text 등 다양한 방식으로 저장할 수 있다.
나는 Excel 데이터로 저장하는 방식을 선택했다.
수집하고 저장된 데이터들은 1237개가 나왔다.
모두 읽어보지는 못했지만 군사 분야와 관련된 각 나라의 무기 이름이라는 데이터들로 수집이 됐다.
아래에 저장된 엑셀 파일을 첨부한다.
군사분야 블로그인 '유용원의 군사세계'를 통해 수집했지만
동일한 개념으로 필요한 웹 사이트 주소만으로 원하는 데이터를 수집해서 재가공 할 수 있다.
오직 국가와 민족을 위해
'디지털포렌식(Digital forensic) > 알파벳' 카테고리의 다른 글
[파일]아이디(ID) 리스트 (0) | 2023.10.20 |
---|---|
[파일] 항공기 무선 통신, B747 Hold position, Due to Traffic (0) | 2023.10.14 |
[파일] 생존 신호 모스 부호, 이진화 (0) | 2023.10.06 |
[파일]ROT13, 10대의 암호 (1) | 2023.09.08 |
폴리비오스(Πολύβιος) 암호, 12513414113422 (0) | 2023.08.30 |