크롤링에 대한 보안 기술



• 크롤링은 웹사이트에서 자동화된 방법으로 데이터를 수집하는 기술로, 이는 서버에 부담을 주어 서비스 제공자가 크롤링 차단 방법을 모색하게 만들었다.
• 연구자는 실제 서비스를 운영하지 않기 때문에, 크롤링의 어려움을 이해하기 위해 직접 크롤링을 시도하고 관련 전공자들의 설문을 통해 데이터를 수집하는 방법을 조사하였다.
• 크롤링은 웹사이트에서 데이터를 자동으로 수집하는 기술로, 검색 엔진 최적화, 데이터 분석 등에 활용되며, 이 과정에서 robots.txt 파일을 통해 웹 페이지 소유자가 데이터 수집 범위를 제한할 수 있음에도 불구하고 많은 경우 이를 무시하고 데이터를 수집하는 사례가 많다.
• 크롤링 방식에는 Google Bot과 같은 스파이더류가 있으며, 이는 웹사이트를 방문하여 반복적으로 링크를 따라가며 데이터를 수집하고, Shell-script를 사용하여 Unix 도구를 이용한 데이터 수집 방법도 있다.

북마크
공유하기
신고하기