Case Study

Evidence Collection Crawler

AI 불법 콘텐츠 판별용 학습 데이터를 위해 2개월간 약 19TB 동영상을 수집한 대용량 크롤링 파이프라인입니다.

프로젝트 개요

채증 시스템 크롤러는 특수 유형 부가통신사업자를 대상으로 AI 불법 콘텐츠 판별 학습 데이터를 수집하기 위해 구축한 대용량 크롤링 파이프라인입니다. Python과 Selenium으로 사이트별 구조, JS 렌더링 페이지, 장시간 다운로드 세션, 재시도·이어받기 흐름, MySQL 기반 수집 메타데이터를 처리했습니다.

주요 도전 과제

사이트별 구조, 스키마, 차단 정책 차이 대응
대용량 동영상 장시간 다운로드 세션 안정화
AI 학습 데이터 기준의 결손 최소화
대용량 미디어 저장소와 수집 메타데이터 분리

주요 성과

2개월간 약 19TB 동영상 데이터 수집
장기 실행 크롤러 무중단 운영
사이트별 어댑터 구조로 이질적 수집 대상 대응
MySQL 메타데이터 기반 수집 상태 추적

사용 기술

PythonSeleniumMySQLGitData Pipeline