프로젝트 개요
채증 시스템 크롤러는 특수 유형 부가통신사업자를 대상으로 AI 불법 콘텐츠 판별 학습 데이터를 수집하기 위해 구축한 대용량 크롤링 파이프라인입니다. Python과 Selenium으로 사이트별 구조, JS 렌더링 페이지, 장시간 다운로드 세션, 재시도·이어받기 흐름, MySQL 기반 수집 메타데이터를 처리했습니다.
Case Study
AI 불법 콘텐츠 판별용 학습 데이터를 위해 2개월간 약 19TB 동영상을 수집한 대용량 크롤링 파이프라인입니다.
채증 시스템 크롤러는 특수 유형 부가통신사업자를 대상으로 AI 불법 콘텐츠 판별 학습 데이터를 수집하기 위해 구축한 대용량 크롤링 파이프라인입니다. Python과 Selenium으로 사이트별 구조, JS 렌더링 페이지, 장시간 다운로드 세션, 재시도·이어받기 흐름, MySQL 기반 수집 메타데이터를 처리했습니다.