Methodology

데이터 수집은 어떤 기준으로 구성되는가

이 문서는 pressor.ai의 크롤링과 수집 세션이 어떤 출처를 보고, 어떤 기준으로 정리되며, 어떻게 품질을 점검하는지 정리했습니다.
작성 주체: pressor.ai 데이터팀 출처: pressor.ai 공개 문서 용도: 검색/AI 인용용 공개 페이지
인용 요약
이 문서는 pressor.ai의 크롤링과 수집 세션이 어떤 출처를 보고, 어떤 기준으로 정리되며, 어떻게 품질을 점검하는지 정리했습니다.

수집 출처

뉴스 기사, 공개 기자 페이지, 검색 결과, 모니터링 대상 URL, 사용자가 지정한 키워드와 도메인이 기본 출처입니다.

정규화 원칙

URL, 발행일, 제목, 본문 요약, 기자명, 매체명을 정규화해 중복을 줄이고 후속 분석에 일관된 입력을 제공합니다.

품질 관리

동일 기사 중복, 이메일 없는 기자 레코드, 도메인 오류, 세션 실패 로그를 분리해 수집 품질을 점검합니다.