기업들이 자사의 내부 자료를 효율적으로 활용하기 위해 RAG (Retrieval-Augmented Generation) 시스템 최적화를 전략적 우선순위로 삼고 있는 가운데, LightOn은 복잡하고 전문화된 환경에서 정보 검색 관행을 재정의하기 위해 설계된 지연 상호작용 다중 벡터 모델인 GTE-ModernColBERT를 공개했습니다.
오늘날 단일 벡터 모델은 구현의 용이성과 일반적인 작업에서의 효율성 덕분에 정보 검색 파이프라인을 지배하고 있습니다. 그러나 이 접근 방식은 긴 시퀀스, 기술적 어휘 또는 모호한 표현과 같은 복잡한 콘텐츠에 직면했을 때 한계에 도달합니다. 이는 종종 일반화 능력을 벗어납니다.
바로 이 지점에서 GTE-ModernColBERT는 주요 혁신을 도입합니다. 지연 상호작용 아키텍처는 토큰화된 표현의 세밀한 세분화를 유지할 수 있게 해줍니다. 문서를 하나의 벡터로 압축하는 대신, 세부적인 벡터 분포를 유지하여 쿼리와 문서의 관련 있는 세그먼트 간의 보다 정확한 매칭을 보장합니다. 이 접근 방식은 특히 전문적, 법률적, 과학적 및 규제 문서를 다루는 조직에 효과적입니다.
GTE-ModernColBERT는 LightOn이 작년에 공개한 유명한 BERT (Bidirectional Encoder Representations from Transformers)의 최적화 버전인 ModernBERT를 기반으로 합니다. 유럽 기업의 데이터 관리 및 규제 준수 요건을 충족하도록 설계되었으며, 최대 8192개의 토큰을 처리하면서도 지연을 줄이고 비용을 더 잘 관리할 수 있습니다.
또한 LightOn이 개발한 오픈 소스 라이브러리인 PyLate에 기반하여, ColBERT 모델의 훈련을 최적화하고 정보 검색 파이프라인에 간단히 통합할 수 있습니다. 최소한의 접근 방식은 연구자와 엔지니어가 80줄의 코드만으로 빠르게 재현성을 얻을 수 있도록 도와줍니다.
성능
성능 측면에서 GTE-ModernColBERT는 분야의 가장 엄격한 기준 중 하나인 BEIR 벤치마크에서 ColBERT-small을 능가한 첫 번째 모델입니다. 이 벤치마크는 생의학 검색, 오픈 도메인 질문-응답, 논증 분석, 커뮤니티 포럼 및 과학 지식 기반과 같은 다양한 용도를 다루는 18개의 이질적인 데이터 세트를 평가합니다. ColBERT-small의 53.79점에 비해 평균 54.89점을 기록함으로써, GTE-ModernColBERT는 혼합되고 구조화되지 않은 문서 환경에서 주요 장점인 도메인 간 일반화 능력을 제공합니다.
QDrant, LanceDB, Weaviate 및 Vespa와 같은 주요 벡터 데이터베이스와의 최적화된 호환성을 통해, 법률 분석, 기술 문서화, 고객 지원 또는 과학 연구와 같은 응용 프로그램을 위한 강력한 RAG 시스템 구현을 용이하게 합니다.
Hugging Face에서 GTE-ModernColBERT를 시도해보세요
Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale