기업들이 자사의 내부 자료를 효율적으로 활용하기 위해 RAG (Retrieval-Augmented Generation) 시스템 최적화를 전략적 우선순위로 삼고 있는 가운데, LightOn은 복잡하고 전문화된 환경에서 정보 검색 관행을 재정의하기 위해 설계된 지연 상호작용 다중 벡터 모델인 GTE-ModernColBERT를 공개했습니다.
오늘날 단일 벡터 모델은 구현의 용이성과 일반적인 작업에서의 효율성 덕분에 정보 검색 파이프라인을 지배하고 있습니다. 그러나 이 접근 방식은 긴 시퀀스, 기술적 어휘 또는 모호한 표현과 같은 복잡한 콘텐츠에 직면했을 때 한계에 도달합니다. 이는 종종 일반화 능력을 벗어납니다.
바로 이 지점에서 GTE-ModernColBERT는 주요 혁신을 도입합니다. 지연 상호작용 아키텍처는 토큰화된 표현의 세밀한 세분화를 유지할 수 있게 해줍니다. 문서를 하나의 벡터로 압축하는 대신, 세부적인 벡터 분포를 유지하여 쿼리와 문서의 관련 있는 세그먼트 간의 보다 정확한 매칭을 보장합니다. 이 접근 방식은 특히 전문적, 법률적, 과학적 및 규제 문서를 다루는 조직에 효과적입니다.
GTE-ModernColBERT는 LightOn이 작년에 공개한 유명한 BERT (Bidirectional Encoder Representations from Transformers)의 최적화 버전인 ModernBERT를 기반으로 합니다. 유럽 기업의 데이터 관리 및 규제 준수 요건을 충족하도록 설계되었으며, 최대 8192개의 토큰을 처리하면서도 지연을 줄이고 비용을 더 잘 관리할 수 있습니다.
또한 LightOn이 개발한 오픈 소스 라이브러리인 PyLate에 기반하여, ColBERT 모델의 훈련을 최적화하고 정보 검색 파이프라인에 간단히 통합할 수 있습니다. 최소한의 접근 방식은 연구자와 엔지니어가 80줄의 코드만으로 빠르게 재현성을 얻을 수 있도록 도와줍니다.

성능

성능 측면에서 GTE-ModernColBERT는 분야의 가장 엄격한 기준 중 하나인 BEIR 벤치마크에서 ColBERT-small을 능가한 첫 번째 모델입니다. 이 벤치마크는 생의학 검색, 오픈 도메인 질문-응답, 논증 분석, 커뮤니티 포럼 및 과학 지식 기반과 같은 다양한 용도를 다루는 18개의 이질적인 데이터 세트를 평가합니다. ColBERT-small의 53.79점에 비해 평균 54.89점을 기록함으로써, GTE-ModernColBERT는 혼합되고 구조화되지 않은 문서 환경에서 주요 장점인 도메인 간 일반화 능력을 제공합니다.
QDrant, LanceDB, Weaviate 및 Vespa와 같은 주요 벡터 데이터베이스와의 최적화된 호환성을 통해, 법률 분석, 기술 문서화, 고객 지원 또는 과학 연구와 같은 응용 프로그램을 위한 강력한 RAG 시스템 구현을 용이하게 합니다.

Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale

더 잘 이해하기