返回作品集
AI & 機器學習精選專案

企業 RAG 知識庫系統

為金融科技公司建置的 RAG 檢索增強生成系統,整合內部知識庫,讓員工透過自然語言快速查詢公司規章、產品資訊與技術文件

使用技術

LangChainOpenAI GPT-4PineconeFastAPIReactPostgreSQLDockerKubernetes

專案詳情

客戶金融科技公司
開發時程6個月

專案概述

為金融科技公司打造的企業級 RAG(Retrieval-Augmented Generation)知識庫系統。整合公司內部超過 50,000 份 技術文件、產品手冊、法規規範,讓員工透過自然語言對話即可快速獲取精準資訊。

系統上線後,員工平均查詢時間從 15 分鐘 縮短至 30 秒,客服回覆準確率提升 40%

核心技術

1. 智慧文件處理

系統支援多種文件格式(PDF、Word、Excel、PowerPoint),自動進行:

  • 文件內容萃取與清洗
  • 智慧分段與語意切割
  • 向量嵌入生成
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings

def process_document(file_path: str):
    # 載入文件
    loader = get_loader_for_file(file_path)
    documents = loader.load()

    # 智慧分段
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        separators=["\n\n", "\n", "。", ",", " "]
    )
    chunks = splitter.split_documents(documents)

    # 生成向量嵌入
    embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
    vectors = embeddings.embed_documents([c.page_content for c in chunks])

    return chunks, vectors

2. 混合搜尋架構

結合向量搜尋與關鍵字搜尋,提升檢索準確率:

  • 向量搜尋:使用 Pinecone 進行語意相似度匹配
  • 關鍵字搜尋:使用 Elasticsearch 進行精確詞彙匹配
  • 重排序:使用 Cross-Encoder 對結果重新排序

3. 引用來源追蹤

每個回答都附帶原始文件來源,確保資訊可追溯、可驗證。

技術架構

┌─────────────────────────────────────────────────────────┐
│                    前端介面 (React)                      │
├─────────────────────────────────────────────────────────┤
│                    API Gateway                          │
├─────────────────────────────────────────────────────────┤
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐     │
│  │ 文件處理服務 │  │  RAG 服務   │  │  管理後台   │     │
│  └─────────────┘  └─────────────┘  └─────────────┘     │
├─────────────────────────────────────────────────────────┤
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐     │
│  │  Pinecone   │  │ PostgreSQL  │  │    Redis    │     │
│  │  向量資料庫  │  │  關聯資料庫  │  │    快取     │     │
│  └─────────────┘  └─────────────┘  └─────────────┘     │
└─────────────────────────────────────────────────────────┘

專案成果

  • 查詢效率:平均回應時間 < 3 秒
  • 準確率:回答準確率 92%
  • 使用量:日均查詢 5,000+ 次
  • 滿意度:員工滿意度 4.6/5

客戶評價

「這套系統大幅提升了我們團隊的工作效率,新人入職訓練時間縮短了一半。」 — IT 部門主管

探索更多專案

查看更多 AI & 機器學習 領域的技術專案