Ragas 指標

2024-04-24

Ragas 指標

生成器指標
- Faithfulness
  - 用生成的答案去找跟檢索結果的相關度
  - 如果LLM不知道答案會是空值
  - 解釋: 可以看到生成答案都是根據向量庫抓出來的檢索有相關，所以其實LLM的選擇問題不大
- Answer Relevance
  - 根據生成答案跟向量檢索去反推問題，並計算跟原本答案的cos相似度
  - 解釋: 我們看這個指標，可以看出你的問題接不接近，或是生成的答案與問題有無相關性
  - 思考點
    - 我看到我的LLM Faithfulness 偏低，所以幻覺情況較嚴重，但此時Answer Relevance的表現卻很好，要怎麼確定反推的問題沒有幻覺
- Answer Correctness
  - 生成答案與基本事實相關度
  - 可以用來推斷語意是否與標註的一樣
檢索器指標
- context recall
  - 找出檢索跟事實的相關程度，
  - 去計算檢索分布於基本事實的數量 / 總數
  - 我們會先把基本事實切成數個解答，然後去找檢索相關性
  - 解釋 : 可以看出我們的檢索是否有找到事實
  - 思考點
    - 我看answer回答挺正確的，但recall卻表現不好，會不會是基本事實切分表現差(評估方法差
    - 召回率本身表示泛化能力，(多少正確的被真的被辨識成正確
- context precision
  - 我的K個結果，有幾個是找到的，有被檢索出來的為(true positive + false positive)
  - 解釋: 我們可以設定K個要找到，可以去計算這K個找到的精準度

e.g
要先計算K precision
我假設我找了K = 2
把每個K都算過，且K會包含較小的K

when K == 1  且 我找不到context 與 GT去算true positive (計算相關度 只會有0,1)
0 / K  = 0/1 = 0 

when K ==2 且 第二個可以找到contex 但包含之前所以:
(1 + 0) / K = 1/2 = 0.5`

計算完各個K precision 後，我們開始計算context precision 

 (k1 + k2) / 找到多少個K = (0 + 0.5) / 1

甚麼叫做無參考指標
如果生成答案字數很多，那越容易出現幻覺
context_relevancy 指標對我們沒有參考性質
因為我們抓到的context很多，但計算方式是
-> 跟答案相關的context / 全部context

Define application scenarios.

速度不要太慢
不要生成大量答案
因為是查詢文件，我們希望不要產生幻覺
需要檢索的很精確
- 問題 : PDF 轉文字他會轉一些沒有參考性的文字，但向量相近

e.g

‘15 \n \n（計畫名稱）○○○○○○○○計畫書 \n（內頁） \n壹、計畫緣起 \n貳、計畫目標 \n參、辦理單位 \n肆、執行期程 \n伍、計畫項目及內容 \n陸、經費需求 \n柒、預期效益 \n捌、其他事項’