Ragas 指標
生成器指標
- Faithfulness
- 用生成的答案去找跟檢索結果的相關度
- 如果LLM不知道答案會是空值
- 解釋: 可以看到生成答案都是根據向量庫抓出來的檢索有相關,所以其實LLM的選擇問題不大
- Answer Relevance
- 根據生成答案跟向量檢索去反推問題,並計算跟原本答案的cos相似度
- 解釋: 我們看這個指標,可以看出你的問題接不接近,或是生成的答案與問題有無相關性
- 思考點
- 我看到我的LLM Faithfulness 偏低,所以幻覺情況較嚴重,但此時Answer Relevance的表現卻很好,要怎麼確定反推的問題沒有幻覺
- Answer Correctness
- 生成答案與基本事實相關度
- 可以用來推斷語意是否與標註的一樣
- Faithfulness
檢索器指標
- context recall
- 找出檢索跟事實的相關程度,
- 去計算檢索分布於基本事實的數量 / 總數
- 我們會先把基本事實切成數個解答,然後去找檢索相關性
- 解釋 : 可以看出我們的檢索是否有找到事實
- 思考點
- 我看answer回答挺正確的,但recall卻表現不好,會不會是基本事實切分表現差(評估方法差
- 召回率本身表示泛化能力,(多少正確的被真的被辨識成正確
- context precision
- 我的K個結果,有幾個是找到的,有被檢索出來的為(true positive + false positive)
- 解釋: 我們可以設定K個要找到,可以去計算這K個找到的精準度
- context recall
e.g
要先計算K precision
我假設我找了K = 2
把每個K都算過,且K會包含較小的K
when K == 1 且 我找不到context 與 GT去算true positive (計算相關度 只會有0,1)
0 / K = 0/1 = 0
when K ==2 且 第二個可以找到contex 但包含之前所以:
(1 + 0) / K = 1/2 = 0.5`
計算完各個K precision 後,我們開始計算context precision
(k1 + k2) / 找到多少個K = (0 + 0.5) / 1
甚麼叫做無參考指標
如果生成答案字數很多,那越容易出現幻覺
context_relevancy 指標對我們沒有參考性質
因為我們抓到的context很多,但計算方式是
-> 跟答案相關的context / 全部context
Define application scenarios.
- 速度不要太慢
- 不要生成大量答案
- 因為是查詢文件,我們希望不要產生幻覺
- 需要檢索的很精確
- 問題 : PDF 轉 文字 他會轉一些沒有參考性的文字,但向量相近
e.g
‘15 \n \n(計畫名稱)○○○○○○○○計畫書 \n(內頁) \n壹、 計畫緣起 \n貳、 計畫目標 \n參、 辦理單位 \n肆、 執行期程 \n伍、 計畫項目及內容 \n陸、 經費需求 \n柒、 預期效益 \n捌、 其他事項’