Beyond BLEU: Ethical Risks of Misleading Evaluation in Domain-Specific QA with LLMs

Ayoub Nainia, Régine Vignes-Lebbe, Hajar Mousannif, Jihad Zahir

First Workshop on Comparative Performance Evaluation: From Rules to Language Models associated with RANLP 2025

2025-09-01

Varna, Bulgaria

MOUSANNIF Hajar