Vấn đề: kể cả AI "xịn" vẫn bịa
17%Lexis+ AI bịa trích dẫn (nghiên cứu Stanford)
34%Westlaw AI-Assisted bịa
58-80%ChatGPT/chatbot thường trên câu hỏi luật
Vụ Mata v. Avianca (2023): luật sư Mỹ bị phạt vì nộp bản án do ChatGPT bịa ra — và khi được hỏi kiểm lại, ChatGPT tự xác nhận án bịa của mình là thật. Bài học: không bao giờ tin AI nếu không verify được nguồn gốc. Hơn 300 toà ở Mỹ giờ bắt luật sư tự kiểm mọi trích dẫn AI.
Giải pháp: graph biến đảm bảo thành CẤU TRÚC
Mỗi điều luật là một nút có văn bản chính xác. Nên mình bắt được 4 thứ một cách tất định (RAG thường không làm được):
› kiem_tra_trich_dan(điều, "câu trích")
verbatim: true → "NGUYÊN VĂN khớp — được dùng"
verbatim: false → "KHÔNG khớp — KHÔNG được dùng câu trích này"
citation: số hiệu · Điều · link
hiệu lực: 🟢 còn / 🔴 hết (xét theo ngày)
Câu trích phải là chuỗi con chính xác trong văn bản của nút — sai một chữ là bị từ chối. Quote bịa không thể lọt.
Một trích dẫn đáng tin phải đủ 7 điều
- Pinpoint — tới đúng Điều/Khoản/Điểm, không chỉ số hiệu văn bản
- Quote nguyên văn — đúng từng chữ trong nguồn
- Đúng ngữ cảnh — câu trích thật sự chống đỡ khẳng định
- Link 1-click — bấm là tới đúng điều ở web mình
- Còn hiệu lực — cờ 🟢🟡🔴 theo ngày liên quan (quote đúng từ điều đã bãi = bẫy)
- Nguồn gốc rõ — AI đề xuất (chưa duyệt) vs đã được cộng đồng duyệt
- Không có thì nói không — thiếu dữ liệu → "không tìm thấy", tuyệt đối không bịa lấp
🛡️ Đây là cửa thắng: đối thủ gắn AI lên kho tài liệu rồi vẫn bịa 1/6–1/3. Mình xây nền graph mà mọi khẳng định trỏ về một nút có văn bản chính xác + trạng thái hiệu lực → "quote nguyên văn, đúng điều, có link, còn hiệu lực" là tính chất của hệ thống, không phải may rủi của model. Trong thị trường sợ bị phạt, đó là lời hứa phòng thủ nhất với luật sư.