Kappa statistic đánh giá mô hình năm 2024

Dr. Dale E. Parson

Weka's implementation derives Kappa from the confusion matrix. It gives slightly different result than a trivial application of the formula below in some cases.

Here is a Python implementation of the same algorithm that gives same result as Weka. See my analysis of this Kappa algorithm^. Here is a paper summarizing Kappa, including this code^^^in Table 1.

From https://stats.stackexchange.com/questions/82162/cohens-kappa-in-plain-english:

�The Kappa statistic (or value) is a metric that compares an Observed Accuracy with an Expected Accuracy (random chance). The kappa statistic is used not only to evaluate a single classifier, but also to evaluate classifiers amongst themselves. In addition, it takes into account random chance (agreement with a random classifier), which generally means it is less misleading than simply using accuracy as a metric (an Observed Accuracy of 80% is a lot less impressive with an Expected Accuracy of 75% versus an Expected Accuracy of 50%). Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy) Not only can this kappa statistic shed light into how the classifier itself performed, the kappa statistic for one model is directly comparable to the kappa statistic for any other model used for the same classification task.� Parson�s example: If you had a 6-sided die that had the value 1 on 5 sides, and 0 on the other, the random-chance expected accuracy of rolling a 1 would be 5/6 = 83.3%. Since the ZeroR classifier simply picks the most statistically likely class without respect to the other (non-target) attributes, it would pick an expected die value of 1 in this case, giving a random observed accuracy of 83.3%, and a Kappa of (.833 - .833) / (1 - .833) = 0. Also from this linked site: �Landis and Koch considers 0-0.20 as slight, 0.21-0.40 as fair, 0.41-0.60 as moderate, 0.61-0.80 as substantial, and 0.81-1 as almost perfect. Fleiss considers kappas > 0.75 as excellent, 0.40-0.75 as fair to good, and < 0.40 as poor. It is important to note that both scales are somewhat arbitrary. At least two further considerations should be taken into account when interpreting the kappa statistic. First, the kappa statistic should always be compared with an accompanied confusion matrix if possible to obtain the most accurate interpretation. Second, acceptable kappa statistic values vary on the context. For instance, in many inter-rater reliability studies with easily observable behaviors, kappa statistic values below 0.70 might be considered low. However, in studies using machine learning to explore unobservable phenomena like cognitive states such as day dreaming, kappa statistic values above 0.40 might be considered exceptional.�

Trong phần 1 tôi đã giới thiệu phướng pháp Gage R&R định lượng, nghĩa là các số liệu có tính định lượng con số rõ ràng, tuy nhiên trong một số trường hợp thực tế phép đo mang tính định tính là đạt hay không đạt (ví dụ máy đo tự phán định, kiểm tra cảm quan, …) thì làm thế nào để đánh giá quá trình đo ấy đã đảm bảo đủ độ tin cậy cho kết quả đúng. Để giúp các bạn làm điều này, tôi xin giới thiệu bài – Phân tích hệ thống đo lường thuộc tính.

  1. Điều kiện tiến hành thực nghiệm
  2. Quá trình sản xuất nằm trong sự kiểm soát thống kê và có các chỉ số năng lực thực hiện Pp = Ppk = 0,5 là không thể chấp nhận được. Bởi vì quy trình đang tạo ra sản phẩm không phù hợp, cần phải có hành động ngăn chặn để loại bỏ các bộ phận không được chấp nhận khỏi quy trình sản xuất.
    • Xây dựng hệ thống đo lường thuộc tính để xác định kết quả là đạt/ không đạt để loại trực tiếp sản phẩm không đạt.
  3. Trong trường hợp không xác định giá trị tham chiếu định lượng, sử dụng nhân viên đo có kinh nghiệm thực hiện.
  4. Thực hiện:

Bước 1: chọn mẫu đo

Không giống như Gauge R&R định lượng, Gauge R&R đo thuộc tính này không thể chỉ ra mức độ tốt hay xấu của một mẫu đo, mà chỉ cho biết mẫu đo đó được chấp nhận hay bị từ chối (tức là 2 loại: đạt và không đạt). Đối với tất cả các thiết bị đo, thiết bị đo thuộc tính này sẽ có các vùng “tiệm cận giới hạn” nơi có thể đưa ra các quyết định sai lầm. Để giải quyết các khu vực rủi ro xung quanh giới hạn đặc điểm kỹ thuật này, bạn nên chọn khoảng 25% các mẫu có giá trị bằng hoặc gần với giới hạn đặc điểm kỹ thuật dưới và 25% các bộ phận bằng hoặc gần với giới hạn thông số kỹ thuật trên. Trong một số trường hợp khó thực hiện các phần như vậy, bạn có thể quyết định sử dụng tỷ lệ phần trăm thấp hơn nhận ra rằng điều này có thể làm tăng sự biến đổi của kết quả. Nếu không thể làm cho các bộ phận gần với các giới hạn đặc điểm kỹ thuật, nhóm nên xem xét lại việc sử dụng phân loại thuộc tính cho quá trình này. Khi thích hợp cho từng đặc tính, các bộ phận phải được đo độc lập bằng một thiết bị đo có thể thay đổi được với sự thay đổi chấp nhận được. Khi đo một thuộc tính thực mà không thể đo được bằng đại lượng thay đổi, hãy sử dụng các phương tiện khác như chuyên gia để xác định trước mẫu nào là tốt hoặc bị lỗi.

Một quyết định có thể chấp nhận được đã được chỉ định ghi là số một (1) và một quyết định không thể chấp nhận được ghi nhận số không (0). Bảng cũng cho biết trong cột “Đã mã hóa” phần đó là khu vực I, khu vực II hay phần khu vực III được biểu thị bằng “-”, “x” và “+” tương ứng (dấu “–“ tương đương “0”, dấu “x” tương đương vùng giới hạn, dấu “+” tương đương “1”.

Tóm lại, bạn nhờ chuyên gia lựa chọn một lượng mẫu đủ lớn (thường ≥ 30 mẫu), gồm các phần như sản phẩm OK, sản phẩm NG, sản phẩm nằm gần giới hạn trên, và sản phẩm nằm gần giới hạn dưới (tốt nhất là sản phẩm nằm trong giới hạn trên 25%, giới hạn giới 25%, sản phẩm tốt 25 % và sản phẩm hỏng 25 %).

Sau khi chọn, bạn đánh số từng mẫu và ghi lại phân loại chuyên gia cho từng mẫu trên (như hình bên dưới).

Kappa statistic đánh giá mô hình năm 2024

Bước 2: Chọ người đo và thực hiện đo

Chọn số lượng người đo cần kiểm tra (hai hoặc nhiều hơn) và số lượng thử nghiệm (mỗi người kiểm tra thực hiện kiểm tra lập lại hai hoặc nhiều số lần cho mỗi sản phẩm).

Ghi nhận kết quả vào tờ giấy bao gồm tên mẫu kiểm tra và số lần lặp lại.

Lưu ý: các người đo không biết được kết quả đo của chuyên gia đả đảm bảo tính khách quan.

Ví dụ, chọn 3 người (A,B,C) đo 50 mẫu, thực hiện đo 3 lần (A 1,2,3, B1,2,3, C1,2,3), ta có bản sau:

Kappa statistic đánh giá mô hình năm 2024

Bước 3 tính toán:

Tính toán một số biện pháp (điểm số, thống kê), được xác định như sau:

  • Đầu tiên là tóm tắt dữ liệu quan sát được. Xem xét Bảng trên, nhóm nghiên cứu kiểm tra dữ liệu cho các cặp người đo, đếm khi họ đồng thuận và khi họ không đồng thuận cho mỗi nhóm đánh giá. Tức là, đối với các đánh giá tính đồng thuận người A và người B, có 34 lần A-1 = 1 và B-1 = 1; có 32 lần trong đó A-2 = 1 và B-2 = 1; và có 31 lần trong đó A-3 = 1 và B-3 = 1 cho tổng đồng thuận là 97. Bảng dưới đây được xây dựng để tóm tắt phân phối dữ liệu cho cặp quan sát viên A * B. Các bảng tương tự đã được chuẩn bị cho các cặp quan sát viên B * C và A * C.

Kappa statistic đánh giá mô hình năm 2024

Bước thứ hai là ước tính phân phối dữ liệu dự kiến. Xác suất để một cặp quan sát đồng thuận hoặc không đồng thuận về một quan sát hoàn toàn do ngẫu nhiên là bao nhiêu? Trong 150 lần quan sát Người quan sát A đã từ chối 50 lần và Người quan sát B từ chối 47 lần:

pA0 = 47/150 = 0,313

pB0 = 50/150 = 0,333

Vì hai người quan sát là độc lập, xác suất mà họ đồng thuận rằng bộ phận đó là mẫu không tốt tính như sau:

p (A0 ∩ B0) = pA0 x pB0 = 0,313 x 0,333 = 0,104

Số lượng kỳ vọng ​​Người đo A và Người đo B đồng thuận rằng mẫu bị lỗi được ước tính bằng cách nhân xác suất kết hợp với số lần đo:

Số lượng từ chối kỳ vọng = 150 x (pA0 x pB0) = 150 x (47/150) x (50/150) = 15,7

Nhóm thực hiện ước tính tương tự của từng cặp loại đối với từng cặp người đo ta có các bảng sau:

Kappa statistic đánh giá mô hình năm 2024

Để xác định mức độ của đồng thuận này, nhóm sử dụng kappa (Cohen’s) đo lường mức độ đồng thuận giữa các đánh giá của hai người đánh giá khi cả hai đều xếp hạng cùng một đối tượng. Giá trị 1 cho thấy sự đồng thuận hoàn hảo. Giá trị 0 cho thấy rằng đồng thuận không tốt hơn là may rủi. Kappa chỉ khả dụng cho các bảng trong đó cả hai biến sử dụng cùng giá trị danh mục và cả hai biến đều có cùng số danh mục.

Kappa là một thước đo của sự thỏa thuận giữa các bộ phận kiểm tra xem số lượng trong các ô chéo (các phần nhận được cùng một đánh giá) khác với số lượng được mong đợi một cách tình cờ.

Ta có: Kappa = (po – pe) / (1- pe)

Với: Po: tổng số tỷ lệ đồng thuận thực tế

Pe tổng số tỷ lệ đồng thuận kỳ vọng

Kappa là một thước đo hơn là một bài kiểm tra. Kích thước của nó được đánh giá bằng cách sử dụng sai số chuẩn tiệm cận để xây dựng một thống kê t. Nguyên tắc chung là các giá trị kappa lớn hơn 0,75 cho thấy sự đồng thuận từ tốt đến xuất sắc (với kappa tối đa = 1); giá trị nhỏ hơn 0,40 cho thấy sự đồng thuận kém.

Lưu ý rằng: Kappa không tính đến quy mô của sự bất đồng giữa những người đánh giá, mà chỉ xem họ có đồng thuận hay không.

Khi tính toán các biện pháp kappa cho các người đo, nhóm đã đưa ra những điều sau:

Kappa statistic đánh giá mô hình năm 2024

Tiêu chuẩn phán định như sau:

• Kappa < 0.4

• Độ đồng thuận kém

• Kappa từ 0.41 – 0.75

• Độ đồng thuận vừa phải, có thể chấp nhận

• Kappa > 0.75

• Rất đồng thuận

Phân tích này chỉ ra rằng tất cả các thẩm định viên cho thấy sự đồng thuận tốt giữa nhau.

Phân tích này là cần thiết để xác định xem có bất kỳ sự khác biệt nào giữa các thẩm định viên nhưng nó không cho chúng ta biết hệ thống đo lường sắp xếp các bộ phận tốt và xấu như thế nào. Đối với phân tích này, nhóm đã đánh giá các bộ phận bằng cách sử dụng hệ thống đo lường thay đổi và sử dụng kết quả để xác định quyết định tham chiếu.

Với thông tin mới này, Phương pháp phân tích bảng chéo khác đã được phát triển để so sánh từng người đo với quyết định người tham khảo (với chuyên gia – Reference – REF).

Kappa statistic đánh giá mô hình năm 2024

Nhóm cũng tính toán thước đo kappa để xác định sự đồng thuận của từng thẩm định viên đối với quyết định tham chiếu:

Các giá trị này có thể được hiểu là mỗi người trong số các ngươi đo đều đồng thuận tốt với tiêu chuẩn.

Tính toán hiệu quá trình của hệ thống đo lường.

Hiệu lực = số quyết định đúng / tổng số cơ hội cho một quyết định

Kappa statistic đánh giá mô hình năm 2024

Có thể tiến hành nhiều thử nghiệm giả thuyết giữa mỗi cặp người kiểm tra với giả thuyết vô hiệu:

H0: Hiệu quả của cả hai người kiểm tra (người đo) là như nhau

Vì điểm được tính toán của mỗi người đo nằm trong khoảng tin cậy của người kia, nên nhóm kết luận rằng họ không thể bác bỏ các giả thuyết vô hiệu. Điều này củng cố các kết luận từ các biện pháp kappa.

Để phân tích thêm, một trong những thành viên trong nhóm đã đưa ra bảng sau đây cung cấp các hướng dẫn cho kết quả của từng thẩm định viên: