Giá trị ngoại biên là gì năm 2024

Điểm ngoại lệ hay còn được gọi là điểm dị biệt (outliers) là một quan sát nằm cách xa bất thường so với các giá trị khác trong tập dữ liệu. Các yếu tố ngoại lai có thể là vấn đề vì chúng có thể ảnh hưởng đến kết quả phân tích.

1. Có nên loại bỏ điểm ngoại lệ?

Các điểm dị biệt có thể làm méo mó tính chuẩn của dữ liệu, một giả định rất quan trọng trong nhiều bài kiểm tra thống kê. Do vậy, chúng có nên được kiểm tra ảnh hưởng trong tập dữ liệu. Nghiên cứu khoa học là để khám phá thế giới, nếu điểm dị biệt thực sự phản ánh thực tế của thế giới, của người được hỏi trong điều tra thì phải chăng loại bỏ điểm dị biệt có thể khiến dữ liệu mất đi tính thực tế. Đầu tiên, chúng ta cần đảm bảo rằng giá trị ngoại lệ không phải là kết quả của lỗi nhập dữ liệu. Nếu chúng ta quyết định loại bỏ một vài điểm dị biệt để giảm ảnh hưởng của chúng, sau đó bạn kiểm tra lại dữ liệu, bạn có chắc đã loại bỏ hết chúng chưa. Điều này đôi khi làm xuất hiện những điểm dị biệt mới vì chúng bị che bởi các điểm dị biệt cũ hoặc sau khi loại bỏ những điểm dị biệt cũ thì tập dữ liệu sẽ tồn tại những điểm cực trị theo tiêu chuẩn dị biệt. Quá trình này lặp lại nếu chúng ta tiếp tục loại bỏ những điểm dị biệt mới. Cuối cùng, như một sự tóm tại, đó là những lí do chúng tôi khuyên không nên loại bỏ điểm dị biệt. Chúng ta nên kiểm tra để xác nhận xem số điểm dị biệt có đáng kể không, nếu chúng thực sự đáng kể thì một số bài kiểm tra thống kê có thể không nên được sử dụng tiếp theo, chẳng hạn như phân tích hồi quy tuyến tính.

Một cách để xác định xem có xuất hiện các giá trị ngoại lệ hay không là tạo một boxplot cho tập dữ liệu. Boxplot là một biểu đồ hiển thị các tứ phân vị, các giá trị ngoại lệ, và điểm số tối thiểu và tối đa cho biến. Vậy tứ phân vị là gì? Và làm thế nào để có được chúng? Và các giá trị ngoại lai và giá trị cực trị tiềm năng được xác định như thế nào?

2. Cách kiểm tra giá trị ngoại lệ trong SPSS

Click Analyze > Descriptive Statistics > Explore…

Giá trị ngoại biên là gì năm 2024

Trong hộp thoại Explore, chúng ta chuyển biến cần kiểm tra‘ontap’vào ô Dependent List (lưu ý rằng điểm dị biệt không bao gồm các biến dạng chuỗi). Nhấp vào Statistics, chọn Descriptives với khoảng tin cậy 95%, chọn Outliers, và chọn Percentiles để mô tả tứ phân vị.

Giá trị ngoại biên là gì năm 2024

Bấm Plots, bỏ chọn mục Stem-and-leaf. Kết thúc mỗi nút thì nhấp Continue, sau đó nhấp OK để chạy kết quả.

Giá trị ngoại biên là gì năm 2024

Đọc kết quả:

Giá trị ngoại biên là gì năm 2024

Giá trị quan trong nhất của Bảng Descriptives biểu lộ giá trị “5% Trimmed Mean” cho biết giá trị trung bình sau khi loại bỏ 5% giá trị cao nhất và giá trị thấp nhất của biến. Bằng cách so sánh chỉ số này (5% Trimmed Mean) với giá trị Mean, chúng ta có thể xác đinh xem mức ảnh hưởng của các giá trị dị biệt đến biến.

SPSS coi bất kỳ giá trị dữ liệu nào là giá trị ngoại lệ nếu nó nằm ngoài các phạm vi sau: từ “Phân vị thứ ba + 1.5 * phạm vi liên phân vị” đến “Phân vị thứ nhất – 1.5 * phạm vi liên phân vị”. Chúng ta có thể tính toán phạm vi liên phân vị (interquartile range) bằng cách lấy sự khác biệt giữa phân vị thứ 75 và thứ 25 trong hàng có nhãn Tukey’s Hinges trong đầu ra:

Giá trị ngoại biên là gì năm 2024

Đối với tập dữ liệu này, phạm vi liên phân vị là 7.5 – 5 = 2.5. Do đó, bất kỳ giá trị nào nằm ngoài các phạm vi sau sẽ được coi là ngoại lệ: từ “7.5 + 1.5 * 2.5 = 11.25” đến “5 – 1.5 * 2.5 = 1.25”. Như vậy, bất kì số giờ ôn tập nào nhỏ hơn 1.25 giờ hoặc lớn hơn 11.25 giờ sẽ được cọi là ngoại lệ.

Trong Boxplot xuất hiện, nếu không có vòng tròn (○) hoặc dấu hoa thị (*) ở cả hai đầu của Boxplot, đây là dấu hiệu cho thấy không có ngoại lệ nào.

Giá trị ngoại biên là gì năm 2024

Vòng tròn (○) là một dấu hiệu cho thấy một ngoại lệ có trong dữ liệu xuất hiện. Trong ví dụ, có 1 giá trị ngoại lên, và số 9 cho biết quan sát trong tập dữ liệu là ngoại lệ.

SPSS cũng coi bất kỳ giá trị dữ liệu nào là giá trị ngoại lệ cực trị nếu nó nằm ngoài các phạm vi sau: từ “Phân vị thứ ba + 3 * phạm vi liên phân vị” đến “Phân vị thứ nhất – 3 * phạm vi liên phân vị”

Do đó, bất kỳ giá trị nào nằm ngoài các phạm vi sau sẽ được coi là giá trị ngoại lệ cực kỳ trong ví dụ này: từ “7.5 + 3 * 2.5 = 15” đến “5 – 3 * 2.5 = -2.5”. Rõ ràng, số giờ ôn tập không thể âm, do vậy giá trị ‘-2.5 giờ’ là không thực tế, nên chúng ta chỉ quan tâm đến giá trị cao. Trong ví dụ, nếu số giờ ôn tập lớn hơn 15 giờ sẽ được coi là một ngoại lệ cực trị. Trong ví dụ trên, không có giá trị ngoại lệ cực trị xuất hiện. Nếu có, thì dấu hoa thị (*) là dấu hiệu cho thấy dữ liệu có giá trị ngoại lệ cực trị.

Tóm lại, trong tập dữ liệu nêu trên, chỉ xuất hiện 1 giá trị ngoại lệ. Chúng tôi cho rằng không nên loại bỏ chúng. Kiểm tra các điểm ngoại lệ là để lựa chọn các bài kiểm tra thống kê phù hợp.