Cách vẽ Box plot

Biểu đồ hộp (tiếng Anh: Box Plot hay Box and Whisker plot) là biểu đồ diễn tả 5 vị trí phân bố của dữ liệu, đó là: giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max).

Cách vẽ Box plot

Biểu đồ hộp (Box Plot)

Định nghĩa

Biểu đồ hộp trong tiếng Anh là Box Plot hay Box and Whisker plot.

Biểu đồ hộp do John Tukey sáng tạo ra năm 1977.

Biểu đồ hộp (Box plot) hay còn gọi là biểu đồ hộp và râu (Box and whisker plot) là biểu đồ diễn tả 5 vị trí phân bố của dữ liệu, đó là: giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max).

Đặc trưng của biểu đồ hộp

- Biểu đồ hộp giúp biểu diễn các đại lượng quan trọng của dãy số như giá trị nhỏ nhất (min), giá trị lớn nhất (max), tứ phân vị (quartile), khoảng biến thiên tứ phân vị (Interquartile Range) một cách trực quan, dễ hiểu.

- Trên biểu đồ hộp, ngoài các đại lượng số trung bình, trung vị, còn thể hiện một số thông số sau:

(1) Số phân tử hay còn gọi là tứ phân vị (Quartiles): Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Số phân tử có 3 giá trị, đó là số phân tử thứ nhất (Q1), thứ nhì (Q2) và thứ ba (Q3). Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.

Tứ phân vị được xác định như sau:

+ Sắp xếp các số theo thứ tự tăng dần

+ Cắt dãy số thành 4 phần bằng nhau

+ Tứ phân vị là các giá trị tại vị trí cắt

(2) Khoảng biến thiên số phân tử (Interquartile Range - IQR) IQR được xác định như sau:

Ví dụ

Xét một ví dụ về việc sử dụng biểu đồ hộp:

Dưới đây mô tả sử dụng biểu đồ hộp để phân tích, nhận biết vấn đề.

Ví dụ, với số liệu thu thập được về tỉ lệ làm lại (Rework Ratio) trong quá trình sản xuất, (có xmin = 0,0; Q1 = 14,9; x = 19,0; x = 15,8; Q3 = 20,6; xmax =23,2) ta có biểu đồ hộp với hình dáng biểu đồ như sau:

Nguồn: 6 Sigma - Nội dung cơ bản và hướng dẫn áp dụng, NXB Hồng Đức

Trung bình tỉ lệ làm lại là 15,8%, trung vị là 19%.

Dữ liệu có xu hướng nghiêng nhiều về phía trên giá trị trung bình.

Khoảng số phân tử = Q3 - Q1 = 20,6 - 14,9 = 5,7

Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 23,2 - 0 = 23,2.

Nhìn chung, tỉ lệ làm lại cao và quá trình có sự dao động lớn, không ổn định, kiểm soát chất lượng kém. Tuy nhiên, biểu đồ hộp giúp nhìn trực quan hơn khi so sánh 3 giai đoạn hoặc khu vực khác nhau như hình dưới đây:

Nguồn: 6 Sigma - Nội dung cơ bản và hướng dẫn áp dụng, NXB Hồng Đức

Nhận xét:

Với ba lần thu thập dữ liệu về tỉ lệ làm lại vào thời điểm tháng 11/2011, tháng 3/2012 và tháng 6/2012, dữ liệu vào thời điểm tháng 11/2011 cho thấy quá trình kiểm soát lỗi kém vì xu hướng tập trung của dữ liệu (trung vị) ở mức cao, độ dao động lớn.

Kiểm soát chất lượng vào thời điểm tháng 3/2012 là tốt nhất vì dữ liệu về tỉ lệ làm lại tập trung ở mức thấp, dao động ở phạm vi hẹp.

(Tài liệu tham khảo: 6 Sigma - Nội dung cơ bản và hướng dẫn áp dụng, NXB Hồng Đức;Box plotreview, Khan Academy)

Các Box Plots còn được biết đến với tên gọi là box và whisker plots được dùng để hiển thị sự phân phối của các giá trị dọc theo trục. Bạn có thể định hình các đường (lines), còn được gọi là whiskers, để hiển thị tất cả các điểm trong phạm vi 1.5 lần liên vùng. Nói cách khác là tất cả các điểm trong phạm vi 1.5 lần chiều rộng như ảnh minh họa bên dưới.

Biểu đồ Box Plot còn được gọi là box-and-whisker plots

Hướng dẫn tạo Box Plot trong Tableau Desktop

Để tạo một box plot hiển thị tình trạng giảm giá theo khu vực và phân khúc khách hàng (discounts by region and customer segment), hãy thực hiện theo các bước sau:

  • Bước 1:Mở Tableau Desktop và kết nối đến nguồn dữ liệu mẫu Sample – Superstore.

  • Bước 2: Kéo dimension Segment vào ngăn Columns.
  • Bước 3: Kéo measure Discount vào ngăn Rows.

Tableau sẽ tạo một trục dọc và hiển thị một biểu đồ cột là loại biểu đồ mặc định khi có một dimension trên ngăn Columns và một measure trên ngăn Rows.

  • Bước 4: Kéo dimension Region và ngăn Columns và thả nó ở bên phải của trường Segment trước đó.

Bây giờ, chúng ta đã thu được một hệ thống phân cấp với 2 cấp độ của dimensions từ trái sang phải trong view, với các vùng hay regions (được liệt kê dọc phía dưới) được lồng trong các phân đoạn hay segments (được liệt kê trên cùng).

  • Bước 5: Nhấp vào Show Me trong thanh công cụ, sau đó chọn loại biểu đồ box-and-whisker plot chart.

Tableau sẽ hiển thị một box plot như ảnh minh họa:

Lưu ý rằng chỉ có một vài đánh dấu (marks) trong mỗi box plot. Ngoài ra, Tableau đã chỉ định lại vùng (Region) từ ngăn Columns sang thẻ Marks. Khi bạn thay đổi loại biểu đồ thành box plot, Tableau xác định những gì các marks riêng biệt trong plot nên đại diện. Nó xác định rằng marks nên đại diện cho Region và chúng ta sẽ thay đổi điều đó.

  • Bước 6: Kéo Region từ thẻ Marks trở lại Columns và đặt nó ngay bên phải của Segment.

Kết quả trên biểu đồ thu được các đường ngang là các ô vuông dẹt, điều này xảy ra khi các box plots dựa trên một mark duy nhất.

Box plots được dự định để hiển thị sự phân phối của dữ liệu và điều đó có thể khó khăn khi dữ liệu được tổng hợp, như trong chế độ xem hiện tại.

  • Bước 7: Để phân chia dữ liệu, chọn Analysis > Aggregate Measures.

Lệnh này dùng để bật hoặc tắt tổng hợp và bởi vì dữ liệu thì được tổng hợp mặc định trong Tableau. Lần đầu tiên bạn chọn lệnh này, nó sẽ phân chia lại dữ liệu.

Bây giờ, thay vì một mark duy nhất cho mỗi cột trong view, bạn sẽ nhìn thấy một dãy các marks, một cho mỗi hàng trong nguồn dữ liệu của bạn.

View sẽ hiển thị thông tin mà bạn muốn xem, các bước tiếp theo sẽ giúp cho view trở nên dễ xem và hấp dẫn hơn.

  • Bước 8: Nhấp vào nút Swap để hoán đổi giữa các trục:

Box plots của bạn lúc này sẽ chuyển từ trái sang phải:

  • Bước 9: Nhấp chuột phải vào trục dưới và chọn Edit Reference Line.
  • Bước 10: Trong hộp thoại Edit Reference Line, Band hoặc Box, trong danh sách Fill thả xuống, chọn một bảng màu mà bạn muốn sử dụng.

Sau khi hoàn tất các bước trên, chúng ta đã thu được một Box Plot hoàn chỉnh.

Bạn có thể thấy được rằng việc giảm giá (discount) là như nhau ở tất cả các phân khúc (segment) thuộc phương Tây (West). Bên cạnh đó, phạm vi liên vùng cho giảm giá là lớn nhất ở khu vực trung tâm cho phân khúc người tiêu dùng và doanh nghiệp.

Trong quá trình thực hiện nếu gặp lỗi hãy xem lại và thực hiện theo thứ tự các bước trên.

Box Plot tuy không phải là một loại biểu đồ được sử dụng phổ biến như các loại biểu đồ tròn, biểu đồ thanh. Tuy nhiên, trong vai trò một nhà phân tích dữ liệu hoặc một người làm công việc trực quan dữ liệu, bạn cần vận dụng một cách linh hoạt để kể câu chuyện dữ liệu sinh động nhất có thể. Hy vọng những thông tin được BAC chia sẻ trên đây sẽ hữu ích với bạn đọc, đừng quên đón đọc các bài viết mới tại website bacs.vn.

Bạn cũng có thể tham khảo thêm bài viết: 

  • Hướng dẫn cách vẽ biểu đồ tròn trong Tableau Desktop
  • Hướng dẫn cách vẽ biểu đồ cột trong Tableau Desktop
  • Hướng dẫn cách vẽ biểu đồ kết hợp trong Tableau Desktop
  • Hướng dẫn cách tạo treemap trong Tableau Desktop

Nguồn tham khảo: help.tableau.com

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.

Tham khảo chương trình đào tạo: 

Click để đọc tiếp

  • Cách vẽ Box plot

    9 Phần mềm khảo sát tốt nhất dành cho doanh nghiệp nhỏ

    Phần mềm khảo sát giúp bạn thu thập dữ liệu từ các nhóm mục tiêu. Qua đó, bạn sẽ có được những dữ liệu phân tích chính xác để nghiên cứu thị trường, khảo sát mức độ hài lòng của khách hàng và nhiều ứng dụng thực tế khác.

  • Cách vẽ Box plot

    8 công cụ trực quan dữ liệu lớn hàng đầu hiện nay

    Dữ liệu lớn có thể xem là một khó khăn với các công cụ xử lý. Tuy nhiên, trong thời đại hiện nay dữ liệu lớn đã không còn xa lạ với các doanh nghiệp. Đây là danh sách 8 công cụ trực quan dữ liệu lớn tốt nhất mà bạn nên cân nhắc sử dụng.

  • Cách vẽ Box plot

    Sự khác nhau giữa MSBI và Power BI

    Power BI và MSBI là những công cụ Business Intelligence được xếp hàng đầu về chất lượng hiện nay. Chúng giúp các doanh nghiệp đưa ra những quyết định chính xác trong thời gian ngắn thông qua việc phân tích. Nếu bạn còn đang phân vân giữa hai công cụ này thì đây là bài viết dành cho bạn.

  • Cách vẽ Box plot

    Hướng dẫn cách học Power BI cho người mới bắt đầu

    Power BI là một trong những công cụ dẫn đầu trong lĩnh vực phân tích và trực quan dữ liệu. Nếu bạn là một người mới thì điều đầu tiên cần biết là những thông tin cơ bản về công cụ này, đó cũng chính là chủ đề của bài viết hôm nay.