Bài tập cây quyết định phân tích định lượng năm 2024

Xét thuộc tính Outlook, thuộc tính này nhận 3 giá trị là Sunny, Overcast, Rain. Ứng với mỗi thuộc tính, ta có:

  • SSunny: $ [2+, 3-]$ (có nghĩa là trong tập dữ liệu hiện tại (S), có 2 kết quả Yes và 3 kết quả No tại Outlook = Sunny). Tương tự:
  • SOvercast: $ [4+, 0-]$.
  • SRain: $ [3+, 2-]$.

Tiếp theo tính Information Gain (độ lợi thông tin) của thuộc tính Outlook trên tập S. Thông số này phản ánh mức độ hiệu quả của một thuộc tính trong phân lớp. Đó là sự rút giảm mong muốn của Entropy gây ra bởi sự phân hoạch các mẫu dữ liệu theo thuộc tính này. Công thức tính IG của thuộc tính A trên tập S như sau:

trong đó:

  • Value(A) là tập các giá trị có thể cho thuộc tính A.
  • Sv là tập con của S mà A nhận giá trị v.

Lấy ví dụ với thuộc tính A = Outlook, ta có Value(A) = {Sunny, Overcast, Rain}, và SSunny = $ [2+, 3-]$ như đã tính ở trên

Từ công thức, dễ dàng tính được:

Hoàn toàn tương tự, tính được Information Gain cho 3 thuộc tính còn lại:

Thuộc tính Outlook có Information Gain cao nhất, chọn nó làm nút gốc.


Bài tập cây quyết định phân tích định lượng năm 2024

Hình 1. Cây quyết định sau khi chọn nút gốc.


Xây dựng tiếp cây quyết định:

Sau khi chọn được nút gốc là Outlook, tiếp theo ta tính tiếp các nút tại mỗi thuộc tính của nút vừa chọn. Trong hình 1:

  • Nhánh bên trái cùng ứng với Outlook = Sunny, có SSunny là $ [2+, 3-]$, chưa phân lớp hoàn toàn nên vẫn phải tính toán chọn nút tại đây. Tương tự cho nhánh phải cùng.
  • Nhánh ở giữa ứng với Outlook = Overcast, tập dữ liệu tại nhánh này đã hoàn toàn phân lớp dương với 4+ và 0-. Tại đây đã có thể quyết định, khi Outlook = Overcast thì có thể đi chơi tennis.

Bây giờ ta sẽ thực hiện tính toán với nhánh trái cùng, trên tập SSunny = $ [2+, 3-]$.

Hoàn toàn tương tự như cách tìm nút gốc, ta tính Information Gain cho 3 thuộc tính còn lại là Temp, Humidity và `Outlook`0 (trên tập SSunny).

Xét thuộc tính Humidity, có:

  • SNormal: $ [2+, 0-]$ (nghĩa là tại những dữ liệu có Outlook = Overcast và `Outlook`3, có 2 dữ liệu, tất cả đều cho kết quả Yes).
  • SHigh: $ [0, 3-]$.

Từ đó:

Tương tự:

Nhận thấy thuộc tính Humidity có Information Gain cao nhất, chọn thuộc tính này làm nút cho nhánh trái cùng.


Bài tập cây quyết định phân tích định lượng năm 2024

Hình 2. Cây quyết định sau khi chọn nút cho nhánh trái cùng.


Cây quyết định hoàn chỉnh:

Làm tương tự cho nút tại nhánh phải ngoài (đến khi tất cả các nút lá của cây đều đã phân lớp), ta được cây quyết định hoàn chỉnh như sau:

Nội dung Text: Bài giảng Phân tích định lượng trong kinh doanh (Trần Tuấn Anh) - Chương 3: Cây quyết định

  1. Chương 3 Cây quyết định 3-1
  2. Nội dung 1 Hiểu cách sử dụng cây quyết định trong phân tích quyết định 2 ứng dụng thông tin dự báo trong cây quyết định 3-2
  3. Mục lục 1 Cây quyết định 2 Cây quyết định với thông tin dự báo 3 Định lý Bayes xác định các giá trị xác suất 4 Phân tích độ nhạy với thông tin dự báo 3-3
  4. 1. Cây quyết định Cây quyết định là sơ đồ gồm nhiều nút và nhánh. Có 2 loại nhánh: - Nhánh phương án - Nhánh biến cố Có 2 loại nút - Nút quyết định: nơi xem xét các phương án - Nút biến cố: nơi các biến cố sẽ diễn ra Nút biến Nhánh biến cố cố 1 Nút quyết định Nhánh phương án 3-4
  5. Cây quyết định Cây quyết định thường được dùng thay cho bảng quyết định trong trường hợp:  Có nhiều phương án và biến cố (trạng thái tự nhiên – states of nature),  Có nhiều quyết định liên tiếp nhau. 3-5
  6. Các bước áp dụng cây quyết định 1. Xác định vấn đề. 2. Vẽ cấu trúc cây quyết định. 3. Ghi các giá trị xác suất vào các biến cố. 4. Ghi các giá trị payoffs vào mỗi kết hợp giữa phương án và biến cố. 5. Tính các giá trị EMV tại các nút trong cây từ phải sang trái. 3-6
  7. Cây quyết định của Thompson Bước 1: Xác định vấn đề Công ty Thompson xem xét các phương án nhằm mở rộng qui mô sản xuất. Tình huống của công ty được thể hiện trong cây quyết định như sau: Nút biến cố TT thuận lợi Bước 2: Vẽ cây y 1 má nh à TT không thuận lợi y Nút quyết Xâ n lớ TT thuận lợi định Xây nhà máy nhỏ 2 Kh ôn gl TT không thuận lợi àm gì cả 3-7
  8. Cây quyết định của Thompson Bước 3: Ghi các giá trị xác suất vào các biến cố. Bước 4: Ghi các giá trị payoffs. TT (0.5) thuận lợi $200,000 n 1 lớ TT (0.5) yn m không thuận lợi -$180,000 Xâ TT (0.5) $100,000 Xây nm nhỏ thuận lợi 2 Kh TT (0.5) -$20,000 ôn không thuận lợi g làm gì 3-8 0
  9. Cây quyết định của Thompson Bước 5: Tính các EMVs và ra quyết định TT (0.5) thuận lợi $200,000 1 EMV TT (0.5) lớ n =$10,000 không thuận lợi -$180,000 n m Xây TT (0.5) $40,000 thuận lợi $100,000 0 Xây nm nhỏ 2 EMV TT (0.5) Kh =$40,000 không thuận lợi -$20,000 ôn g làm gì 0 3-9
  10. Thí dụ • Ông A đang cân nhắc 2 phương án mua căn hộ cho thuê giá 800 triệu (đồng) hoặc mua đất giá 200 triệu. Tình hình dân số ảnh hưởng lớn đến kết quả của quyết định. Với quyết định mua căn hộ sau 2 năm, nếu tình hình dân s ố gia tăng (60%), ông thu được 2 tỷ khi bán căn hộ, ngược lại, tình hình dân số không tăng (40%), ông chỉ thu được 225 triệu. Với quyết định mua đất, nếu tình hình dân số gia tăng (60%), sau 1 năm, ông đứng trước quy ết đ ịnh bán đất hoặc xây biệt thự. Nếu bán đất ông thu được 450 tr. Nếu xây biệt thự với chi phí 800 tr và trong 1 năm tiếp theo nếu tình hình dân số tiếp t ục tăng (80%), khi bán biệt thự ông thu được 3 tỷ, ngược lại tình hình dân số không tăng (20%), khi bán biệt thự ông thu được 700 triệu. Với quyết định mua đất và tình hình dân số không tăng (40%), sau 3 năm, ông đ ứng trước quy ết đ ịnh bán đất hoặc xây nhà kho. Nếu bán đất ông thu được 210 tr. Nếu xây nhà kho với chi phí 600 tr và trong 1 năm tiếp theo nếu tình hình dân số tăng (70%), khi bán nhà kho ông thu được 2,3 tỷ, ngược lại tình hình dân số không tăng (30%), khi bán nhà kho ông thu được 1 tỷ. 3-10
  11. 2. Cây quyết định với thông tin dự báo: Thí dụ c.ty Thompson phần 2  Thompson xem xét thuê nghiên cứu thị trường trước khi ra quyết định với chi phí 10.000. đặc điểm của nghiên cứu như sau: P(Thị trường thuận lợi /khảo sát thuận lợi) = 0.78; P(Thị trường không thuận lợi /khảo sát thuận lợi) = 0.22  Tương tự, P(Thị trường thuận lợi /khảo sát không thuận lợi) = 0.27; P(Thị trường không thuận lợi /khảo sát không thuận lợi) = 0.73  Ta cùng nhau xác định lại vấn đề (bước 1) và dùng các dữ liệu bổ sung để vẽ lại cây quyết định (bước 2). 3-11
  12. Cây quyết định của Thompson 3-12
  13. Cây quyết định của Thompson Bước 3: Ghi các giá trị xác suất mới vào các biến cố. Bước 4: Ghi các giá trị payoffs. 3-13
  14. Bước 5: Tính các giá trị EMV và ra quyết định. 3-14
  15. • Dựa vào số liệu quá khứ của các cuộc nghiên cứu, ta có các giá trị xác suất sau: • P(khảo sát thuận lợi/thị trường thuận lợi)=0.7 • P(khảo sát không thuận lợi/thị trường thuận lợi)=0.3 • P(khảo sát thuận lợi/thị trường không thuận lợi)=0.2 • P(khảo sát không thuận lợi/thị trường không thuận lợi)=0.8 3-15
  16. Phân tích Bayes : khảo sát thuận lợi Tính xác suất cho kết quả khảo sát thuận lợi Xác suất Điều kiện Biến Xác suất Xác suất Xác suất Cố P(KSTL|biến cố ) trước giao sau 0.35 TTTL 0.70 * 0.50 0.35 = 0.78 0.45 0.10 TTKTL 0.20 * 0.50 0.10 = 0.22 0.45 0.45 1.00 3-16
  17. Phân tích Bayes : khảo sát không thuận lợi Tính xác suất cho kết quả khảo sát không thuận lợi Xác suất Điều kiện Biến Xác suất Xác suất Xác suất Cố P(KSKTL|biến cố ) trước giao sau 0.15 TTTL 0.30 * 0.50 0.15 = 0.27 0.55 0.40 TTKTL 0.80 * 0.50 0.40 = 0.73 0.55 0.55 1.00 3-17
  18. Thompson không chắc nên chi bao nhiêu cho việc khảo sát thị trường. Anh muốn biết cuộc khảo sát thị trường đáng giá bao nhiêu. Hơn nữa, anh cũng muốn biết độ nhạy của quyết định phụ thuộc vào kết quả khảo sát thị trường như thế nào. Anh ta nên làm gì? Giá trị kỳ vọng của thông tin mẫu (Expected Value of Sample Information) Phân tích độ nhạy (Sensitivity Analysis) 3-18
  19. Giá trị kỳ vọng của thông tin mẫu EVSI Giá trị kỳ vọng của nhánh Giá trị kỳ vọng của nhánh có thông tin dự báo không mua thông tin EVSI = (không tính đến chi phí dự báo mua thông tin) EVSI for Thompson = $59,200 - $40,000 = $19,200 Thompson có thể chi đến $19,200 cho cuộc khảo sát. 3-19
  20. Phân tích độ nhạy EMV(node 1) = ($106,400) p + ( 1 - p ) ($2,400) = $104,000 p + 2,400 Lập đẳng thức EMV(nút 1) với EMV khi không thực hiện EMV khảo sát, ta có $104,000 p + $2,400 = $40,000 $104,000 p = $37,600 Tức là: $37,600 p = = 0.36 $104,000 3-20