Elastic-Net là gì

Là chính quy hóa mạng đàn hồi luôn được ưa thích đối với Lasso & Ridge vì nó dường như giải quyết được nhược điểm của các phương pháp này? Trực giác là gì và toán học đằng sau lưới đàn hồi là gì?

Nội dung chính Show

1. Phương pháp nào được ưa thích?
2. Trực giác và toán học đằng sau lưới đàn hồi là gì?
3. Nếu bạn thêm các chỉ tiêu LqLq bổ sung thì sao?

1. Phương pháp nào được ưa thích?

Có, lưới đàn hồi luôn được ưa thích hơn hồi quy lasso & sườn vì nó giải quyết được các hạn chế của cả hai phương pháp, trong khi cũng bao gồm cả các trường hợp đặc biệt. Vì vậy, nếu giải pháp sườn núi hoặc Lasso thực sự là tốt nhất, thì bất kỳ thói quen lựa chọn mô hình tốt nào cũng sẽ xác định đó là một phần của quy trình mô hình hóa.

Nhận xét cho bài viết của tôi đã chỉ ra rằng những lợi thế của lưới đàn hồi không phải là không đủ tiêu chuẩn. Tôi tin tưởng rằng tính tổng quát của hồi quy thuần đàn hồi vẫn thích hợp hơn với chính quy L1L1 hoặc L2L2 . Cụ thể, tôi nghĩ rằng những điểm bất đồng giữa tôi và những người khác gắn liền với những giả định mà chúng tôi sẵn sàng đưa ra về quy trình mô hình hóa. Với sự hiện diện của kiến thức mạnh mẽ về dữ liệu cơ bản, một số phương pháp sẽ được ưa thích hơn các phương pháp khác. Tuy nhiên, sở thích của tôi đối với lưới đàn hồi bắt nguồn từ sự hoài nghi của tôi rằng người ta sẽ tự tin biết rằng L1L1 hoặc L2L2 là mô hình thực sự.

Yêu cầu: Kiến thức trước có thể làm giảm một trong những nhu cầu sử dụng hồi quy mạng đàn hồi.

Đây là một số thông tư. Hãy tha thứ cho tôi nếu điều này có phần lố lăng, nhưng nếu bạn biết rằng LASSO (sườn núi) là giải pháp tốt nhất, thì bạn sẽ không tự hỏi làm thế nào để mô hình hóa nó một cách thích hợp; bạn sẽ chỉ phù hợp với một mô hình LASSO (sườn núi). Nếu bạn hoàn toàn chắc chắn rằng câu trả lời đúng là hồi quy LASSO (sườn núi), thì bạn rõ ràng tin chắc rằng sẽ không có lý do gì để lãng phí thời gian để lắp lưới đàn hồi. Nhưng nếu bạn hơi ít chắc chắn liệu LASSO (sườn núi) có phải là cách chính xác để tiến hành hay không, tôi tin rằng sẽ hợp lý khi ước tính một mô hình linh hoạt hơn và đánh giá mức độ mạnh mẽ của dữ liệu hỗ trợ niềm tin trước đó.

Yêu cầu: Dữ liệu lớn vừa phải sẽ không cho phép phát hiện ra các giải pháp L1L1 hoặc L2L2 như ưu tiên, ngay cả trong trường hợp khi giải pháp L1L1 hoặc L2L2 là mô hình thực sự.

Điều này cũng đúng, nhưng tôi nghĩ đó là thông tư vì một lý do tương tự: nếu bạn đã ước tính một giải pháp tối ưu và thấy rằng α{0,1},α{0,1}, thì đó là mô hình hỗ trợ dữ liệu. Một mặt, vâng, mô hình ước tính của bạn không phải là mô hình thực sự, nhưng tôi phải tự hỏi làm thế nào người ta biết rằng mô hình thực sự là α=1α=1 (hoặc α=0α=0 ) trước bất kỳ ước tính mô hình nào. Có thể có những lĩnh vực mà bạn có loại kiến thức trước đây, nhưng công việc chuyên môn của tôi không phải là một trong số đó.

Yêu cầu: Giới thiệu các siêu đường kính bổ sung làm tăng chi phí tính toán của việc ước tính mô hình.

Điều này chỉ có liên quan nếu bạn có giới hạn thời gian / máy tính chặt chẽ; nếu không thì chỉ là phiền toái GLMNET là thuật toán tiêu chuẩn vàng để ước tính các giải pháp mạng đàn hồi. Người dùng cung cấp một số giá trị của alpha, và nó sử dụng các thuộc tính đường dẫn của giải pháp quy tắc để nhanh chóng ước tính một gia đình của các mô hình cho một loạt các giá trị của các penalization cường độ λλ , và nó thường có thể ước tính gia đình này của các giải pháp một cách nhanh chóng hơn ước tính chỉ một giải pháp cho một giá trị cụ λλ . Vì vậy, có, sử dụng GLMNET không ký gửi bạn đến với miền của việc sử dụng phương pháp lưới kiểu (lặp trên một số giá trị của αα và để GLMNET thử một loạt các λλ s), nhưng nó khá nhanh.

Yêu cầu: Cải thiện hiệu suất của lưới đàn hồi so với LASSO hoặc hồi quy sườn không được đảm bảo.

Điều này là đúng, nhưng ở bước mà người ta đang suy nghĩ nên sử dụng phương pháp nào, người ta sẽ không biết lưới đàn hồi, sườn hoặc LASSO nào là tốt nhất. Nếu một trong những lý do mà giải pháp tốt nhất phải là LASSO hoặc hồi quy sườn núi, thì chúng ta đang ở trong miền yêu cầu (1). Nếu chúng tôi vẫn không chắc chắn điều gì là tốt nhất, thì chúng tôi có thể kiểm tra các giải pháp LASSO, sườn và lưới đàn hồi và đưa ra lựa chọn mô hình cuối cùng tại thời điểm đó (hoặc, nếu bạn là một học giả, chỉ cần viết bài của bạn về cả ba ). Tình huống không chắc chắn trước này sẽ đặt chúng tôi vào miền khiếu nại (2), trong đó mô hình thực sự là LASSO / sườn núi nhưng chúng tôi không biết trước điều đó và chúng tôi vô tình chọn mô hình sai do siêu âm được xác định kém, hoặc lưới đàn hồi thực sự là giải pháp tốt nhất.

Yêu cầu: Lựa chọn siêu tham số mà không xác thực chéo sẽ rất sai lệch và dễ bị lỗi .

Xác nhận mô hình phù hợp là một phần không thể thiếu của bất kỳ doanh nghiệp máy học nào. Xác thực mô hình thường là một bước đắt tiền, do đó, người ta sẽ tìm cách giảm thiểu sự thiếu hiệu quả ở đây - nếu một trong những sự thiếu hiệu quả đó là không cần thiết phải thử các giá trị αα được biết là vô ích, thì một đề xuất có thể là làm như vậy. Có, bằng mọi cách hãy làm điều đó, nếu bạn cảm thấy thoải mái với tuyên bố mạnh mẽ rằng bạn đang thực hiện về cách sắp xếp dữ liệu của mình - nhưng chúng tôi sẽ quay lại lãnh thổ của yêu cầu (1) và yêu cầu (2).

2. Trực giác và toán học đằng sau lưới đàn hồi là gì?

Tôi thực sự khuyên bạn nên đọc tài liệu về các phương pháp này, bắt đầu với bài báo gốc trên lưới đàn hồi. Bài viết phát triển trực giác và toán học, và rất dễ đọc. Việc sao chép nó ở đây sẽ chỉ gây bất lợi cho lời giải thích của các tác giả. Nhưng tóm tắt cấp cao là lưới đàn hồi là một khoản lồi của sườn núi và hình phạt Lasso, vì vậy hàm mục tiêu cho một Gaussian vẻ mô hình báo lỗi như Residual Mean Square Error+αRidge Penalty+(1α)LASSO PenaltyResidual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

cho α[0,1].α[0,1].

Hui Zou và Trevor Hastie. "Chính quy hóa và lựa chọn biến qua mạng đàn hồi ." Thống kê JR. Soc., Tập 67 (2005), Phần 2., trang 301-320.

Richard Hardy chỉ ra rằng điều này được phát triển chi tiết hơn trong Hastie et al. "Các yếu tố của học thống kê" chương 3 và 18.

3. Nếu bạn thêm các chỉ tiêu LqLq bổ sung thì sao?

Đây là một câu hỏi được đặt ra cho tôi trong các ý kiến:

L3L3γγγ 0γ0L3L3

Tôi đánh giá cao tinh thần của câu hỏi là "Nếu nó như bạn yêu cầu và hai hình phạt là tốt, tại sao không thêm một hình phạt khác?" Nhưng tôi nghĩ rằng câu trả lời nằm ở lý do tại sao chúng ta thường xuyên ở nơi đầu tiên.

L1L1nnnnL2L2ppL2L2p>np>n

Đặt một trong hai vấn đề này, mô hình chính quy vẫn có thể thực hiện mô hình ML vì các đặc tính co rút của các công cụ ước tính là "bi quan" và kéo các hệ số về 0.

L3L3

L1L1L2L2

L2L2L1L1L1L1L2L2

LqLqL1L1L2L2

Tôi thường đồng ý với câu trả lời @Sycorax, nhưng tôi muốn thêm một số bằng cấp.

Nói rằng "lưới đàn hồi luôn được ưa thích hơn hồi quy lasso & sườn núi" có thể hơi quá mạnh. Trong các mẫu nhỏ hoặc trung bình, lưới đàn hồi không được chọn LASSO nguyên chất hoặc dung dịch sườn nguyên chất ngay cả khi cái trước hoặc cái sau thực sự là loại có liên quan. Với kiến thức mạnh mẽ trước, có thể có ý nghĩa khi chọn LASSO hoặc sườn thay cho lưới đàn hồi. Tuy nhiên, nếu không có kiến thức trước, lưới đàn hồi nên là giải pháp ưu tiên.

Ngoài ra, lưới đàn hồi đắt hơn về mặt tính toán so với LASSO hoặc sườn vì trọng lượng tương đối của LASSO so với sườn phải được chọn bằng xác nhận chéo. Nếu một lưới các giá trị alpha hợp lý là [0,1] với kích thước bước 0,1, điều đó có nghĩa là lưới đàn hồi đắt gấp khoảng 11 lần so với LASSO hoặc sườn núi. (Vì LASSO và sườn núi không có độ phức tạp tính toán hoàn toàn giống nhau, kết quả chỉ là phỏng đoán sơ bộ.)