Các chỉ số đánh giá mô hình dự báo dự đoán

TN&MTPhân tích và dự báo là các bài toán cực kỳ quan trọng của ngành Tài nguyên và Môi trường. Đó là nhu cầu thiết thực, không thể thiếu cho những hoạt động của con người, cung cấp cơ sở khoa học hỗ trợ nhà quản lý ra quyết định tốt nhất. Ứng dụng kỹ thuật học máy đối với dữ liệu có yếu tố không gian và thời gian nói chung tại Việt Nam hiện nay chậm trễ so với thế giới. Việc sử dụng các công nghệ tiên tiến này giúp nâng cao năng lực áp dụng khoa học công nghệ thông minh, tự động và tiên tiến trong công tác quản lý và giám sát số liệu ngành Tài nguyên và Môi trường. Kết quả đạt được của nghiên cứu là xây dựng được mô hình theo phương pháp học máy có giám sát nhằm hỗ trợ cảnh báo, dự báo xâm ngập mặn hiệu quả cho lưu vực sông Hậu.

Mở đầu

Học máy (Machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kỹ thuật cho phép máy tính có thể “học”. Học máy là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu. Học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán, phân tích và xây dựng mô hình tự động từ các tập dữ liệu, từ đó có thể phán đoán thông minh. Các giải thuật học máy cũng đã được xây dựng thành các thư viện mã nguồn mở để dễ dàng tích hợp và sử dụng trong các hệ thống phần mềm. Trên thế giới đã áp dụng rộng rãi công nghệ này, như việc áp dụng vào chẩn đoán y học, nhận dạng tiếng nói, chữ viết, thống kê,…

Trong các lĩnh vực của ngành TN&MT, việc ứng dụng kỹ thuật học máy và áp dụng cho một số lĩnh vực đang từng bước được định hướng phát triển, phục vụ phát triển KT-XH, chẳng hạn như khi đề cập đến vấn đề dự báo hạn hán hay xâm nhập mặn cho các địa phương trong việc cảnh báo/dự báo sớm phục vụ các hoạt động sản xuất, việc đưa ra những nhận định khách quan hết sức có ý nghĩa khoa học và thực tiễn.

Phương pháp nghiên cứu

Mô hình học máy có giám sát (supervised learning)

Mô hình học có giám sát là mô hình học trên dữ liệu có dãn nhãn, tức là mục tiêu của bài toán machine learning cần học đã được gán nhãn sẵn trong dữ liệu huấn luyện. Dữ liệu đầu vào của quá trình học bao gồm cả vector đầu vào chứa các thuộc tính của dữ liệu lẫn giá trị đầu ra mục tiêu (gọi là nhãn của dữ liệu). Nói cách khác, học máy có giám sát cho phép dự đoán đầu ra của một dữ liệu mới dựa trên các cặp (đầu vào, đầu ra) đã biết từ trước thu được từ bộ dữ liệu huấn luyện. Bộ dữ liệu huấn luyện bao gồm các cặp (data, label), tức (dữ liệu, nhãn). Chẳng hạn, bộ dữ liệu hoa tử đằng (Iris) chứa các thuộc tính là chiều dài và chiều rộng của cánh hoa và đài hoa, các thuộc tính này tạo thành dữ liệu đầu vào (data). Đồng thời, nó cũng chứa cả nhãn (class label) của mục tiêu dự đoán (dòng hoa là một trong ba loại: Setosa, versicolor và virginica).

Phương pháp dự báo chuỗi thời gian ARIMA

Dự báo chuỗi thời gian ARIMA là một lớp mô hình quan trọng trong thống kê, kinh tế lượng và học máy. Sở dĩ chúng ta gọi lớp mô hình này là chuỗi thời gian là vì mô hình được áp dụng trên các chuỗi đặc thù có yếu tố thời gian. Một mô hình chuỗi thời gian thường dự báo dựa trên giả định rằng các quy luật trong quá khứ sẽ lặp lại ở tương lai và dựa vào mối quan hệ này để dự đoán giá trị trong tương lai của biến phụ thuộc.

Một phương pháp rất phổ biến trong việc lập mô hình chuỗi thời gian là phương pháp trung bình trượt kết hợp tự hồi quy (autoregressive integrated moving average - ARIMA), thường được gọi là phương pháp luận Box-Jenkins. Trọng tâm của phương pháp phân tích này là các tính chất xác suất hay ngẫu nhiên của bản thân các chuỗi thời gian kinh tế theo triết lý “hãy để dữ liệu tự nói”.

Để sử dụng mô hình ARIMA (p, d, q) trong dự báo, cần nhận dạng ba thành phần: p, d và q của mô hình:

p (Autoregressive): Bậc tự hồi quy (dùng bao nhiêu điểm quá khứ để dự đoán giá trị hiện tại);

d (Integrated): Bậc sai phân của chuỗi thời gian (để khử tính không dừng của dữ liệu);

q (Moving - Average): Bậc trung bình trượt.

Trong ngành TN&MT, phương pháp dự báo chuỗi thời gian ARIMA được sử dụng trong một số bài toán: Dự báo nhiệt độ, lượng mưa, dự báo chất lượng nước, chất lượng không khí,… từ số liệu quan trắc liên tục theo thời gian.

Thử nghiệm mô hình học máy có giám sát khu vực hạ lưu sông Hậu

Sau khi nghiên cứu, phân tích một số nền tảng, công cụ về học máy, trí tuệ nhân tạo, nhóm nghiên cứu quyết định lựa chọn nền tảng Brightics AI của Samsung (https://www.brightics.ai) làm nền tảng để xây dựng các mô hình học máy trong đề tài. Đây là một nền tảng AI mã nguồn mở, đang phát triển mạnh mẽ, có cộng đồng sử dụng tương đối lớn. Nền tảng này hỗ trợ hầu hết các mô hình học máy hiện có, hỗ trợ tất cả các ngôn ngữ, thư viện liên quan đến học máy, trí tuệ nhân tạo. Ngoài ra, nền tảng Brightics AI còn hỗ trợ nhiều công cụ phân tích, báo cáo thống kê và trực quan hóa số liệu.

Số liệu đầu vào: Do khả năng xâm nhập mặn vùng ĐBSCL là khá lớn, do vậy với phạm vi nghiên cứu của đề tài, nhóm nghiên cứu tiến hành thử nghiệm mô hình học máy cho khu vực hạ lưu sông Hậu, tính từ Cần Thơ ra cửa biển Trần Đề, cụ thể như sau:

Hình 1: Khu vực thử nghiệm mô hình học máy

Với vùng nghiên cứu thử nghiệm như vậy, các số liệu đầu vào cho mô hình học máy được thu thập từ các trạm KTTV, hải văn trong khu vực thử nghiệm, bao gồm các trạm:

Tiền xử lý, lọc dữ liệu: Một trong những nhiệm vụ quan trọng trong việc ứng dụng mô hình học máy đó là vấn đề tiền xử lý, lọc dữ liệu. Việc làm này nhằm loại bỏ những số liệu không thực sự tin cậy, đồng thời đưa chuỗi số liệu theo cùng một cấu trúc, định dạng và thời đoạn theo thời gian. Dưới đây là một số bước trong quá trình tiền xử lý, lọc dữ liệu cho mô hình học máy được thực hiện trong nền tảng Brightics AI: Xác định thư mục chứa dữ liệu cho mô hình học máy; khai báo cấu hình các trường dữ liệu cho mô hình học máy; lựa chọn các thành phần dữ liệu cho mô hình học máy.

Sau khi thực hiện xong các bước trên, dữ liệu đầu vào sẽ được chuẩn hóa và hiển thị số liệu một cách trực quan như hình dưới:

Hình 2: Dữ liệu đầu vào cho mô hình học máy

Thiết lập mô hình học máy có giám sát: Việc thiết lập mô hình học máy có giám sát là việc lựa chọn các module thành phần phù hợp với đối tượng đưa vào học máy. Đối với bài toán dự báo xâm nhập mặn, đối tượng được đưa vào học máy bao gồm các yếu tố về KTTV, hải văn và độ mặn như bảng trên. Các loại số liệu này hoàn toàn mang tính ngẫu nhiên, được xử lý và biên tập tuân theo quy chuẩn của ngành KTTV.

Mô hình học máy có giám sát được thử nghiệm xây dựng trong đề tài bao gồm 2 mô hình: Mô hình hồi quy tuyến tính và mô hình dự báo chuỗi thời gian ARIMA.

Mô hình hồi quy tuyến tính

Quy trình triển khai mô hình hồi quy tuyến tính trên nền tảng Brightics AI bao gồm các bước như hình dưới đây:

Hình 3: Quy trình triển khai mô hình hồi quy tuyến tính

Trong đó, các module thành phần cơ bản bao gồm:

Đọc dữ liệu: Đọc dữ liệu (từ file excel, txt) vào cho mô hình học máy.

Replaces Mising Number: Xử lý thay thế dữ liệu trống, thiếu bằng giá trị đặc biệt (ví dụ: 9999) để loại ra khỏi mô hình.

Lọc dữ liệu: Lọc dữ liệu đưa vào mô hình.

Tương quan: Phân tích mối tương quan giữa các yếu tố ảnh hưởng (nhiệt độ, tốc độ gió, mực nước,…) với đại lượng đầu ra của mô hình (độ mặn).

Huấn luyện hồi quy tuyến tính: Module học máy AI huấn luyện mô hình bằng phương pháp hồi quy tuyến tính.

Dự báo hồi quy tuyến tính: Dự báo kết quả từ mô hình hồi quy tuyến tính đã xây dựng được qua quá trình huấn luyện.

Mô hình dự báo chuỗi thời gian ARIMA

Quy trình triển khai mô hình dự báo chuỗi thời gian ARIMA trên nền tảng Brightics AI gồm các bước như hình dưới đây:

Hình 4: Quy trình triển khai mô hình dự báo chuỗi thời gian ARIMA

Trong đó, các module thành phần cơ bản bao gồm:

Đọc dữ liệu: Đọc dữ liệu (từ file excel, txt) vào cho mô hình học máy.

Tự tương quan: Phân tích tự tương quan của dữ liệu chuỗi thời gian (độ mặn). Đây là hiện tượng mà sai số tại thời điểm t có mối quan hệ với sai số tại thời điểm t-1 hoặc tại bất kỳ thời điểm nào khác trong quá khứ.

Huấn luyện ARIMA: Huấn luyện mô hình ARIMA theo phương pháp tự động hoặc thủ công theo các tham số của mô hình được nhập vào.

Dự báo theo mô hình ARIMA: Dự báo độ mặn từ mô hình ARIMA đã xây dựng được qua quá trình huấn luyện.

Huấn luyện mô hình học máy có giám sát

Tham số huấn luyện

Bias: Là sai số giữa giá trị dự đoán trung bình của mô hình và giá trị thực tế;

High bias: Sai số lớn, mô hình đơn giản, tuy nhiên kết quả dự đoán chính xác không cao;

Low bias: Sai số nhỏ, mô hình phức tạp, kết quả dự đoán tốt;

Variance: Là sai số thể hiện mức độ “nhạy cảm” của mô hình với những biến động trong dữ liệu huấn luyện;

Low-variance: Mô hình ít biến thiên theo sự thay đổi của dữ liệu huấn luyện;

High-variance: Mô hình biến thiên mạnh, bám sát theo sự thay đổi của dữ liệu huấn luyện;

Mô hình có variance cao thường thể hiện rất tốt trên tập dữ liệu huấn luyện, nhưng không cho kết quả khả quan trên tập dữ liệu kiểm thử.

Nhận diện quá trình huấn luyện

Hình 6: Nhận diện quá trình huấn luyện mô hình học máy

Underfitting: Là hiện tượng mà mô hình có high bias và low varriance, cho kết quả dự đoán không tốt trên cả tập huấn luyện và tập kiểm thử. Underfitting thường dễ được phát hiện vì cho kết quả tệ trên tập huấn luyện.

Overfitting: Là hiện tượng mà mô hình có low bias và high variance, lúc này mô hình trở nên phức tạp, bám sát theo dữ liệu huấn luyện. Mô hình cho kết quả rất tốt trên dữ liệu đã được học, nhưng cho kết quả tệ trên dữ liệu chưa từng gặp bao giờ. Vấn đề này xảy ra khi mô hình cố gắng fit tất cả các điểm dữ liệu huấn luyện, bao gồm cả nhiễu.

Có thể thấy rằng, hiện tượng Underfitting có thể xem như mô hình “học dốt”, còn Overfitting cho biết rằng mô hình đang “học vẹt”.

Nhận biết Underfitting và Overfitting:

Underfitting xảy ra khi sai số dự đoán của mô hình trên cả tập huấn luyện và tập kiểm thử đều cao.

Overfitting xảy ra khi sai số dự đoán của mô hình trên tập huấn luyện thấp, nhưng trên tập kiểm thử thì cao.

Kết quả mô hình học máy có giám sát vào khu vực thử nghiệm

Sử dụng số liệu đầu vào là dữ liệu quan trắc khí tượng, thủy văn và dữ liệu quan trắc độ mặn tại các trạm, với các module mô hình học máy có giám sát đã thiết lập, thực hiện quá trình huấn luyện mô hình học máy. Kết quả thử nghiệm mô hình học máy có giám sát cho khu vực thử nghiệm (LVS Hậu) đối với 2 mô hình cho kết quả như sau:

Kết quả mô hình hồi quy tuyến tính

Hình 7: Kết quả dự đoán bằng mô hình hồi quy tuyến tính

Sau khi chạy mô hình hồi quy tuyến tính với tập dữ liệu đầu vào, hệ thống sẽ tiến hành phân tích tương quan độc lập độ mặn với các yếu tố khí tượng, mực nước tại các trạm quan trắc sau đó đưa ra kết quả huấn luyện mô hình và bảng chỉ số đánh giá chất lượng mô hình hồi quy tuyến tính. Cuối cùng, hệ thống đưa ra kết quả dự báo bằng mô hình hồi quy tuyến tính như hình dưới đây:

Kết quả mô hình dự báo chuỗi thời gian ARIMA

Hình 8: Kết quả dự đoán độ mặn bằng mô hình ARIMA

Tương tự với mô hình hồi quy tuyến tính, sau khi chạy huấn luyện mô hình chuỗi thời gian ARIMA đối với từng trạm đo, hệ thống sẽ dự đoán độ mặn tại một trạm đo như hình bên:

Các kết quả dự đoán của các mô hình trên nền tảng Brightics AI sẽ được tích hợp vào phần mềm thử nghiệm trong đề tài NCKH cấp Bộ: “Nghiên cứu giải pháp dự báo số liệu ngành TN&MT bằng phương pháp học máy, ứng dụng thử nghiệm dự báo xâm nhập mặn đối với các hệ thống sông”. Mã số: TNMT.2018.09.01.

Tài liệu tham khảo

1. Stuart Russell and Peter Norvig (2021), Artificial Intelligence - A Modern Approach;

2. Tom Taulli (2021), Artificial Intelligence Basics: A Non-Technical Introduction;

3. Chandra S.S.V (2021), Artificial Intelligence and Machine Learning;

4. James V Stone (2021), Artificial Intelligence Engines: A Tutorial Introduction to the Mathematics of Deep Learning;

5. G. P. E. Box & G. M. Jenkins, Time Series Analysis: Forecasting and Control (Phân tích chuỗi thời gian: Dự báo và Kiểm soát), tái bản, Holden Day, San Francisco, 1978;

6. SamSung (2021),-Brightics AI;

7. SamSung (2021), Tutorial - Brightics AI.

NGUYỄN ĐẨU HOÀNG; NHÂM NGỌC TÂN; NGUYỄN THỊ HUẾ

Cục Công nghệ Thông tin - Bộ Tài nguyên và Môi trường