Ngoài sự phân tách đã nói ở trên, đặc biệt là ở góc độ rộng hơn, việc ghi nhãn dữ liệu được chia thành 4 loại, bao gồm: Mô tả, Đánh giá, Thông tin và Kết hợp. Phân loại, trích xuất, theo dõi đối tượng, mà chúng ta đã thảo luận cho các tập dữ liệu riêng lẻ. Show
Chú thích dữ liệu (Data annotation) là gì?Chú thích dữ liệu thường để nói về quá trình gắn nhãn dữ liệu. Chú thích dữ liệu và gắn nhãn dữ liệu thường được sử dụng thay thế cho nhau, mặc dù chúng có thể được sử dụng khác nhau tùy theo ngành hoặc tình huống sử dụng. Dữ liệu được gắn nhãn làm nổi bật các đặc tính của Dữ liệu – thuộc tính, đặc điểm hoặc phân loại – mà có thể được phân tích để tìm ra các hình mẫu giúp dự đoán mục tiêu. Ví dụ: Trong tầm nhìn máy tính dành cho xe tự hành, một người gắn nhãn dữ liệu có thể sử dụng công cụ gắn nhãn video từng khung hình để chỉ ra vị trí của biển báo đường phố, người đi bộ hoặc các phương tiện khác. Cách data labeling hoạt độngQuy trình gắn nhãn dữ liệu hoạt động theo trình tự sau:
Việc gán nhãn dữ liệu thường bắt đầu bằng yêu cầu con người đưa ra đánh giá về một phần dữ liệu chưa được gán nhãn nhất định. Việc gắn thẻ có thể đơn giản như trả lời có/không hoặc chi tiết như xác định các pixel cụ thể trong hình ảnh. Mô hình học máy (Machine Learning) sử dụng các nhãn do con người cung cấp để tìm hiểu các mẫu cơ bản trong một quy trình gọi là "đào tạo mô hình". Kết quả là một mô hình được đào tạo có thể được sử dụng để đưa ra dự đoán về dữ liệu mới. Ứng dụng gắn nhãn dữ liệu trong đời sốngCác ngành dọc được phục vụ tốt nhất bởi các công cụ và tài nguyên gắn nhãn dữ liệu bao gồm:
Trong hướng dẫn này, bạn sẽ tìm hiểu cách sử dụng Amazon SageMaker Ground Truth để xây dựng tập dữ liệu đào tạo có độ chính xác cao dành cho trường hợp sử dụng phân loại hình ảnh. Amazon SageMaker Ground Truth cho phép bạn xây dựng tập dữ liệu đào tạo có độ chính xác cao dành cho công việc dán nhãn. Các công việc này gồm nhiều trường hợp sử dụng như phân loại hình ảnh, phát hiện đối tượng, phân vùng ngữ nghĩa và nhiều trường hợp khác. Với Amazon SageMaker Ground Truth, bạn có thể dễ dàng tiếp cận với người dán nhãn và sử dụng quy trình công việc cũng như giao diện được tích hợp sẵn hoặc tùy chỉnh cho các tác vụ dán nhãn phổ biến. Amazon SageMaker Ground Truth giúp bạn giảm thiểu thời gian và công sức tạo tập dữ liệu bằng cách sử dụng machine learning để tự động gán nhãn cho dữ liệu. Tính năng này có được bằng cách liên tục học từ các nhãn được tạo bởi người dán nhãn. Trong hướng dẫn này, bạn sẽ dán nhãn một tập dữ liệu với hình ảnh xe cộ như xe con, xe tải, xe limousine, xe bán tải và xe mô tô (xe máy). Amazon SageMaker Ground Truth cho bạn quyền sử dụng các lựa chọn nguồn nhân lực khác nhau:
Với hướng dẫn này, chúng ta sử dụng Amazon Mechanical Turk. Để tạo công việc dán nhãn bằng Amazon SageMaker Ground Truth, hãy làm theo các bước sau:
Trước khi bắt đầuTrước khi bắt đầu hướng dẫn này, bạn phải có tài khoản AWS. Nếu bạn chưa có tài khoản, hãy nhấp vào Đăng ký AWS và tạo tài khoản. Bước 1 – Đăng nhập vào bảng điều khiển Amazon SageMakerTrong thanh tìm kiếm của Bảng điều khiển AWS, nhập SageMaker rồi chọn Amazon SageMaker để mở bảng điều khiển dịch vụ. Bước 2 – Tạo phiên bản sổ ghi chép Amazon SageMaker để chuẩn bị dữ liệuTrong bước này, bạn tải xuống một tập dữ liệu mẫu cần được dán nhãn và tải tập dữ liệu này lên bộ chứa Amazon Simple Storage Service (Amazon S3) mà bạn tạo. Vì dịch vụ cần nhận được tập dữ liệu từ Amazon S3, bạn phải hoàn thành các bước này trước khi bắt đầu công việc dán nhãn bằng Amazon SageMaker Ground Truth. Để tải xuống tập dữ liệu mẫu và tải lên Amazon S3, bạn sử dụng phiên bản sổ ghi chép Amazon SageMaker. Để tải tập dữ liệu lên, phiên bản sổ ghi chép Amazon SageMaker của bạn cần có kết nối bảo mật đến Amazon S3. Để cung cấp các quyền này, Amazon SageMaker có thể tạo một vai trò AWS Identity and Access Management (IAM) mới với các quyền cần thiết và gán các quyền này cho phiên bản của bạn. Lưu ý – Bạn có thể sử dụng mọi ứng dụng khách có quyền để truy cập vào bộ chứa Amazon S3 nhằm thực hiện các bước này. Trong hướng dẫn này, chúng tôi sử dụng phiên bản Amazon SageMaker cho đơn giản và thuận tiện. Nếu bạn muốn sử dụng ứng dụng khách nội bộ bằng AWS Command Line Interface (AWS CLI), python và boto3 đã được cài đặt, bạn có thể chuyển sang Bước 3 – 3. Từ trang Amazon SageMaker > Phiên bản sổ ghi chép, hãy chọn Tạo phiên bản sổ ghi chép. Trong phần Tạo phiên bản sổ ghi chép, trong hộp văn bản Tên phiên bản sổ ghi chép, hãy nhập tên cho phiên bản sổ ghi chép. Ví dụ: trong hướng dẫn này, chúng tôi đã chỉ định GroundTruthDatasetInstance là tên phiên bản. Để tạo vai trò IAM, từ danh sách thả xuống Vai trò IAM, hãy chọn Tạo vai trò mới. Trong hộp thoại Tạo vai trò IAM, hãy chọn Bộ chứa S3 bất kỳ. Tùy chọn này cho phép phiên bản Amazon SageMaker của bạn truy cập vào tất cả bộ chứa Amazon S3 trong tài khoản của bạn. Nếu muốn dùng bộ chứa bạn đã có sẵn, hãy chọn Chỉ định bộ chứa S3 và chỉ định tên bộ chứa đó. Chọn Tạo vai trò. Amazon SageMaker tạo vai trò AmazonSageMaker-ExecutionRole-***. Giữ cài đặt mặc định cho các tùy chọn khác và nhấp vào Tạo phiên bản sổ ghi chép. Trong phần Phiên bản sổ ghi chép, mục nhập mới của phiên bản sổ ghi chép GroundTruthDatasetInstance sẽ xuất hiện với Trạng thái là Đang chờ xử lý. Bước 3 – Chuẩn bị và tải tập dữ liệu của bạn lên Amazon S3Trong bước này, bạn sử dụng phiên bản sổ ghi chép Amazon SageMaker mà bạn đã tạo ở bước 2 để chuẩn bị tập dữ liệu cho công việc dán nhãn trên Amazon SageMaker Ground Truth và tải tệp dữ liệu đó lên Amazon S3. Hình ảnh bạn tải lên Amazon S3 cho công việc dán nhãn được lấy từ tập dữ liệu công khai Google Open Image Dataset1. Tập dữ liệu này có một vài danh mục hình ảnh. Với hướng dẫn này, bạn chỉ tải xuống hình ảnh xe tải, xe limousine, xe bán tải, xe con và xe mô tô (xe máy). Vì hình ảnh trong Google Open Images Dataset vốn đã được dán nhãn, bạn có thể sử dụng thông tin này để xác minh chất lượng của công việc dán nhãn sau khi có kết quả. Trong phần Phiên bản sổ ghi chép, sau khi Status của GroundTruthDatasetInstance chuyển từ Đang chờ xử lý sang Đang hoạt động, từ cột Hành động, hãy chọn Mở Jupyter. Sau khi GroundTruthDatasetInstance xuất hiện trong tab Tệp Jupyter, từ danh sách thả xuống Mới, hãy chọn conda_python3. Để tải hình ảnh của bạn lên Amazon S3, hãy sao chép đoạn mã sau vào ô mã trong phiên bản của bạn. Tên vùng lưu trữ mặc định cho hướng dẫn này là sm-gt-dataset. Để chỉ định tên vùng lưu trữ khác, hãy thay đổi biến BỘ CHỨA trong tập lệnh python sau và thay sm-gt-dataset bằng tên bộ chứa của bạn trong phần còn lại của hướng dẫn. Lưu ý – Để rút gọn đoạn mã hiển thị, bạn có thể chia mã thành nhiều ô. Để tạo ô mới, hãy chọn Tệp > +. Hoặc chọn Chèn > Chèn ô vào bên dưới.
Để chạy đoạn mã, hãy chọn Ô > Chạy tất cả. Sau khi đoạn mã thực thi, tập dữ liệu sẽ có sẵn tại các vị trí mặc định sau: Amazon S3 > sm-gt-dataset > ground-truth-demo > images. Thư mục này hiện phải chứa 1.014 hình ảnh xe cộ gồm xe con, xe tải, xe limousine, xe bán tải và xe mô tô (xe máy). Lưu ý – Nếu bạn đã chỉ định tên khác cho vùng lưu trữ của mình, thì tập dữ liệu có sẵn trong thư mục dành cho vùng lưu trữ bạn đã tạo: Amazon S3 > your_bucket_name > ground-truth-demo > images. 1 A. Kuznetsova, H. Rom, N. Alldrin, J. Uijlings, I. Krasin, J. Pont-Tuset, S. Kamali, S. Popov, M. Malloci, T. Duerig và V. Ferrari. Bộ dữ liệu hình ảnh mở V4: Phân loại hình ảnh giống nhau, phát hiện đối tượng và phát hiện mối quan hệ trực quan theo tỷ lệ. arXiv:1811.00982, 2018. (https://arxiv.org/abs/1811.00982) Tuyên bố từ chối trách nhiệm – Open Images Dataset V5, được tạo bởi Google Inc. và có sẵn tại địa chỉ https://storage.googleapis.com/openimages/web/download.html, chưa được sửa đổi dành cho hướng dẫn này. Các chú thích được cấp phép bởi Google Inc. theo giấy phép CC BY 4.0. Các hình ảnh được liệt kê khi đã có giấy phép CC BY 2.0. Để biết số liệu thống kê chi tiết về dữ liệu và đánh giá của mô hình được đào tạo dựa trên dữ liệu đó, hãy xem tài liệu được trích dẫn ở trên. Bước 4 – Tạo công việc dán nhãn trên Amazon SageMaker Ground TruthTrong bước này, bạn tạo một công việc dán nhãn trên SageMaker Ground Truth cho tập dữ liệu mà bạn đã chuẩn bị trong bước 3. Mục đích là để gán nhãn cho các hình ảnh này và phân loại hình ảnh thành 5 danh mục – xe con, xe tải, xe limousine, xe bán tải và xe mô tô (xe máy). Từ bảng thông tin Amazon SageMaker, chọn Công việc dán nhãn > Tạo công việc dán nhãn. Trong phần Tổng quan công việc, trong hộp văn bản Tên công việc, nhập vehicle-labeling-demo. Chỉ định vị trí của tập dữ liệu đầu vào. Amazon SageMaker Ground Truth cần một tệp kê khai đầu vào có tham chiếu đến một hình ảnh ở mỗi dòng. Ví dụ: mỗi hình ảnh phải có một mục nhập trong tệp kê khai ở định dạng sau: {"source-ref": "s3://sm-gt-dataset/ground-truth-demo/images/2563c7e7e3432a6e.jpg"} Để Amazon SageMaker Ground Truth tự động tạo tệp kê khai này, trong phần Vị trí tệp dữ liệu đầu vào, hãy nhấp vào Tạo tệp kê khai. Trong hộp văn bản Vị trí tệp dữ liệu đầu vào, hãy nhập vị trí của hình ảnh và nhấp vào Tạo. Ví dụ: s3://sm-gt-dataset/ground-truth-demo/images/ Đảm bảo rằng bạn đã nhập đúng tên bộ chứa và tên thư mục mà bạn đã chỉ định trong Bước 3 – 3. Sau khi đã tạo tệp kê khai, hãy nhấp vào Sử dụng tệp kê khai này. Chỉ định đường dẫn đến bộ chứa Amazon S3, nơi bạn muốn lưu trữ tệp dữ liệu được dán nhãn. Ví dụ: s3://sm-gt-dataset/ground-truth-demo/labeled_data/ Chọn vai trò IAM đã tạo trong Bước 3. Hoặc làm theo hướng dẫn trong danh sách thả xuống để tạo vai trò IAM mới. Trong phần Cấu hình bổ sung, bạn có thể chọn lựa chọn để dán nhãn tập con của tập dữ liệu và chỉ định cài đặt mã hóa. Với ví dụ này, đừng chọn bất kỳ lựa chọn nào. Trong cửa sổ Loại tác vụ, từ danh sách danh mục Tác vụ thả xuống, hãy chọn Hình ảnh. Với lựa chọn Chọn tác vụ, hãy chọn Phân loại hình ảnh. Nhấp vào Tiếp theo. Trong phần Chọn người thực hiện và đặt cấu hình công cụ, với Loại người thực hiện, hãy chọn Công khai. Từ danh sách thả xuống Giá mỗi tác vụ, hãy giữ lựa chọn mặc định. Đây là một tác vụ không phức tạp và người dán nhãn cần chưa đến 5 giây. Do đó, lựa chọn mặc định là chính xác. Nếu tác vụ của bạn phức tạp hơn, chẳng hạn như phát hiện đối tượng hoặc phân đoạn ngữ nghĩa, thì bạn nên chọn mức giá cao hơn cho mỗi tác vụ. Chọn các hộp kiểm sau:
Đảm bảo rằng bạn không chọn hộp kiểm Tự động dán nhãn dữ liệu. Bạn chỉ nên chọn lựa chọn này nếu bạn có nhiều hơn 1.250 hình ảnh. Đó là ngưỡng cần thiết để kích hoạt dán nhãn tự động với khả năng học chủ động. Nếu bạn có tập dữ liệu lớn hơn, việc tự động dán nhãn dữ liệu có thể giảm tổng chi phí dán nhãn tập dữ liệu lớn của bạn. Để biết thêm thông tin về trường hợp bạn nên chọn tính năng tự động dán nhãn dữ liệu, hãy xem Sử dụng tính năng tự động dán nhãn dữ liệu trong Hướng dẫn Amazon SageMaker dành cho nhà phát triển. Trong phần Cấu hình bổ sung, trong hộp văn bản Số người thực hiện cho mỗi đối tượng của tập dữ liệu, hãy giữ cài đặt mặc định là 3 người thực hiện. Trong phần Công cụ dán nhãn phân loại hình ảnh, trong cả 2 hộp văn bản mẫu, hãy thêm hướng dẫn cho người dán nhãn. Nhấp vào Gửi. Các hình ảnh này cho bạn thấy ví dụ về hướng dẫn trong mẫu và xem trước cách công cụ dán nhãn hiển thị cho người dán nhãn. Để xác minh rằng công việc dán nhãn đã được tạo, trong bảng điều khiển, hãy chọn Amazon SageMaker > Công việc dán nhãn. Công việc dán nhãn mới vehicle-labeling-demo sẽ xuất hiện với Trạng thái là Đang thực hiện và Loại tác vụ là Phân loại hình ảnh. Lưu ý – Công việc này có thể mất vài giờ để hoàn thành. Sau khi dữ liệu được dán nhãn bởi nguồn nhân lực công khai của Amazon Mechanical Turk, Trạng thái sẽ chuyển thành Hoàn tất. Để xem tiến trình công việc, hãy chọn Amazon SageMaker > Công việc dán nhãn > vehicle-labeling-demo. Bước 5 – Đánh giá kết quả công việc dán nhãnTrong bước này, bạn đánh giá kết quả của công việc đánh giá sau khi công việc hoàn tất. Trong bảng điều khiển, chọn Amazon SageMaker > Công việc dán nhãn > vehicle-labeling-demo. Trong phần Đối tượng tập dữ liệu được dán nhãn, hình thu nhỏ của hình ảnh từ tập dữ liệu của bạn xuất hiện với nhãn tương ứng ở bên dưới. Để xem toàn bộ kết quả của công việc dán nhãn, trong phần Tổng kết công việc dán nhãn, hãy nhấp vào liên kết Vị trí tệp dữ liệu kết quả. Ví dụ: s3://sm-gt-dataset/ground-truth-demo/labeled_data/vehicle-labeling-demo/ Chuyển hướng đến thư mục tệp kê khai và mở tệp output.manifest. Ví dụ: s3://sm-gt-dataset/ground-truth-demo/labeled_data/vehicle-labeling-demo/manifests/output/output.manifest output.manifest là một tệp có định dạng JSON, tương tự với tệp input.manifest từ bước 4 nhưng có các trường bổ sung sau:
Bước 6 – Chấm dứt tài nguyênBước cuối cùng của hướng dẫn này là để chấm dứt tài nguyên liên quan đến Amazon SageMaker của bạn. Việc chấm dứt các tài nguyên mà bạn không chủ động sử dụng sẽ làm giảm chi phí và là biện pháp tốt nhất. Tất cả tài nguyên bạn không chấm dứt sẽ khiến tài khoản của bạn bị mất phí. Trong Bảng điều khiển quản lý AWS, hãy chọn Amazon SageMaker > Phiên bản sổ ghi chép > GroundTruthDatasetInstance. Trong danh sách thả xuống Hành động, hãy chọn Dừng. Lưu ý – Sau khi dừng, phiên bản của bạn sẽ không phát sinh phí. Để xóa phiên bản sau khi dừng, từ danh sách thả xuống Hành động, hãy chọn Xóa. Xin chúc mừngHướng dẫn này có hữu ích không?Tìm hiểu thêmAWS sẽ ngừng hỗ trợ cho Internet Explorer vào 07/31/2022. Các trình duyệt được hỗ trợ là Chrome, Firefox, Edge và Safari. Tìm hiểu thêm » |