Bài 5 – Phân loại thư rác bằng Vertex-AutoML

Trong bài này, chúng ta sẽ thực hiện đào tạo thử model bằng AutoML để phân loại email spam.

1. Tạo dataset

Đầu  tiên các bạn sẽ tạo cho mình một dataset để tiến hành thử nghiệm, các bạn có thể truy cập tại đây.

Các bạn chọn Dataset > Create, sau đó các bạn sẽ đặt tên và chọn kiểu dataset. Có 4 kiểu dataset có trong tuỳ chọn là image, tabular, text, video, với mỗi tuỳ chọn sẽ có các kiểu thuật toán khác nhau là single-label classification, multi-label classification, entity extraction, sentiment analysis. Trong trường hợp này, mình sẽ chọn single-label. Sau khi đã hoàn tất các bước cài đặt dataset, các bạn sẽ chọn Create.

Sau khi tạo dataset thành công, tiếp  theo chúng ta cần import data cho dataset vừa tạo. Chúng ta sẽ có 3 option lần lượt là Upload text (khuyến nghị nếu data chưa có nhãn), Import files từ máy local (trong trường hợp đã có nhãn) và import files từ Google Cloud Storage, vì đã có sẵn file nên mình sẽ chọn option Import files từ máy local, các bạn có thể tải file tại đây. Sau khi đã upload file, các bạn cần chọn đường dẫn Cloud Storage để tiến hành lưu lại dataset, sau bước này các bạn sẽ chọn vào Continue


Sau khi tạo các bạn cần chờ khoảng 4-5 phút để Vertex xử lý, hình ảnh nếu các bạn tạo thành công:

Các bạn có thể thấy chúng ta có hai label là spam và not spam. Lưu ý các bạn hoàn toàn có thể sử dụng định dạng .jsonl để thay thế cho .csv, tuy nhiên dù ở định dạng nào thì format data cũng cần tuân thủ theo tài liệu chính thức của Vertex để tránh gây ra lỗi:

 

Format nếu dùng .csv

test,gs://path_to_file,label1 
test,"inline_text",label2 
training,gs://path_to_file,label3 
validation,gs://path_to_file,label1

 

Format nếu dùng .jsonl

{
  "classificationAnnotation": {
    "displayName": "label"
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "classificationAnnotation": {
    "displayName": "label2"
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

 

admin Avatar

AUTHOR

Leave a Reply

Your email address will not be published. Required fields are marked *


You’ll also love