Rất khó để đếm chính xác số lượng bot trên Twitter

Chủ sở hữu tỷ phú Tesla đã thông báo vào tuần trước rằng ông đang hoãn kế hoạch mua Twitter cho đến khi nền tảng truyền thông xã hội này có thể cung cấp bằng chứng cho thấy ít hơn 5% người dùng hoạt động hàng ngày là bot hoặc tài khoản giả mạo.

Nội dung chính Show

Có bao nhiêu bot thực sự trên twitter?
Tại sao Twitter bot là một vấn đề?
Twitter xác định bot như thế nào?
Twitter có thể phát hiện bot không?

Elon Musk đã thuê V. ai, một công ty AI (trí tuệ nhân tạo), để kiểm tra 100 tài khoản đang theo dõi Tesla. V. ai trước đó đã phát hiện ra hoạt động giống như bot giữa các tài khoản nhằm truyền bá thông tin sai lệch về gian lận cử tri Hoa Kỳ

Mặc dù kiểm tra thủ công các số tài khoản trên dẫn đến kết luận rằng hơn một nửa có thể là bot, nhưng kiểm tra thuật toán đã tìm thấy hơn 20 trong số 100 tài khoản có khả năng cao là bot, theo Wired

Ngừng mua mạng xã hội này, theo Elon Musk, vì có tới 20% tài khoản Twitter là bot

Chụp màn hình

Chris Bail, giáo sư xã hội học tại Đại học Duke (Mỹ) cho biết, nếu người dùng nhắc đến Elon Musk trên Twitter, họ sẽ ngay lập tức tương tác với rất nhiều bot tiền điện tử. Tuy nhiên, các chuyên gia cho rằng việc định lượng chính xác tỷ lệ bot trên Twitter khó hơn nhiều

Filippo Menczer, giáo sư tại Đại học Indiana (Mỹ), người đứng đầu nhóm tạo ra thuật toán Botometer cho biết, ngay cả tài khoản của Elon Musk cũng có điểm bot tương đối cao. Tuy nhiên thuật toán không phải lúc nào cũng chính xác

Anh ấy tuyên bố rằng việc phân tích 100 tài khoản sẽ không thể hiện chính xác số người dùng hoạt động hàng ngày của Twitter và kết quả của các mẫu khác nhau sẽ khác nhau rất nhiều

Facebook phải xóa hàng tỷ tài khoản bot mỗi năm, cho thấy rõ rằng tài khoản giả mạo không phải là vấn đề duy nhất mà mạng xã hội này phải đối mặt. Có thể khó xác định xem một tài khoản có phải là bot hay không vì người dùng thực thỉnh thoảng tweet, có tên kỳ lạ và có ít người theo dõi

Phát triển một tài khoản ảo là một cách thành công để kiếm tiền

Chụp màn hình

Các tài khoản bot thường xuyên sử dụng các kỹ thuật để tránh bị phát hiện, chẳng hạn như thích và không thích các tweet, đăng và xóa các cập nhật trạng thái và các tài khoản tự động ngày càng trở nên phức tạp và tinh vi hơn. Nhiều tài khoản tự động hoặc bán tự động hoạt động đồng thời, chẳng hạn như những tài khoản được sử dụng bởi một số nhân viên của một công ty

Vì Twitter có quyền truy cập vào nhiều thông tin hơn về từng tài khoản, chẳng hạn như toàn bộ lịch sử hoạt động của người dùng cũng như các địa chỉ IP và thiết bị khác nhau mà họ sử dụng, nên có thể xác định bot tốt hơn bằng cách sử dụng máy học

Delip Rao, một chuyên gia máy học trước đây từng làm việc về phát hiện thư rác tại Twitter từ năm 2011 đến 2013, tin rằng mạng xã hội này sẽ không tiết lộ cách thức hoạt động của nó vì làm như vậy có thể tiết lộ dữ liệu người dùng

Việc đếm các bot Twitter đã trở thành một điểm gây tranh cãi trong thương vụ mua lại Twitter trị giá 44 tỷ USD đang diễn ra của Elon Musk. Thứ Sáu tuần trước, tỷ phú đã tweet rằng ông đang tạm dừng giao dịch mua của mình cho đến khi công ty cung cấp thông tin chi tiết để chứng minh cho tuyên bố của mình (như đã nêu trong hồ sơ SEC mới nhất) rằng có ít hơn 5% “người dùng hoạt động hàng ngày có thể kiếm tiền” trên Twitter . Musk cũng vạch ra một kế hoạch tự đếm số bot liên quan đến việc lấy mẫu 100 người theo dõi @Twitter để xem có bao nhiêu bot và cho biết phương pháp này cho thấy hơn 20% tài khoản là giả mạo

Nhưng theo các chuyên gia, việc định lượng chính xác tỷ lệ bot trên Twitter khó hơn rất nhiều

Tìm chúng không khó nếu bạn biết tìm ở đâu. Một số tài khoản, bao gồm cả của Musk, dường như thu hút rất nhiều người trong số họ. Chris Bail, giáo sư xã hội học tại Đại học Duke, người nghiên cứu về truyền thông xã hội, cho biết: “Nếu bạn chỉ đơn giản đề cập đến Elon Musk trên Twitter, bạn sẽ ngay lập tức tương tác với rất nhiều bot tiền điện tử.

Twitter không phải mạng xã hội duy nhất chật vật với tài khoản giả mạo. Facebook xóa hàng tỷ tài khoản giả mỗi năm. Nhưng thật khó để biết chắc chắn rằng một tài khoản trên Twitter là bot, vì người dùng hợp pháp có thể có ít người theo dõi, hiếm khi tweet hoặc có tên người dùng lạ. Việc đánh giá tổng thể số lượng bot hoạt động trên toàn bộ nền tảng thậm chí còn khó hơn

Để kiểm tra phương pháp đề xuất của Musk, IV. ai, một công ty AI, đã xem xét 100 tài khoản theo dõi công ty sản xuất ô tô Tesla của Musk trên Twitter

Một cuộc kiểm tra thuật toán các tài khoản vào thứ Ba cho thấy hơn 20 tài khoản trong số 100 tài khoản có khả năng cao là bot. Một cuộc kiểm tra thủ công trong số 100 người đó đã kết luận rằng hơn một nửa có thể là bot. Và một phân tích về các chủ đề được thảo luận bởi các tài khoản đó đã không tìm thấy bằng chứng cho thấy bất kỳ tài khoản nào bị nghi ngờ là quảng cáo. Nhưng nhiều tài khoản trong số đó cũng biến mất ngay sau đó, cho thấy Twitter bắt bot khá nhanh. Vince Lynch, Giám đốc điều hành của IV. ai, cho biết việc xác định các tài khoản đáng ngờ cũng mang tính chủ quan và liên quan đến một mức độ không chắc chắn.

Filippo Menczer, giáo sư tại Đại học Indiana, người đứng đầu sự phát triển của thuật toán Botometer, cho biết: “Đó là một vấn đề rất khó. Menczer nói rằng việc xem xét 100 tài khoản sẽ không đại diện cho người dùng hoạt động hàng ngày của Twitter và các mẫu khác nhau sẽ tạo ra kết quả cực kỳ khác nhau. “Tôi muốn hy vọng rằng đó chỉ là một trò đùa,” Menczer nói về phương pháp này

Tài khoản tự động đã trở nên tinh vi và phức tạp hơn trong những năm gần đây. Nhiều tài khoản giả được điều hành một phần bởi con người, cũng như máy móc, hoặc chỉ khuếch đại thông điệp được viết bởi người thật (cái mà Menczer gọi là “tài khoản cyborg”). Các tài khoản khác sử dụng các thủ thuật được thiết kế để tránh sự phát hiện của con người và thuật toán, chẳng hạn như nhanh chóng thích và không thích các tweet hoặc đăng và xóa các tweet. Và tất nhiên, có rất nhiều tài khoản tự động hoặc bán tự động, chẳng hạn như những tài khoản do nhiều công ty điều hành, không thực sự gây hại

Thuật toán Botometer sử dụng máy học để đánh giá nhiều loại dữ liệu công khai được liên kết với một tài khoản—không chỉ nội dung của các tweet mà cả thời điểm gửi tin nhắn, ai theo dõi tài khoản, v.v.—để xác định khả năng tài khoản đó có phải là bot hay không. Mặc dù thuật toán là hiện đại nhất, nhưng Menczer nói, “rất nhiều tài khoản hiện rơi vào phạm vi mà thuật toán về cơ bản không chắc chắn lắm. ”

Menczer và những người khác nói rằng phát hiện bot là trò chơi mèo vờn chuột. Nhưng họ nói thêm rằng nó có thể trở nên khó khăn hơn đáng kể trong tương lai khi những kẻ gửi thư rác sử dụng các thuật toán có khả năng tạo ra văn bản thuyết phục và tổ chức các cuộc hội thoại mạch lạc tốt hơn

Bản thân Twitter được trang bị tốt hơn để phát hiện các bot bằng cách sử dụng máy học vì nó có quyền truy cập vào nhiều dữ liệu hơn về mỗi tài khoản. Điều này bao gồm toàn bộ lịch sử hoạt động của người dùng, cũng như các địa chỉ IP và thiết bị khác nhau mà họ sử dụng. Nhưng Delip Rao, một chuyên gia về máy học đã làm việc về phát hiện thư rác tại Twitter từ năm 2011 đến năm 2013, cho biết công ty có thể không tiết lộ cách thức hoạt động của nó vì làm như vậy có thể tiết lộ dữ liệu cá nhân hoặc thông tin có thể được sử dụng để thao túng đề xuất của nền tảng

Tuần này, Musk cũng đã có một cuộc cãi vã với Parag Agrawal, Giám đốc điều hành của Twitter, về việc công ty có thể dễ dàng tiết lộ phương pháp tìm kiếm bot của mình như thế nào. Vào thứ Hai, Agrawal đã đăng một chủ đề giải thích mức độ phức tạp của thử thách. Ông lưu ý rằng dữ liệu riêng tư mà Twitter nắm giữ có thể thay đổi các tính toán xung quanh số lượng bot trên dịch vụ. “FirstnameBunchOfNumbers không có ảnh hồ sơ và các dòng tweet kỳ lạ có thể giống như bot hoặc thư rác đối với bạn, nhưng đằng sau hậu trường, chúng tôi thường thấy nhiều dấu hiệu cho thấy đó là người thật,” anh ấy viết trong chủ đề. Agrawal cũng cho biết Twitter không thể tiết lộ chi tiết về những đánh giá này

Nếu Twitter không thể hoặc không muốn tiết lộ phương pháp của mình và Musk nói rằng ông sẽ không tiến hành nếu không có thông tin chi tiết, thỏa thuận có thể vẫn còn trong tình trạng lấp lửng. Tất nhiên, Musk có thể sử dụng vấn đề này làm đòn bẩy để thương lượng giảm giá

Hiện tại, Musk có vẻ không hài lòng với những nỗ lực của Twitter để giải thích lý do tại sao việc tìm kiếm bot không dễ như anh nghĩ. Anh ấy đã trả lời chủ đề dài của Agrawal vào thứ Hai bằng một tin nhắn đơn giản có vẻ phù hợp với một bot hơn là một người mua tiềm năng của Twitter. một biểu tượng cảm xúc phân tươi cười

Cập nhật 9/5/2022 12. 00 ET. Phần này đã được cập nhật để không ngụ ý rằng IV. ai tự tay xác định hoạt động giống bot giữa các tài khoản khuếch đại thông tin sai lệch về gian lận cử tri Hoa Kỳ

Có bao nhiêu bot thực sự trên twitter?

Ít hơn 5% tài khoản người dùng có thể kiếm tiền trên Twitter được kiểm soát bởi bot, theo nhà cung cấp thông tin kỹ thuật số Similarweb.

Tại sao Twitter bot là một vấn đề?

Mối nguy hiểm do bot gây ra là chúng cũng có nhiều người theo dõi, khiến chúng có khả năng tác động đến ý kiến . Trong nghiên cứu luận tội Trump của chúng tôi, chúng tôi nhận thấy rằng mặc dù các bot chỉ chiếm 1% số người dùng đang hoạt động, nhưng chúng đã được theo dõi bởi hơn 24% số người dùng đang hoạt động.

Twitter xác định bot như thế nào?

Thuật toán Botometer sử dụng công nghệ máy học để đánh giá nhiều loại dữ liệu công khai được liên kết với một tài khoản —không chỉ nội dung của các tweet mà cả thời điểm gửi tin nhắn, người theo dõi tài khoản .