Bạn có thể thực hiện khớp mờ trong Google Trang tính không?

Tôi thường cố gắng cung cấp một cái gì đó mới cho độc giả của mình trong tất cả các hướng dẫn của mình. Lần này cũng vậy, trong hướng dẫn Google Trang tính này, tôi đã bao gồm một số mẹo hay liên quan đến Đối sánh một phần trong Vlookup trong Google Trang tính

Nội dung chính Show

Kết hợp một phần với chức năng Google Sheets Vlookup
Cột văn bản khớp một phần trong Vlookup trong Google Trang tính
Cột số trong Khớp một phần trong Vlookup trong Google Trang tính
Cột ngày trong Khớp một phần trong Vlookup trong Google Trang tính
Các phương thức khác nhau trong khớp chuỗi là gì và chúng làm gì?
Kết hợp chính xác – Phương pháp và Hạn chế
Kết hợp dựa trên khoảng cách, nổi bật nhất là Levenshtein và Jaro – Phương pháp và Hạn chế
Kết hợp ngữ âm như Metaphone – Phương pháp và Hạn chế
Kết hợp chuỗi N-gram – Phương pháp và Hạn chế
Kết hợp chuỗi TF-IDF
Một số thư viện khớp chuỗi thường được sử dụng mà bạn có thể gặp phải là gì?
Gấu trúc mờ (Python)
PolyFuzz (Trăn)
Fuzzywuzzy (Trăn)
Kết hợp mờ để xác định cơ hội liên kết nội bộ
Tìm sự giống nhau giữa hai chuỗi – Từ khóa, URL, Tiêu đề
Tìm cơ hội thích trang Nội bộ trong cùng một cụm chủ đề hoặc trên các nhóm trang khác nhau
Kết hợp mờ cho nghiên cứu đối thủ cạnh tranh
Thực hiện phân tích đối thủ cạnh tranh về sự khác biệt của URL và tiêu đề, xác định cơ hội sử dụng từ khóa
Kết hợp mờ để lập bản đồ chuyển hướng & xác định đạo văn nội dung
Đánh giá kết quả ánh xạ chuyển hướng URL và/hoặc đạo văn nội dung
Khớp 404 với nội dung hiện có và tạo danh sách chuyển hướng
Kết hợp mờ cho cụm từ khóa – không được khuyến nghị. Đây là lý do tại sao
Suy nghĩ cuối cùng và tài nguyên bổ sung
Các câu hỏi thường gặp
Google Trang tính có Tra cứu mờ không?
Tôi có thể sử dụng đối sánh trong Google Trang tính không?
Google Trang tính có khớp chỉ mục không?

Nhiều người biết cách khớp từng phần trong cột văn bản trong Vlookup. Nhưng chỉ một số ít (có thể không ai) biết cách thực hiện trong cột số cũng như cột ngày

Nói cách khác, không cần sử dụng Truy vấn, chúng tôi có thể tìm thấy kết quả khớp một phần trong cột Văn bản, Số và Ngày trong Google Trang tính. Đây là những lời khuyên tuyệt vời cho độc giả của tôi

Tôi đã chia sẻ các mẹo cơ bản về Kết hợp một phần Vlookup trong Hướng dẫn Vlookup cuối cùng của mình. Nhưng lần này tôi đã bao gồm nhiều chi tiết hơn

Kết hợp một phần với chức năng Google Sheets Vlookup

Đối với khớp một phần, chúng tôi có thể sử dụng các ký tự đại diện *, ~ và ? . Trong phần ví dụ, bạn có thể thấy các công thức sử dụng ba ký tự đại diện này

Điều đầu tiên là đầu tiên. Đây là Cú pháp Vlookup

VLOOKUP(search_key, range, index, [is_sorted])

Ghi chú

1. Khi bạn so khớp một phần trong Vlookup, phần cuối cùng của công thức, ý tôi là “được_sắp_xếp” phải là 0 hoặc FALSE. Điều đó có nghĩa là dữ liệu không được sắp xếp và chúng tôi muốn khớp chính xác. Không đặt 1 hoặc TRUE

2. Chúng tôi có thể sử dụng các ký tự đại diện với “search_key”, không phải với “range”

Cột văn bản khớp một phần trong Vlookup trong Google Trang tính

Công thức Vlookup bên dưới tìm kiếm xuống Cột A cho “search_key”, “FM*”. Điều đó có nghĩa là bất kỳ chuỗi nào bắt đầu bằng các chữ cái FM. Sau đó, nó trả về giá trị từ cột thứ ba (Số lượng)

Nếu bạn muốn sử dụng “search_key” làm tham chiếu ô, công thức sẽ như sau

=vlookup(D2&"*",A2:C9,3,FALSE)

Trong công thức này, ô D2 có khóa tìm kiếm “FM”, không có dấu ngoặc kép

Bạn có thể sử dụng các ký tự đại diện ở các dạng khác nhau trong “search_key” trong Vlookup. Ví dụ: hãy xem một số cách tạo “search_key” và ký tự đại diện và ý nghĩa của nó

“info*blog” – Khóa tìm kiếm này khớp với bất kỳ từ nào như blog thông tin lấy cảm hứng từ, blog chính thức về thông tin, v.v.

“*thông tin*” – trong văn bản này phải chứa từ “thông tin”. Nó có thể giống như;

Xem Hướng dẫn Google Trang tính bên dưới để tìm hiểu cách sử dụng các ký tự đại diện khác như Dấu ngã và Dấu chấm hỏi

Phải đọc. Cách sử dụng các ký tự đại diện trong các hàm của Google Sheets

Cột số trong Khớp một phần trong Vlookup trong Google Trang tính

Thông thường, khớp một phần trong Vlookup trong Google Trang tính không lấy số và ngày trong search_key. Nhưng có một cách giải quyết. Xem công thức và ví dụ bên dưới

Trong ví dụ này, tôi muốn tìm tên của học sinh (xuất hiện đầu tiên trong danh sách) có điểm lớn hơn hoặc bằng 90

Ở đây, giải pháp thay thế là với hàm TO_TEXT chuyển đổi các giá trị cột tra cứu ở dạng số thành văn bản bên trong công thức

Xem phạm vi dữ liệu trong công thức. Thay vì rõ ràng sử dụng A2. B6, trước tiên tôi đã chuyển đổi các giá trị trong Cột A2. A6 thành văn bản, sau đó nối (ở đây nối có nghĩa là tạo một mảng hai cột thích hợp) Cột này với phạm vi Cột B2. B6 bằng cách sử dụng Dấu ngoặc nhọn

Tôi đã sử dụng hàm ArrayFormula do sử dụng hàm TO_TEXT không phải mảng trong công thức

Cột ngày trong Khớp một phần trong Vlookup trong Google Trang tính

Logic tương tự ở trên bạn cũng có thể áp dụng trong trường ngày tháng. Dưới đây là một ví dụ đối sánh một phần cột ngày trong Vlookup

Với sự trợ giúp của công thức Vlookup trên, tôi có thể trích xuất tên của người sinh năm 1985. Công thức này bằng với công thức Vlookup bên dưới

Trước khi chúng ta nói về PolyFuzz và kết hợp mờ, nhiều ứng dụng của nó trong thế giới SEO, những hạn chế và cạm bẫy của nó cũng như cách bắt đầu với nó bất kể kinh nghiệm viết mã của bạn như thế nào, trước tiên hãy dành chút thời gian để cảm ơn nhà tài trợ của bài viết hôm nay – Ahrefs

Tôi muốn gửi lời cảm ơn sâu sắc tới Ahrefs vì đã tài trợ cho bài viết này do một yêu cầu phổ biến từ chủ đề Twitter này và đặc biệt là các công cụ Quản trị trang web của Ahrefs, hoàn hảo cho các chủ sở hữu trang web nhỏ, vì nó hoàn toàn miễn phí sử dụng và cực kỳ dễ dàng . Nếu bạn đang tìm cách cải thiện trang web của mình và mang lại giá trị tức thì với ngân sách, thì Công cụ quản trị trang web là công cụ hoàn hảo để bắt đầu

Chúng tôi vừa ra mắt Công cụ quản trị trang web Ahrefs. https. //t. co/WESA9JZDM7

Chúng tôi muốn TẤT CẢ những người sáng tạo nội dung có dữ liệu họ cần để cải thiện trang web của họ – vì vậy chúng tôi đang cung cấp một số phần của Ahrefs MIỄN PHÍ cho mọi người. Hãy nghĩ về điều đó khi chúng tôi bắt đầu từ nơi GSC đã dừng lại 😉

Hãy giúp RT.
– Ahrefs (@ahrefs) Ngày 22 tháng 9 năm 2020

Khớp chuỗi là gì?

Khớp chuỗi trong học máy là một vấn đề xuất hiện từ đầu những năm 1980. Về cơ bản, vấn đề đo khoảng cách giữa hai chuỗi và tính toán trên cơ sở đó là điểm tương đồng giữa hai chuỗi hoặc nếu không - tạo một phép so khớp gần đúng để phân loại các chuỗi là tương đương, tương tự hoặc xa nhau

Một nghiên cứu từ Hall và Dowling (1980), đọc

Kết hợp gần đúng các chuỗi được xem xét với mục đích khảo sát các kỹ thuật phù hợp để tìm một mục trong cơ sở dữ liệu khi có thể có lỗi chính tả hoặc lỗi khác trong từ khóa. Các phương pháp được tìm thấy được phân loại là các vấn đề tương đương hoặc tương tự

Trong cùng một nghiên cứu, các tác giả mô tả rằng một số lý do để thực hiện các thuật toán so khớp chuỗi là rộng rãi. sửa lỗi hoặc truy xuất thông tin

Sửa lỗi đề cập đến quan điểm sửa lỗi và là một hình thức xác định các mẫu trong một kho dữ liệu lớn hoặc nói cách khác - truy xuất thông tin dựa trên đầu vào được chỉ định, tìm sự không khớp tương tự và sửa lỗi

Truy xuất thông tin là tất cả về việc cung cấp đầu vào, mô tả chính xác nhất thông tin chúng tôi đang cố truy xuất từ tập dữ liệu. Ở đây, có thể có hai rủi ro – chương trình trả về những từ không mong muốn và thiếu những từ được yêu cầu

Vấn đề tương tự trong khớp chuỗi là sự hiểu biết về tính gần đúng của hai chuỗi. Mặt khác, hai chuỗi giống nhau như thế nào?

Trong các hệ thống thông tin có thể lập trình, sự thay đổi của chuỗi được đo bằng các lỗi chính tả và đánh máy. Các nghiên cứu ban đầu trong lĩnh vực này đã phát hiện ra rằng việc nhầm một chữ cái với một chữ cái khác là lỗi đánh máy phổ biến nhất, nhưng cũng có thể bỏ sót một chữ cái hoặc chèn nhầm một chữ cái khác

Các phương thức khác nhau trong khớp chuỗi là gì và chúng làm gì?

Kể từ khi khớp chuỗi ra đời, rất nhiều công việc đã được thực hiện trong lĩnh vực này với một số thuật toán khác nhau và các phương pháp được giới thiệu.

Trong phần này, tôi muốn giới thiệu ngắn gọn về các loại đối sánh chuỗi chính được sử dụng và các thư viện chính mà bạn có thể gặp phải khi bắt đầu thực hiện loại công việc này

Kết hợp chính xác – Phương pháp và Hạn chế

Đối sánh chính xác, hay còn được gọi là đối sánh trực tiếp, là phương pháp thực hiện đối sánh truy cập trực tiếp đối với mẫu chính xác hoặc các điểm tương đồng của nó trong văn bản tùy thuộc vào vị trí của một ký tự theo thứ tự bảng chữ cái

Thuật toán Boyer–Moore là một trong những thuật toán đối sánh mẫu nổi tiếng nhất và được coi là rất nhanh trong thực tế. Nó được thiết kế để so khớp chuỗi chính xác của nhiều chuỗi với một từ khóa duy nhất. Đây là cách nó hoạt động trong thực tế

bạn có một chuỗi đầu vào (từ khóa) mà bạn muốn tìm điểm tương đồng trong tập dữ liệu
chương trình lặp qua các mục nhập và trước tiên kiểm tra các ký tự trong từ khóa (liệu chúng có xuất hiện trong mục nhập tập dữ liệu nhất định hay không), sau đó kiểm tra độ dài của mục nhập từ khóa của bạn (liệu nó có khớp với mục nhập tập dữ liệu đã cho hay không)
nếu có sự trùng khớp, quá trình này được lặp lại cho tất cả các ký tự trong từ, cho đến khi đạt được sự trùng khớp chính xác
nếu có sự không khớp, thuật toán sẽ tìm ví dụ về chuỗi con tiếp theo đã khớp (khớp từ khóa một phần)

Kết hợp dựa trên khoảng cách, nổi bật nhất là Levenshtein và Jaro – Phương pháp và Hạn chế

Thuật toán chỉnh sửa khoảng cách được coi là thuật toán tốt nhất được sử dụng để tìm khoảng cách giữa hai chuỗi. Khoảng cách chỉnh sửa giữa hai chuỗi 's' và 't' là số thao tác chỉnh sửa tối thiểu cần thiết để chuyển chuỗi 's' thành 't'. Đây là cách nó hoạt động

bạn có một từ khóa (đầu vào) và một mục dữ liệu
chương trình tính toán số lần thay đổi ký tự cần thiết để chuyển từ đầu vào sang mục nhập

Hạn chế của phương pháp này là nó dựa trên phương pháp khoảng cách ký tự đơn giản, không có bất kỳ sự hiểu biết nào về sự giống nhau về ngữ nghĩa giữa hai từ khóa. Chẳng hạn, các từ HARD và HAND sẽ được coi là giống hơn các từ HARD và HARDER, vì các từ sau sẽ cần thêm hai ký tự, trong khi các từ trước chỉ cần một ký tự thay thế

Kết hợp ngữ âm như Metaphone – Phương pháp và Hạn chế

Kết hợp ngữ âm đóng một vai trò quan trọng trong việc truy xuất thông tin trong môi trường đa ngôn ngữ, nơi có thể có sự đa dạng về cách phát âm hoặc cách viết với cùng một ý nghĩa. Trong những trường hợp như vậy, kỹ thuật đối sánh ngữ âm cũng được sử dụng cho các ngôn ngữ khác ngoài tiếng Anh

Một số ví dụ phổ biến về các thuật toán như vậy là Metaphone, DMetaphone, Caverphone và Mã phiên âm của Hệ thống thông tin và nhận dạng bang New York (NYSIIS). Tuy nhiên, trong số tất cả các thuật toán này, các nghiên cứu đã chỉ ra rằng Metaphone vượt trội về hiệu suất so với các kỹ thuật khác đối với tất cả các loại lỗi (e. g. lỗi chính tả, vắng mặt chữ cái, tráo đổi chữ cái, có thêm chữ cái, v.v.), theo sau là Caverphone và NYSIIS

Một số lời chỉ trích hoặc hạn chế của các thuật toán này là chúng không hiệu quả lắm vì độ chính xác thấp với hầu hết chúng trả về một số lượng lớn kết quả dương tính giả. Các thuật toán như vậy không phát hiện tất cả các kết quả trùng khớp và điều quan trọng là phải điều chỉnh loại thuật toán được sử dụng cho loại cơ sở dữ liệu mà nó sẽ chuyển qua

Kết hợp chuỗi N-gram – Phương pháp và Hạn chế

N-gram đề cập đến việc phát hiện các lần xuất hiện của một tập hợp các mảng mẫu cố định dưới dạng các mảng con được nhúng trong một mảng đầu vào. Nói một cách đơn giản, đây là cách nó hoạt động

bạn nhập từ khóa “khớp chuỗi trong máy học là gì” làm đầu vào của bạn
cái này có thể được chia thành 2 gam (bi-gam) như “what is”, “is sting”, “sting matching”, “matching in”, “In machine”, “machine learning” hoặc 3-gram (tri . “chuỗi là gì”, “khớp chuỗi là gì”, “khớp chuỗi trong”, “khớp trong máy”, “trong học máy”, hoặc 4 gam, 5 gam, 6 gam hoặc một 7 gam
Tất cả các biến thể này được tìm kiếm trong tập dữ liệu, được phân loại dựa trên đầu vào n-gram – e. g. khớp với một bigram hoặc khớp với 6 gram, với độ tương tự dựa trên sự hiện diện của n-gram trong mục nhập tập dữ liệu

Các thuật toán dựa trên N-gram cực kỳ hiệu quả để trích xuất nhanh dữ liệu liên quan đến các mẫu lớn

Loại thuật toán khớp chuỗi này có một số ứng dụng khác nhau trong số đó (nhưng chắc chắn không giới hạn ở)

phát hiện tương tự để xác định đạo văn,
phát hiện từ khóa hoặc cụm từ khóa từ một kho dữ liệu lớn (e. g. từ lĩnh vực SEO, tiêu đề hoặc mô tả meta nào phù hợp với cụm từ khóa thích hợp hoặc một phần của cụm từ đó),
tìm các bài báo đề cập đến một mẫu từ khóa nhất định (e. g. bài viết hướng dẫn, bài viết hướng dẫn cơ bản, v.v.)

Kết hợp chuỗi TF-IDF

Độ tương tự cosine với tf-idf là một chỉ số được thiết lập tốt để so sánh văn bản, đã được điều chỉnh để khớp linh hoạt một chuỗi truy vấn với các giá trị trong một thuộc tính duy nhất của một quan hệ

TF-IDF phân tích toàn bộ kho từ và đánh giá từng mã thông báo quan trọng hơn đối với chuỗi nếu nó ít phổ biến hơn trong kho văn bản, như Adrial Pearl đã nhấn mạnh trong dự án này

Một số hạn chế là cách tiếp cận này không xem xét sự tương đồng về ngữ nghĩa giữa đầu vào và các mục cơ sở dữ liệu được tìm thấy và cũng không nhanh khi được đặt ở độ chính xác cao

Một số thư viện khớp chuỗi thường được sử dụng mà bạn có thể gặp phải là gì?

Gấu trúc mờ (Python)

Fuzzy pandas là một thư viện đơn giản, mạnh mẽ và tinh gọn cho phép bạn thực hiện khớp mờ với các khung dữ liệu gấu trúc. Bạn có thể tìm thấy mô tả dự án Python, đoạn mã và tài liệu tại đây

PolyFuzz (Trăn)

Theo nghĩa chung nhất, PolyFuzz có thể được sử dụng để khớp, nhóm và đánh giá chuỗi mờ

PolyFuzz sử dụng các kỹ thuật khớp chuỗi mờ khác nhau làm khung, chẳng hạn như khoảng cách Levenshtein, dựa trên ký tự TF-IDF và các phương thức n-gram cùng nhau. Khung này có thể được tùy chỉnh để mô hình khớp chuỗi mờ, đây là điều làm cho thư viện không chỉ mạnh mẽ mà còn rất có giá trị đối với các tác vụ khớp chuỗi

Lợi ích của việc sử dụng PolyFuzz là gì?

Một lợi ích to lớn là khả năng tùy chỉnh thuật toán bạn sử dụng – chỉ với một vài dòng mã, bạn có thể nhanh chóng triển khai các mô hình so khớp khác nhau, tùy thuộc vào nhu cầu và dữ liệu của bạn

Ngoài ra, một lợi ích khác là với PolyFuzz, bạn cũng có thể chọn thuật toán chỉnh sửa khoảng cách, đặc biệt nếu bạn không muốn bị cản trở bởi những hạn chế của cơ bản (e. g. thuật toán đối sánh chính xác hoặc đối sánh khoảng cách Levenshtein). Có rất nhiều thuật toán chỉnh sửa khoảng cách mà bạn có thể muốn sử dụng và chúng tôi chỉ chuyển đổi một phần nhỏ trong số chúng trong bài viết này. PolyFuzz cho phép thử nghiệm và tùy chỉnh như không có gói nào khác. Bạn có thể sử dụng bất kỳ thước đo khoảng cách nào, xem tài liệu tại đây

Kiểm tra hướng dẫn của Maarten Grootendorst về khớp chuỗi w/ BERT, TFIDF và các thuật toán và thước đo khoảng cách khác, được tận dụng thông qua PolyFuzz

Một điều thú vị khác về PollyFuzz là khả năng khớp, nhóm và trực quan hóa nhiều mô hình trong một phiên bản PolyFuzz duy nhất, có thể được sử dụng trong quy trình lựa chọn mô hình để so sánh hiệu suất của các thuật toán khác nhau trên một mẫu tập dữ liệu của bạn

Fuzzywuzzy (Trăn)

Fuzzywuzzy là một thư viện python sử dụng Khoảng cách Levenshtein để tính toán sự khác biệt giữa các chuỗi và mẫu. Điều này hoạt động theo cách mà chúng tôi đã giải thích – bằng cách tính toán số lần sửa cần thiết để chuyển từ lỗi chính tả đã xác định của một mục nhập thành từ khóa đầu vào

Hãy xem hướng dẫn tuyệt vời này để bắt đầu với thư viện này. , được xuất bản bởi Catherine Gitau

Kết hợp mờ có thể được sử dụng để làm gì trong bối cảnh công việc SEO?

Kết hợp mờ để xác định cơ hội liên kết nội bộ

Tìm sự giống nhau giữa hai chuỗi – Từ khóa, URL, Tiêu đề

Cách nhanh nhất để tìm xem hai chuỗi giống nhau như thế nào là sử dụng kết hợp mờ dưới dạng Tập lệnh ứng dụng trong Google Trang tính hoặc TÌM KIẾM Mờ dưới dạng Công thức trong Excel

Nếu bạn muốn sử dụng Excel – Công thức FUZZYLOOKUP được phát triển như một tiện ích bổ sung và bạn có thể tìm thấy một hướng dẫn tuyệt vời về cách sử dụng nó tại đây. Về cơ bản, công thức này là một phiên bản nâng cao của VLOOKUP, sử dụng toán học nâng cao để tính xác suất mà những gì nó tìm thấy khớp với mục nhập tìm kiếm của bạn, nghĩa là công cụ này hoạt động ngay cả khi các ký tự (số, chữ cái, dấu chấm câu) không khớp chính xác.

Tuy nhiên, sắc thái hơn một chút là ứng dụng FuzzyLook-up trong Google Trang tính dưới dạng AppScript

Việc cài đặt và bắt đầu dễ dàng hơn, đồng thời thân thiện với người dùng hơn một chút khi sử dụng FuzzyLookup trong Google Trang tính

Hãy xem cách đánh giá nhanh mức độ giống nhau của các trang, tiêu đề hoặc từ khóa

Mẫu bảng so sánh và đánh giá chuỗi của Lazarina Stoy

Đánh giá độ tương tự của chuỗi trong vài giây ✨ – Sao chép mẫu Google Trang tính

Tìm cơ hội thích trang Nội bộ trong cùng một cụm chủ đề hoặc trên các nhóm trang khác nhau

Dựa trên nội dung trích xuất nội dung trang của bạn từ Screaming Frog, bạn cũng có thể tìm các trang tương tự để liên kết đến

Đề xuất ở đây là chỉ sử dụng điều này cho các trang có bản chất hơi giống nhau về cấu trúc nội dung (e. g. trang sản phẩm), nếu không bạn sẽ so sánh táo với cam. Một lưu ý quan trọng khác là điều này sẽ không giúp bạn đánh giá ngữ nghĩa nội dung như một phần của quy trình, vì vậy hãy đảm bảo rằng bạn đã thống nhất về các hạn chế của khớp mờ trước khi tiếp tục

Tốt nhất là giữ cho các so sánh tương đối thấp về khối lượng, vì vậy tốt hơn là so sánh các đoạn của một trang hoặc tiêu đề, trái ngược với toàn bộ nội dung của trang. Mặc dù điều này rất tốt cho thử nghiệm, nhưng cũng rất quan trọng để xem xét các đề xuất được cung cấp và kiểm tra chúng sau đó, để đảm bảo các liên kết được tạo là hợp lý

Tìm cơ hội liên kết nội bộ trong Google Trang tính

Nhanh chóng tìm các cơ hội liên kết nội bộ để xem xét và triển khai ✨ – Sao chép mẫu Google Trang tính

Kết hợp mờ cho nghiên cứu đối thủ cạnh tranh

Thực hiện phân tích đối thủ cạnh tranh về sự khác biệt của URL và tiêu đề, xác định cơ hội sử dụng từ khóa

Greg Bernhardt cũng đã tạo một tập lệnh và ứng dụng Streamlit, sử dụng PolyFuzz để thực hiện phân tích cạnh tranh về URL và dữ liệu trang web khác, chẳng hạn như tiêu đề

Mục đích của các công cụ được tạo ra là tìm ra sự khác biệt giữa cấu trúc URL xếp hạng, tiêu đề và cách sử dụng từ khóa của bạn với của đối thủ cạnh tranh, khám phá nơi họ xếp hạng cao hơn bạn (thông qua việc sử dụng API Semrush) và làm nổi bật các cơ hội cũng như chiến thắng nhanh chóng

Ứng dụng phân tích URL cạnh tranh của Greg Bernhardt

Kết hợp mờ để lập bản đồ chuyển hướng & xác định đạo văn nội dung

Đánh giá kết quả ánh xạ chuyển hướng URL và/hoặc đạo văn nội dung

Francis Angelo Reyes đã trình bày một công cụ lập bản đồ Chuyển hướng URL tiện lợi bằng cách sử dụng Beautiful Soup để quét nội dung sau khi dự án chuyển hướng đã được thực hiện và PolyFuzz để phân tích nhằm nhanh chóng kiểm tra sự tương đồng về nội dung. Mục đích của công cụ, theo lời của Francis, là

Tìm các URL giống hệt nhau trong quá trình di chuyển trang web. Điều này hữu ích khi bạn cần vạch ra các trang từ tên miền 'hiện tại' hoặc 'cũ' sang tên miền 'mới'
Francis Angelo Reyes, Lupage Digital

Công cụ này cũng có thể tăng gấp đôi vai trò là công cụ kiểm tra đạo văn nội dung – nói chung là ứng dụng siêu hữu ích

Loại kiểm tra này cũng có thể được thực hiện thông qua mẫu Google Trang tính và video mà tôi đã chia sẻ trước đó

Bản đồ chuyển hướng URL Mẫu Google Trang tính của Lazarina Stoy

Dễ dàng bắt đầu Ánh xạ các chuyển hướng của bạn ✨ – Sao chép mẫu Google Trang tính

Khớp 404 với nội dung hiện có và tạo danh sách chuyển hướng

Chuyên gia kỹ thuật SEO và Python huyền thoại Greg Bernhardt đã tạo một tập lệnh Python đơn giản nhưng hiệu quả, sử dụng PolyFuzz để khớp 404 với nội dung hiện có và tạo danh sách chuyển hướng bằng mô-đun Python có tên Polyfuzz. Đối với mỗi trường hợp sử dụng tuyệt vời, Greg cũng phát hành một tập lệnh và ứng dụng Streamlit

Tìm hiểu cách Tạo danh sách chuyển hướng 404 cho SEO bằng Polyfuzz bằng Python và sử dụng ứng dụng, được liên kết bên dưới

Trình so khớp chuyển hướng URL của Greg Bernhardt

Kết hợp mờ cho cụm từ khóa – không được khuyến nghị. Đây là lý do tại sao

Tôi muốn đề cập rằng Polyfuzz và kết hợp mờ nói chung có thể được sử dụng để phân cụm từ khóa và nhóm các từ khóa trong quá trình nghiên cứu từ khóa hoặc liên kết ngược trong quá trình nghiên cứu liên kết ngược. Mã để làm điều đó có thể được tìm thấy trong chính tài liệu của API

Tuy nhiên, như Lee Foot đã tuyên bố sau các thử nghiệm của mình trong việc sử dụng PolyFuzz để phân cụm từ khóa, đây hoàn toàn không phải là cách lý tưởng hoặc được đề xuất để thực hiện phân cụm từ khóa, vì những lý do được đề cập trong phần lý thuyết của bài viết này. Cụ thể, kết hợp mờ đó thực hiện các thay đổi đơn giản giữa các ký tự, trái ngược với việc tìm kiếm các mối quan hệ ngữ nghĩa giữa các từ trong cụm, do đó, như Lee đã nói

Mặc dù nó đã hoàn thành công việc, nhưng luôn có một số cụm khiến tôi phải vò đầu bứt tai mà tôi cảm thấy kết quả ban đầu có thể được cải thiện. Các từ chia sẻ một mẫu chữ cái tương tự sẽ được nhóm lại ngay cả khi chúng không liên quan về mặt ngữ nghĩa
Lee Foot, Tạp chí Công cụ Tìm kiếm

Suy nghĩ cuối cùng và tài nguyên bổ sung

Vì vậy, bây giờ bạn đã biết cách kết hợp mờ hoạt động, lợi ích, hạn chế và trường hợp sử dụng cho SEO, bạn có tất cả các công cụ cần thiết để tự mình kiểm tra. Đây chắc chắn là một trong những cách dễ dàng nhất để bắt đầu với machine learning cho SEO, vì nó có lợi ích về mặt tự động hóa và khả năng mở rộng, nhưng cũng có một số hạn chế khá đáng kể, khiến nó hữu ích trong một số bối cảnh nhất định nhưng lại vô dụng trong những bối cảnh khác

Trong bài viết này, tôi đã giới thiệu công việc của những người sáng tạo tuyệt vời trong lĩnh vực SEO, nhưng tôi cũng muốn cung cấp cho bạn một số kiến thức bổ sung, nếu bạn muốn tìm hiểu sâu hơn về chủ đề này. Dưới đây là một số tài nguyên và người sáng tạo tuyệt vời đã viết về Kết hợp mờ và đó là các trường hợp sử dụng

Maarten Grootendorst đã viết một đoạn giới thiệu tuyệt vời về Fuzzy Matching cho Python – bắt đầu viết mã trực tiếp tại đây
Raoof Naushad đã viết một hướng dẫn tuyệt vời khác về các phương pháp so khớp mờ khác nhau
Nếu bạn là kiểu người học qua video (như bản thân tôi), đây là hai video nói chuyện sẽ hướng dẫn bạn cách khớp mờ
- Độ tương tự của chuỗi, Tìm kết quả phù hợp nhất trong JavaScript và Google Trang tính – (*) mã cho mẫu của tôi là từ video này
- Hướng dẫn Google Colab – Tra cứu đối sánh mờ với dữ liệu Google Trang tính bằng Python Fuzzy Pandas
Không cần phải nói, tài liệu sẽ là người bạn tốt nhất của bạn khi xây dựng các công cụ tùy chỉnh, vì vậy hãy đọc tài liệu
Một tập lệnh ứng dụng js tương tự chuỗi thú vị khác của Stephen Brown

Cảm ơn bạn đã đọc và học tập vui vẻ

Các câu hỏi thường gặp

Khớp chuỗi là gì?

Các phương thức khác nhau trong khớp chuỗi là gì và chúng làm gì?

1. Khớp chính xác thực hiện khớp truy cập trực tiếp cho mẫu chính xác trong văn bản tùy thuộc vào vị trí của một ký tự theo thứ tự bảng chữ cái.
2. Kết hợp dựa trên khoảng cách, nổi bật nhất là Levenshtein và Jaro, đánh giá khoảng cách giữa hai chuỗi bằng cách tính toán số thao tác chỉnh sửa tối thiểu cần thiết để chuyển đổi một chuỗi thành chuỗi khác.
3. Kết hợp ngữ âm kiểm tra các chuỗi về sự tương đồng và khác biệt về ngữ âm và phù hợp để đánh giá đa ngôn ngữ.
4. Kết hợp N-gram phát hiện sự xuất hiện của một tập hợp các mảng mẫu cố định dưới dạng các mảng con được nhúng trong một mảng đầu vào.
5. Kết hợp TF-IDF phân tích toàn bộ kho từ và đánh giá từng mã thông báo quan trọng hơn đối với chuỗi nếu nó ít phổ biến hơn trong kho văn bản.

Kết hợp mờ có thể được sử dụng để làm gì trong bối cảnh công việc SEO?

Kết hợp mờ có thể được sử dụng cho.
– Tìm sự giống nhau giữa hai chuỗi – Từ khóa, URL, tiêu đề
– Tìm cơ hội thích trang Nội bộ trong cùng một cụm chủ đề hoặc trên các nhóm trang khác nhau
– Performing Competitor Analysis of URL and Title Differences, identifying Keyword Use Opportunities
– Evaluating URL Redirect Mapping Outcomes and/ or Content Plagiarism
– Match 404s to existing content and generate a redirect list

Kết hợp mờ không được khuyến nghị trong công việc SEO là gì?

Kết hợp mờ không được khuyến nghị cho việc phân cụm từ khóa quy mô lớn trong nghiên cứu từ khóa vì không có sự hiểu biết về ngữ nghĩa của các mô hình thường được sử dụng. Khi làm việc với các tập dữ liệu lớn, tốt nhất hãy sử dụng các phương pháp nâng cao hơn như phương pháp học sâu hoặc trích xuất thực thể

Google Trang tính có Tra cứu mờ không?

Fuzzy Lookup là một tiện ích bổ sung của Google Trang tính nhận thông tin đầu vào, tìm kiếm kết quả phù hợp nhất có thể tìm thấy và trả về kết quả phù hợp nhất đó cùng với xếp hạng tương tự.

Tôi có thể sử dụng đối sánh trong Google Trang tính không?

Có thể sử dụng hàm MATCH trong Google Trang tính để tìm kiếm một giá trị trong danh sách dữ liệu và trả về vị trí của giá trị đó . Hàm này có thể được sử dụng theo một số cách, nhưng một cách sử dụng phổ biến là tra cứu một giá trị trong một cột dữ liệu và trả về số hàng của vị trí giá trị đó.

Google Trang tính có khớp chỉ mục không?

Bạn đã biết rằng INDEX MATCH của Google Trang tính tra cứu giá trị của bạn trong một bảng và trả về một bản ghi có liên quan khác từ cùng một hàng . Và bạn biết rằng VLOOKUP của Google Sheets thực hiện chính xác như vậy.