Bài viết này dành cho các đang muốn tìm hiểu phương pháp và cách sử dụng thẻ canonical URL là gì? Và hơn hết sẽ giúp bạn tránh khỏi các trường hợp liên quan đến trùng lặp nội dung (duplicate content) trong trang web của bạn.
Vào năm 2009, với mục đích giúp các chủ sở hữu web tránh khỏi tình trạng trên một cách nhanh chóng và đơn giản. Thẻ Canonical đã được tạo bởi sự kết hợp giữa Google, Microsoft và Yahoo.
Cho đến này phương pháp này vẫn được các chuyên gia SEO sử dụng. Nhưng để đạt được tốt nhất, bạn cần phải nắm vững cách sử dụng chúng một cách hiệu quả.
Chính vì vậy, bài viết này sẽ cung cấp cho bạn những thông tin hữu ích đừng bỏ qua nhé!
Canonical URL hay liên kết phần tử chuẩn, thẻ chuẩn (Canonical Link Element) được tìm thấy trong phần tiêu đề HTML của trang web. Hỗ trợ giúp cho các công cụ tìm kiếm nhận biết liệu đây là phiên bản chuẩn nhất. Thẻ Canonical xuất hiện dưới dạng: rel=”canonical”.
Thẻ này rất quan trọng vì các công cụ tìm kiếm thường xuyên thu thập dữ liệu các trang web để tìm kiếm thông tin nhằm giúp chúng quyết định cách xếp hạng các trang và bài đăng của web.
Các thuật toán của Google rất thông minh để phát hiện ra các dấu hiệu nghi ngờ của web. Trong đó có thuật toán Google Sandbox áp dụng cho các trang web mới. Tham khảo bài viết check Sandbox Google để tìm hiểu thêm.
Chính vì vậy một URL luôn cần phải có Canonical, nếu bạn có 2 trang có nội dung như nhau trên trang web của mình hoặc nếu nội dung của bạn cũng được sử dụng trên trang web khác.
Bạn có thể sử dụng thẻ chuẩn để trỏ Google đến nội dung gốc và đảm bảo rằng phần đầu tiên nhận được tất cả lợi ích của SEO.
Nếu bạn chưa từng biết đến thuật ngữ SEO là làm gì hay thiết kế website chuẩn SEO là như thế nào, hãy tìm hiểu thêm nhé.
Thẻ canonical sử dụng dễ dàng và cú pháp không thay đổi, thường nằm ở vị trí phần <head> của trang web:
<link rel="canonical" href="https://example.com/sample-page/" />
Nghĩa là:
Google thường không thích sự trùng lặp trong nội dung – hay còn gọi là Duplicate Content. Điều này khiến cho Google không xác định được:
Quá nhiều nội dung lặp lại có thể ảnh hưởng đến “Crawl Budget” – Ngân sách thu thập trang web.
Đồng nghĩa với việc bạn đang lãng phí ngân sách “hạn hẹp” của Google để thu thập thông tin một số phiên bản tương tự nhau trong một trang web, thay vì khám phá những nội dung mới mẻ và quan trọng khác.
Trên thực tế, buộc Google lãng phí thời gian với phần thu thập thông tin (crawling) nội dung trùng lặp, cần phải được ngăn chặn.
Và thẻ Canonical được sinh ra để giải quyết vấn đề này. Canonical cho phép bạn thông báo với Google rằng trang web này là trang chính tắc. Có nội dung chính và cần được thu thập dữ liệu thường xuyên để được index cũng như xếp hạng cho các truy vấn liên quan.
Nếu không chỉ định một Canonical URL, Google sẽ tự chỉ định những URL phù hợp. Và rất có thể đó không phải là trang hoặc URL mà bạn mong muốn.
URL chính tắc: URL chính tắc là URL của trang mà Google đánh giá là tiêu biểu nhất trong số những trang trùng lặp trên trang web của bạn.
Bạn cho rằng, bạn không đăng tải các bài viết và trang có nội dung giống nhau. Nên bạn nghĩ trang web của mình không có các phiên bản trùng lặp.
Nhưng điều đó chưa hẳn là đúng, vì đối với các công cụ tìm kiếm như Google có khả năng thu thập các URL bị phát sinh từ URL chính tắc và đánh dấu các phiên bản trùng lặp (bạn có thể hoặc không thể biết tới sự tồn tại của chúng).
Ví dụ: Một website Ecommerce được phát hiện có 2 URL là https://example.com/product và https://example.com/product?shade=pink.
Mặc dù 2 trang này có nội dung giống hệt nhau và liên quan đến nhau nhưng Google vẫn xác định đây là 2 trang khác biệt.
URL có ” ?shade=pink” được biết đến là tham số URL (URL Parameters), là nguyên nhân phổ biến tạo nên Duplicate Content.
Vấn đề này thường xuyên xảy ra ở hầu hết các website hiện nay. Đặc biệt là các website thương mại điện tử có bộ lọc tùy chỉnh tìm kiếm của người dùng.
Đối với Google, đây là những trang riêng biệt và nội dung chỉ khác đi một chút.
Sau đây là những nguyên nhân duplicate content thường gặp:
Trong những tình huống này, việc dùng chính xác thẻ Canonical là rất cần thiết. Hơn nữa, các nội dung trùng lặp ở những URL khác cũng cần phải lưu ý
Nếu bạn đang cung cấp tài liệu (Ví dụ: nếu một tờ báo cần đăng lại nguyên văn tài liệu nội dung của bạn trên trang web của họ) thì bạn phải yêu cầu họ gắn link Canonical chuẩn trỏ về bài gốc.
Làm như vậy giúp bạn có thể thu hút được khách truy cập giới thiệu từ bài đăng đó. Đồng thời giảm thiểu nguy cơ Google xếp hạng cho URL giả mạo.
Lưu ý:
Một số trang web có thể từ chối việc thêm thẻ Canonical đến trang web của bạn. Với trường hợp này bạn cần trả phí để duy trì nội dung tại các trang web thứ 3 để đảm bảo chúng không xếp thứ hạng cao hơn bài gốc của bạn.
Trước khi tìm hiểu về 4 cách tối ưu thẻ Canonical trong SEO, thì trước hết bạn phải nắm được 5 nguyên tắc cơ bản khi sử dụng thẻ Canonical như sau:
Theo John Mueller của Google, sử dụng đường dẫn tuyệt đối sẽ là cách tốt nhất thay vì sử dụng đường dẫn tương đối với rel=”canonical”
You can use either, but I’d recommend using absolute URLs so that you’re sure they’re interpreted correctly.
— 🍌 John 🍌 (@JohnMu) October 24, 2018
Bạn nên dùng cấu trúc sau:
<link rel=“canonical” href=“https://example.com/sample-page/” />
Thay vì dùng cấu trúc:
<link rel=“canonical” href=”/sample-page/” />
Vì Google có thể xem các URL viết hoa và viết thường là 2 URL hoàn toàn khác nhau. Trong server bạn nên dùng chữ viết thường sau đó dùng URL viết thường cho thẻ Canonical.
Nếu bạn đã chuyển đổi sang chứng chỉ SSL, chỉ cần nhớ không khai báo bất kỳ URL không phải SSL (tức là HTTP) trong các thẻ Canonical của bạn.
Về mặt lý thuyết có thể dẫn đến nhầm lẫn và kết quả không mong muốn. Nếu website của bạn đã ở trong khu vực an toàn, hãy sử dụng mẫu URL sau:
<link rel=“canonical” href=“https://example.com/sample-page/” />
thay vì
<link rel=“canonical” href=“http://example.com/sample-page/” />
Ví dụ, nếu URL chính tắc đã là https://example.com/sample-page thì thẻ chuẩn tự tham chiếu trên trang web đó có thể là:
<link rel=“canonical” href=“https://example.com/sample-page” />
Hầu hết các CMS phổ biến hiện nay đều tự động thêm các URL tự tham chiếu. Tuy nhiên, nếu bạn đang sử dụng CMS tuỳ chỉnh thì bạn cần phải yêu cầu developer điều chỉnh chúng.
Nếu trang web có nhiều hơn 1 thẻ Canonical, Google sẽ bỏ qua trang của bạn.
Trong trường hợp có một số khai báo về rel = canonical, Google dường như sẽ bỏ qua tất cả các gợi ý rel = canonical.
Sau khi nắm vững 5 nguyên tắc cơ bản, chúng ta sẽ đến với cách triển khai quy tắc chuẩn.
Sử dụng thẻ rel=”canonical” là phương thức đơn giản và rõ ràng nhất để chỉ định canonical URL
Đơn giản là thêm đoạn mã sau vào phần <head> của bất kỳ trang web trùng lặp:
<link rel=“canonical” href=“https://example.com/canonical-page/” />
Ví dụ:
Bạn có một trang web thương mại điện tử bán áo thun, và muốn URL https://yourstore.com/tshirts/black-tshirts/ là URL chuẩn, kể cả là nội dung trang web có truy cập được qua các URL khác như https://yourstore.com/offers/black-tshirts
Bạn có thể thêm thẻ Canonical vào trang trùng lặp đoạn mã sau:
<link rel=“canonical” href=“https://yourstore.com/tshirts/black-tshirts/” />
Nếu bạn dùng WordPress, bạn không cần phải tìm đoạn mã trong trang web của bạn, mà có cách đơn giản hơn như sau:
Cài đặt Plugin Yoast SEO và các tính năng thẻ chuẩn tự tham chiếu được thêm vào một cách tự động. Để tùy chỉnh thẻ Canonical cho từng trang, bạn vào phần “Advanced” (Tính năng nâng cao) ở khung Yoast SEO trên mỗi trang web và điền URL chính tắc vào ô “Canonical URL”.
Shopify cung cấp Canonical URL tự tham chiếu cho các sản phẩm và bài viết mặc định trên blog. Để tuỳ chỉnh canonical URL, bạn phải điều chỉnh trực tiếp các tệp mẫu (.liquid).
Bạn có thể áp dụng một số cách được hướng dẫn tại đây.
Squarespace cũng cung cấp các URL tự tham chiếu mặc định tương tự như Shopify và bạn cũng có thể tùy chỉnh thẻ Canonical bằng cách chỉnh đoạn mã code trực tiếp.
Đối với các file như PDF, chúng ta không thể đặt các thẻ canonical ngay trong phần đầu của website vì không có thẻ <head>. Trong trường hợp này, bạn sẽ phải dùng HTTP header để cài đặt canonical.
Ví dụ:
Tôi tạo một bản PDF của bài viết Canonical này trên website và và lưu trữ nó trong subfolder (fiexmarketing.com/blog/*).
Trong file HTTP header sẽ xuất hiện như sau:
HTTP/1.1 200 OK
Content-Type: application/pdf
Link: <https://fiexmarketing.com/seo/canonical-url-la-gi/>; rel="canonical"
Google tuyên bố rằng các trang non-canonical không nên đưa vào sitemaps và chỉ những URL được canonical mới được liệt kê vào.
Vì Google xem các trang được liệt kê trong Sitemaps là những trang chính tắc, được tham chiếu đến.
Tuy nhiên, trong hướng dẫn của Google về Canonical có nhắc tới một số trường hợp các URL được canonical trong Sitemap có thể không được chọn làm URL chính tắc.
Chúng tôi không đảm bảo sẽ xem các URL trong sơ đồ trang web là URL chính tắc. Nhưng đây là một cách đơn giản để xác định các trang chính tắc cho một trang web lớn. Sơ đồ trang web cũng là một cách hữu ích để cho Google biết đâu là các trang mà bạn coi trọng nhất trên trang web của mình.
Đừng đưa các trang không phải là trang chính tắc vào sơ đồ trang web. Nếu bạn đang dùng sơ đồ trang web, đừng chỉ định những URL không phải URL chính tắc trong sơ đồ đó.
Nếu bạn muốn chuyển hướng lưu lượng truy cập ra khỏi URL trùng lặp, bạn có thể dùng 301 Rdirects.
Giả sử trang của bạn truy cập được vào các URL:
Chọn một URL chuẩn và chuyển hướng 301 các URL khác đến URL chuẩn đó.
Bạn cũng làm tương tự HTTPs/HTTP và www/non-www trên website của bạn. Chọn một URL chuẩn và chuyển hướng đến các trang khác.
Ví dụ, trên trang web của tôi thì phiên bản URL chuẩn sẽ có HTTPS và không có www (https://fiexmarketing.com/). Và tất cả các URL sau đều được chuyển hướng 301 đến https://fiexmarketing.com/:
Với những kiến thức tôi chia sẻ ở trên, tôi nghĩ rằng sẽ không có nhiều bạn thực sự hiểu hết 100%. Bởi vì đây là một chủ đề nâng cao, kể cả những bạn đã làm SEO lâu năm.
Do đó, ngoài những chia sẻ về cách tạo và tối ưu thẻ Canonical thì chắc chắn bạn không thể bỏ qua về các sai lầm thường gặp khi sử dụng thẻ Canonical.
Nào, chúng ta cùng đến sai lầm đầu tiên nhé:
Google sẽ không thu thập được thông tin khi bạn chặn URL trong robots.txt, do đó Google sẽ không thể thấy được bất kỳ thẻ Canonical trên trang web.
Vậy file Robots.txt là gì và làm thế nào để sửa chữa sai lầm này? Tất cả sẽ có ở bài viết đính kèm đấy. Đọc ngay nhé!
Tuyệt đối không được kết hợp thẻ noindex và rel=canonical với nhau, vì chúng đối lập với nhau hoàn toàn.
Theo lời của John Mueller, Google sẽ thường ưu tiên thẻ Canonical hơn thẻ “noindex”. Nếu bạn muốn ngăn lập chỉ mục trang trùng lặp thì có thể xem xét việc dùng lệnh 301 Redirect đến trang chính tắc. Còn nếu không hãy sử dụng rel=canonical.
Việc đặt mã HTTP 4xx cho URL Canonical (tức là URL bị lỗi 404, 403…) sẽ có tác dụng tương tự như gắn thẻ ‘noindex’.
Lúc này, nếu bạn áp dụng nhầm thì Google sẽ không thể nhìn thấy Canonical URL và tự chọn một URL khác làm URL chính tắc.
Trong quá trình làm SEO, tôi thấy không ít bạn đều mắc sai lầm như vậy. Kể cả tôi cũng từng như vậy.
Đó chính là việc Canonical các trang được đánh số thành trang đầu tiên trong chuỗi. Thay vào đó, bạn sẽ nên sử dụng thẻ Canonical tự tham chiếu (Canonical Self Referencing) cho tất cả các trang được phân trang.
Tại sao ư? Hãy cùng xem lời khuyên từ John Muller trên Reddit về việc sử dụng rel=canonical không đúng cách dưới đây:
“The main thing to avoid, since this post is about canonicalization, is to use the rel=canonical on page 2 pointing to page 1. Page 2 isn’t equivalent to page 1, so the rel=canonical like that would be incorrect.”
Lược dịch: Điều quan trọng chính cần tránh là sử dụng thẻ rel = canonical trên trang 2 trỏ đến trang 1. Vì trang 2 có nội dung không tương đương với trang 1 nên sử dụng thẻ Canonical như vậy sẽ không chính xác.
John Mueller, Webmaster Trends Analyst Google
Ngoài ra, bạn cũng cần dùng thẻ rel=prev/next để phân trang. Mặc dù trước đó Google đã thông báo sẽ không sử dụng thẻ này để xem xét phân trang nhưng một số công cụ khác như Bing vẫn dùng chúng.
Thẻ hreflang được dùng để chỉ định ngôn ngữ và vị trí địa lý của một trang web.
Trong hướng dẫn của Google về Canonical có một nguyên tắc là cần chỉ định trang chính tắc khi dùng thẻ hreflang.
Cụ thể là hãy chỉ định trang chính tắc bằng cùng một ngôn ngữ hoặc ngôn ngữ thay thế phù hợp nhất trong trường hợp không có trang chính tắc cho ngôn ngữ đó.
Với quá trình triển khai thẻ Canonocal sẽ gặp phải khá nhiều lỗi, bạn sẽ cần kiểm tra website để phát hiện ra các vấn đề liên quan đến thẻ canonical và khắc phục càng sớm càng tốt.
Bạn có thể sử dụng công cụ Screaming Frog hoặc Site Audit của Ahrefs. Những công cụ này sẽ crawl website của bạn để phát hiện hơn 100 vấn đề cần được tối ưu hoá, trong đó có lỗi Canonical.
Nếu bạn chưa biết đến công cụ Ahrefs kể trên thì hãy tìm hiểu ngay tại bài viết Ahrefs rank là gì. Đừng tự biến mình thành người tối cổ.
Dưới đây là 12 lỗi chính về Canonical thường xuyên xảy ra trên website và cần được khắc phục:
Lỗi | Vấn đề | Cách khắc phục | |
1 | Thẻ Canonical đến trỏ đến trang 4xx | Công cụ tìm kiếm không index các trang 4xx, vì không còn hoạt động. Do đó, họ sẽ bỏ qua bất kỳ thẻ Canonical nào trỏ đến các trang như vậy và tự tìm các trang web không có canonical (non-canonical). | – Xem lại các trang bị ảnh hưởng và đổi các link canonical thay cho 4XX để đến các trang đang hoạt động đã liệt kê. |
2 | Thẻ Canonical đến trỏ đến trang 5xx | HTTP 5XX cho biết sự cố đang nằm ở máy chủ (server), lúc này trang web không được kết nối và chuẩn hóa. Google không thích index đến những trang không kết nối được và các canonical sẽ bị bỏ qua | – Thay thế các canonical URL lỗi bằng các URL hợp lệ. – Kiểm tra các cấu hình sai của server để trang chính tắc xuất hiện đúng hơn. Chú ý sự cố xuất hiện tạm thời trong quá trình crawl, trang web của bạn bị ngừng hoạt động để bảo trì hoặc web bị quá tải |
3 | Thẻ Canonical đến trỏ đến trang chuyển hướng (3xx) | Canonical luôn phải ở vị trí ưu tiên có thẩm quyền trong trang web . Đây không phải là các URL chuyển hướng (3xx), nên Google có thể hiểu hoặc bỏ qua canonical. | – Thay thế các hyperlink canonical bị 3xx bằng các hyperlink trực tiếp (Trang trỏ về mã 200 HTTP và không chuyển hướng) |
4 | Các trang trùng lặp nội dung và không có thẻ Canonical | Vì không có trang nào được được chỉ định, Google sẽ cố xác định được một trang phù hợp để hiển thị trong kết qủa tìm kiếm của Google. Và đây có thể không phải là trang mà bạn muốn liệt kê. | – Kiểm tra lại các trang trùng lặp nội dung. – Chọn một trang chính sẽ được lập chỉ mục trong SERP. – Trang chính sẽ được thêm thẻ canonical tự tham chiếu và được các phiên bản còn lại trỏ thẻ canonical đến nó. |
5 | Hreflang sang trang không có thẻ Canonical | Các liên kết trong thẻ hreflang luôn phải trỏ đến các URL chính tắc. Liên kết đến một trang trùng lặp từ các chú thích hreflang có thể gây nhầm lẫn và đánh lừa các công cụ như Google. | – Thay đúng URL chính tắc trong các chú thích hreflang |
6 | Không có bất kỳ Internal Link trỏ đến URL chính tắc (Canonical URL) | Người dùng và bot Google sẽ không biết đến sự tồn tại của URL chính tắc nếu nó không được ít nhất một Internal Link trỏ đến. Thay vào đó, họ có thể đang truy cập nhầm phiên bản không chuẩn. | – Thay thế đúng URL chính tắc nếu bạn đang Internal Link bằng phiên bản không chuẩn. – Bổ sung Internal Link liên quan đến các trang chính tắc. |
7 | URL trùng lặp xuất hiện trong Sitemap | Sitemap là sơ đồ trang web giúp thông báo cho các công cụ tìm kiếm về các URL nên được thu thập và lập chỉ mục. Do đó, nếu URL trùng lặp xuất hiện trong Sitemap sẽ khiến Google nhầm lập và lập chỉ mục. | – Chỉ giữ lại URL chính tắc và xóa các URL trùng lặp trong sitemap. |
8 | Canonical Chains: Chuỗi Canonical, trong đó các trang được Canonical theo chuỗi như A => B => C | Chuỗi chuẩn hoá này có thể gây hiểu lầm và đánh lừa công cụ tìm kiếm như Google. Vì thế, Google có thể hiểu sai và bỏ qua các trang được canonical. | – Thay thế đúng URL chính tắc trong thẻ Canonical của từng trang. Ví dụ: Nếu trang web A là được Canonical đến trang B, sau đó B được Canonical đến trang C. => Chỉnh lại thành trang A Canonical trỏ đến trang C. |
9 | URL trong Open Graph không trùng khớp với canonical | Nếu URL trong Open Graph không khớp với trang chính tắc. Khi đó các URL trùng lặp của trang web có thể được chia sẻ trên mạng xã hội. | – Thay thế đúng URL chính tắc trong Open Graph URL. – Đảm bảo URL trong Open Graph và Canonical phải giống nhau. – Lưu ý: Sử dụng URL tuyệt đối và sử dụng đúng giao thức http: // hoặc https: // trong cả Open Graph và Canonical. |
10 | Canonical từ HTTPS đến HTTP | HTTPS liên quan đến vấn đề xếp hạng, do đó bạn cần trỏ canonical đến đúng phiên bản URL có https: // | – Chuyển hướng 301 HTTP sang HTTPS cho URL tương ứng. – Nếu không thể, hãy thêm thẻ rel = “canonical” từ phiên bản HTTP của trang vào phiên bản HTTPS. |
11 | Canonical từ HTTP sang HTTPS | Thông thường HTTPS thường được ưu tiên hơn HTTP. Nếu xuất hiện phiên bản trùng lặp HTTP được Canonical về phiên bản HTTPs có vẻ không hợp lý. Điều này có thể sẽ không gây ra vấn đề lớn, nhưng nó vẫn đáng để sửa (nếu có khả năng) | – Sử dụng 301 redirect từ HTTP sang HTTPs cho mỗi URL tương ứng. – Thay thế các liên kết nội bộ đang trỏ đến HTTP bằng HTTPS |
12 | Trang trùng lặp nhận được lượng truy cập tự nhiên | Thẻ canonical của bạn cài đặt không chính xác hoặc Google bỏ qua thẻ Canonical bạn chọn để lập chỉ mục cho URL trùng lặp. | – Kiểm tra thẻ rel=”canonical” đã được tạo chính xác trên tất cả các trang được báo cáo chưa. – Sử dụng Google Search Console để xem Google đang đánh giá các trang chính tắc có chuẩn không. – Nếu không khớp, hãy điều tra lý do xảy ra trường hợp này và tìm hướng giải quyết. |
Sử dụng thẻ Canonical không khó. Chỉ cần lưu ý rằng các thẻ Canonical không phải là một lệnh nhưng lại là một dấu hiệu dành các công cụ tìm kiếm như Google.
Bạn có thể sử dụng công cụ Kiểm tra URL trong Google Search Console để kiểm tra cho chính website của mình nhé. Hi vọng bài viết “Canonical URL là gì? Hướng dẫn triển khai canonical từ A-Z” sẽ giúp ích cho bạn.
Nếu bạn chưa biết cách sử dụng công cụ Google Search Console (còn gọi là Google Webmaster Tools), bạn có thể tham khảo hướng dẫn cài đặt Google Webmaster Tools của FIEX.
Chúc bạn thành công!
Bạn đang cần một đơn vị cung cấp dịch vụ Marketing Online trọn gói bao gồm: Dịch vụ SEO Google, dịch vụ content,.. hiệu quả, chuyên nghiệp và đặc biệt, cam kết doanh số tăng trưởng theo từng tháng?
FIEX Marketing chính là sự lựa chọn tốt nhất dành cho bạn. Liên hệ với chúng tôi để được tư vấn ngay về giải pháp Marketing toàn diện 2022!
Tôi là Thủy, hiện nay đang là SEO Manager tại FIEX Marketing. Với kinh nghiệm trên 4 năm trong lĩnh vực SEO và Marketing, đảm nhận vị trí SEO Leader cho hơn 20 dự án lớn nhỏ khác nhau và giúp website doanh nghiệp tăng trưởng hàng trăm ngàn traffic mỗi tháng, tôi hiểu được khó khăn của các bạn mới bắt đầu tìm hiểu về SEO. Do đó, tôi muốn chia sẻ đến các bạn những kiến thức SEO thật chất lượng để bạn có thể hiểu và áp dụng "thực chiến" tốt nhất.