Tiềm kiếm

Tuesday, May 22, 2007

Làm thế nào để đảm bảo các search engine tìm thấy website của bạn?
Một trong những vấn đề cơ bản nhất trong công nghệ SEO (Search Engine Optimization – Tối ưu hoá website cho việc tìm kiếm) là bảo đảm sao cho các trang web (của website) có thể dễ dàng tiếp cận với các Search engine

Không chỉ có trang chủ được chỉ số hoá (index) mà tất cả các trang trong đều phải được các search engine tìm thấy. Bởi vì các trang trong của website thường chứa đựng những nội dung quan trọng nhất của website, ví dụ như thông tin về sản phẩm, dịch vụ và các thông tin chung khác. Những thông tin này mới chính là cái mà chủ website muốn được khách hàng tìm thấy thông qua các search engine. Đây chính là yếu tố sống còn trong việc tối ưu hoá các trang web.

Có nhiều việc cần phải làm để bảo đảm các trang web của bạn có thể được các search engine tìm thấy, nhưng điều quan trọng trước tiên là chúng ta phải hiểu: Nguyên lý tìm kiếm và lập chỉ mục website của các search engine như thế nào?

Các search engine sử dụng “robots” (hoặc được biết dưới tên khác như “bots” hay “spiders”) để tìm kiếm nội dung, thông tin đưa vào trong danh bạ của nó. Mỗi “robot” là một chương trình máy tính (một phần mềm) có thể lướt xem (nguyên văn “crawling”) nội dung mỗi trang web thông qua các đường siêu liên kết (hyperlinks). Khi “robots” tìm thấy một tài liệu có chứa đựng nội dung trong danh bạ của search engine thì nó cho phép các liên kết tiếp theo được tiếp tục tìm kiếm và lập chỉ mục. Điều này cho thấy tầm quan trọng của việc cần xây dựng một website với cấu trúc hoàn hảo để nhiều trang trong đó dễ dàng được index.

Tầm quan trọng trong cấu trúc website còn được thể hiện ở chỗ, các search engine có thể phán đoán được đâu là những trang quan trọng nhất trong toàn bộ website để xếp hạng và vị trí của trang web trong website có thể ảnh hưởng rất lớn đến kết quả xếp hạng. Nhìn chung, trang chủ là trang quan trọng nhất trong toàn bộ website – nó là tài liệu bậc cao nhất và luôn luôn là tâm điểm thu hút các đường liên kết đầu vào quan trọng nhất. Tại đây, các “robots” của các search engine toả ra các trang bằng ba đường liên kết khác nhau bắt đầu từ trang chủ. Bởi vậy, những trang quan trọng nhất phải nằm ngay trong đường liên kết đầu tiên, kế đến là những trang ít quan trọng hơn.

Điều tiếp theo cần cân nhắc là làm thế nào để liên kết với các trang khác. Các robots của các search engine chỉ có thể đi theo liên kết href đặc trưng của ngôn ngữ HTML. Có nghĩa là các liên kết dạng Flash, Java Script, Dropdown menu và các nút submit không thể là lựa chọn của các robots. Điều đáng nói là đây lại chính là nét đặc trưng của các trang web động.

Như vậy, những liên kết tốt nhất chính là những liên kết HTML thông thường. Nó không chỉ cho phép các robots dễ dàng đi qua mà những dòng chữ miêu tả kèm the còn được sử dụng để miêu tả nội dung trang web sẽ liên kết đến – một điểm quan trọng trong việc tối ưu hoá trang web.

Một cách tự nhiên nhất trong việc tổ chức nội dung website chính là việc bạn phải phân loại nội dung theo những chủ đề khác nhau. Chia nhỏ các sản phẩm, dịch vụ, thông tin trong các thư mục phân loại (categories) sao cho những khía cạnh, nội dung quan trọng nhất phải được liên kết trực tiếp từ trang chủ. Một sitemap có thể được mô tả như là một trang mục lục, nó là một danh sách nối với tất cả các trang khác trong site chỉ chứa đựng trong một trang. Nếu như bạn nối đến một sitemap từ trang chủ thì robot sẽ truy cập vào tất cả các trang khác trong site. Nên nhớ rằng robot tiêu biểu không thể theo hơn 100 kết nối trong một trang. Vì vậy nếu site của bạn lớn hơn số này bạn có thể xem xét xem có thể giàn trải ra trong vài trang.

Có rất nhiều sự cân nhắc khi tối ưu hoá website của bạn cho bộ máy tìm kiếm, và làm cho trang web của bạn có thể truy cập được dễ dàng bởi các cỗ máy tìm kiếm sẽ là bước đầu tiên trong tiến trình tối ưu hóa của bạn.Theo những lời khuyên trên sẽ giúp cho toàn bộ site của bạn có thể truy cập được dễ dàng và giúp cho bạn có thể dành được thứ hạng cao và đường truyền mở rộng.

Các cỗ máy tìm kiếm hoạt động như thế nào?

Thuật ngữ "Cỗ máy tìm kiếm - search Engine" được dùng chung để chỉ 2 hệ thống tìm kiếm: Một do các chương trình máy tính tự động tạo ra (Crawler-Based search Engines) và dạng thư mục internet do con người quản lý (Human-Powered Directories).

Hai hệ thống tìm kiếm này tìm và lập danh mục website theo 2 cách khác nhau.

Crawler-Based Search Engines - Hệ thống tìm kiếm trên nền tự động

Những cỗ máy tìm kiếm tự động, như Google, tạo ra những danh sách của họ tự động. Chúng sử dụng các chương trình máy tính, được gọi là "robots", "spiders", hay crawlers để lần tìm thông tin trên mạng. khi có ai đó tìm kiếm một thông tin, các Search engine lập tức hiển thị các thông tin lưu trữ tương ứng. Nếu bạn thay đổi những trang web của các bạn, những cỗ máy tìm kiếm tự động dần dần tìm thấy những sự thay đổi này, và điều đó có thể ảnh hưởng đến bạn được liệt kê như thế nào. Những tiêu đề trang, nội dung văn bản và các phần tử khác đều giữ một vai trò nhất định.

Human-Powered Directories - Các thư mục do con người quản lý và cập nhật

Các thư mục internet - ví dụ như Dự án thư mục mở - Open Directory Project (Dmoz.org) hòan tòan phụ thuộc vào sự quản lý của con người. Bạn đăng ký website của bạn vào thư mục với một vài dòng mô tả ngắn gọn hoặc các biên tập viên của thư mục viết giúp phần mô tả cho bạn - chúng phù hợp với nội dung và chủ đề của từng danh mục.

Việc thay đổi những trang web của các bạn không có hiệu lực trên danh mục của các bạn. Những thứ hữu ích để cải thiện vị trí xếp hạng với một cỗ máy tìm kiếm không có gì để làm với việc cải thiện một vị trí trong một thư mục. Ngoại lệ duy nhất là một site tốt, với nội dung tốt, có lẽ thích hợp hơn để được xem xét so với một website nghèo nàn.

"Hybrid Search Engines" - Các hệ thống tìm kiếm tổng hợp

Ngày trước, mỗi cỗ máy tìm kiếm sử dụng giải thuật riêng để tạo sự khác biệt. Đã là hệ thống tìm kiếm tự động thì không kèm theo một thư mục internet và ngược lại. Nhưng hiện nay, hầu hết hệ thống tìm kiếm đều là sự tổng hợp của hệ thống tìm kiếm tự động và một thư mục do con người quản lý. Ví dụ, Yahoo có Yahoo Directory, Google có Google directory (dựa trên thư mục Dmoz), MSN và các hệ thống tìm kiếm khác cũng vậy.

Các thành phần của một cỗ máy tìm kiếm tự động

Những cỗ máy tìm kiếm tự động có ba phần tử chính. Đầu tiên là spider, cũng được gọi là crawlers. Spider đến thăm một trang web, đọc nó, và sau đó đi theo sau những mối liên kết tới những trang khác bên trong website. Có nghĩa là, khi có ai đó tìm kiếm đến một trang, các spiders sẽ ghi nhớ điều đó. Nó sẽ quay lại trang đó và theo chu kỳ 1-2 tháng. Như vậy, nếu trang web được tìm thấy càng nhiều, thì các spiders càng năng quay trở lại hơn và như thế, kết quả tìm kiếm của bạn cũng được cải thiện theo.

Mọi thứ spider tìm thấy đi vào trong phần thứ hai của cỗ máy tìm kiếm, Chỉ mục (the index). Chỉ mục, đôi khi gọi là tài liệu, là một kho lưu trữ khổng lồ chứa đựng một sự sao chép của mọi trang web mà spider tìm thấy. Nếu một trang web thay đổi, thì danh sách này được cập nhật với thông tin mới.

Đôi khi, cần phải có thời gian để các spiders lập chỉ mục cho một trang mới hay một trang được thay đổi nội dung. Như vậy, sẽ có trường hợp: một trang đã được các spiders tìm đến, nhưng lại chưa được lập chỉ mục. Và trong khỏang thời gian này, trang web sẽ hòan tòan không tồn tại trên Search engine.

Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm. Đây là một chương trình máy tính có chức năng sàng lọc thông tin từ hàng triệu trang tương tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. Đây chính là nơi mà các công ty SEO khai thác để đưa một website nào đó lên vị trí Top khi được tìm kiếm với một hay nhiều từ khóa chỉ định.

Major Search Engines: Các cỗ máy tìm kiếm chính - Giống nhau nhưng cũng khác nhau

Tất cả các cỗ máy tìm kiếm tự động có những phần cơ bản được mô tả ở trên, nhưng có những sự khác nhau trong những phần này trong việc nó được điều chỉnh tác động như thế nào. Đó là lý do tại sao cùng một từ khóa, khi tìm kiếm trên những cỗ máy tìm kiếm khác nhau thường cho ra những kết quả khác nhau. Một ví dụ cụ thể: Nếu bạn đánh một từ khóa, thì Google, Yahoo, MSN, AOL, Ask hay Exactseek đều cho ra các kết quả khác nhau, dù có nhiều website hơi giống nhau.

Sự quan trọng của file Robots.txt

Một trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt

Vậy file Robots.txt là gì? khi một search engine tìm đến (nguyên văn Crawler) web site nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robot.txt cho search engine đó biết rằng, web site này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt).

Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của web site, ví dụ http://www.example.com/robots.txt.

Vậy, làm thế nào để tạo ra một file robots.txt? Rất đơn giản, bạn có thể mở chương trình Notepad hay bất cứ chương trình soạn thảo văn bản nào, lưu file với tên robots.txt là xong. Các dòng lệnh trong file này có cấu trúc như sau:

User-agent: googlebot
Disallow: /cgi-bin/

Trong đó User-agent: là đại diện của một search engine, Googlebot là spider của Google. Trong ví dụ này, chỉ các spider của Google là được phép index web site. Disallow: là không cho phép thực hiện điều gì đó. ở ví dụ trên là không cho phép các spider index thư mục "cgi-bin" trong web site.

Ví dụ thứ hai:

User-agent: googlebot
Disallow: /support

Tất cả các trang nằm trong thư mục support, hay support-desk sẽ không được index.

Nếu bạn muốn tất cả các search engine có thể index web site của bạn, nhưng không được index các trang trong thư mục "cgi-bin" thì sử dụng lệnh sau:

User-agent: *
Disallow: /cgi-bin/

Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:

"Disallow: support # Don't index the support directory" might be misinterepreted as "Disallow: support#Don't index the support directory".

+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:
User-agent: *
Disallow: /cgi-bin/

+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /support
User-agent: *

+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:

User-agent: *
Disallow: /support /cgi-bin/ /images/

các search engine không hiểu định dạng trên. bạn nên viết thế này:

User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/

+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là "cgi-bin" (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là "Cgi-Bin" thì các spider sẽ "bó tay".

+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác "nhòm ngó". nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index!
(sưu tầm)

No comments: