Quảng bá Web | Dịch vụ SEO | Thiết kế Website

  • Increase font size
  • Default font size
  • Decrease font size

Máy tìm kiếm Cuil – Đối thủ tiềm năng của Google

Xem kết quả: / 1
Bình thườngTuyệt vời 

Những ngày cuối tháng 7.2008, sự ra đời của máy tìm kiếm Cuil (đọc là “cool”) đã làm xôn xao cộng đồng quốc tế về một “địch thủ” mới của Google. Tương tự như sự ra đời của Powerset, SearchWiki và Hakia, Cuil được nhiều người mong đợi sẽ đánh bại được Google trong tương lai.

Niềm mong đợi đó là có cơ sở vì mặc dù mới ra đời, nhưng đội ngũ sáng lập Cuil lại rất quen thuộc với lĩnh vực máy tìm kiếm: Tom Costello, người tham gia dự án WebFountain của IBM(1), Anna Patterson và Russell Power, là những người tham gia dự án TeraGoogle (2), Louis Monier, đồng sáng lập ra máy tìm kiếm AltaVista (3). Tuy nhiên, hiện thực điều mong đợi đó có dễ không, hãy xem Cuil đã làm được gì so với Google.

Một máy tìm kiếm thường có 3 thành phần chính:

  • Thứ nhất là thành phần chuyên thu thập các trang web tồn tại trên Internet (crawling);
  • Thứ hai là thành phần đánh chỉ mục (indexing) : Thành phần này rút trích các đặc trưng của các các trang web (ví dụ tiêu đề, từ khóa tiêu biểu) và lưu trữ vào cơ sở dữ liệu để phục vụ cho nhu cầu tìm kiếm sau này;
  • Thứ ba là thành phần tìm các trang web phù hợp/liên quan/thỏa mãn (relevant) nhu cầu của người dùng (searching), thông qua quá trình tương tác với giao diện của máy tìm kiếm, ví dụ như gõ vào các từ khóa trong ô tìm kiếm. Để có thể biết máy tìm kiếm nào tốt hơn máy tìm kiếm nào, về phía người dùng, chỉ có một tiêu chí duy nhất, đó là máy tìm kiếm nào cho kết quả phù hợp (relevant) với nhu cầu của họ một cách đầy đủ nhất (comprehensive), nhanh nhất (fastest) sẽ là máy tìm kiếm tốt nhất. Chúng ta hãy cùng so sánh các thành phần này của Cuil với Google.

Kích thước chỉ mục

Cuil cho rằng hệ thống chỉ mục hiện nay của họ là lớn nhất trên thế giới, với 120 tỉ trang web được đánh chỉ mục. Thực ra con số trang web của Cuil thu thập lớn hơn nhiều, đến 186 tỉ trang, nhưng nhiều trang đã bị loại bớt do trùng lắp và spam. Hệ thống chỉ mục này, theo Cuil là lớn gấp ba lần so với hệ thống chỉ mục của Google.

Trong cuộc cạnh tranh giữa các máy tìm kiếm, kích thước chỉ mục đóng một vai trò khá quan trọng vì khi số lượng các trang được đánh chỉ mục lớn, cơ hội để người dùng có được kết quả tìm kiếm đầy đủ và phù hợp càng cao. Nếu điều Cuil công bố là sự thật, vậy thì người dùng có cơ sở để tin rằng Cuil sẽ đánh bại được Google trong một tương lai gần.

Tuy nhiên, các nhà phân tích không dễ dàng tin vào điều này. Trước khi Cuil ra đời vài ngày, Google công bố hệ thống của họ đã thu thập hơn 1,000 tỉ (một nghìn tỉ) trang. Hơn nữa những thông số mà Cuil cung cấp để chứng minh rằng hệ thống chỉ mục của họ lớn nhất lại không đáng tin cậy. Ví dụ họ cho rằng hệ thống chỉ mục của Yahoo vào khoảng 20 tỉ trang, nhưng đây là con số mà Yahoo công bố của năm 2005. Hay hệ thống chỉ mục của Microsoft là 12 tỉ trang, trong khi Microsoft công bố vào tháng 9.2007, họ có 20 tỉ trang. Dường như Cuil “cố tình” dùng các con số cũ khi thực hiện so sánh với con số hiện tại của họ, trong khi các hệ thống tìm kiếm ngày một lớn mạnh không ngừng.

Ngoài ra, việc cập nhật lại hệ thống chỉ mục để phản ánh sự thay đổi của các trang web cũng là một vấn đề quan trọng không kém. Cuil cho rằng họ thu thập và xử lí 1.5 tỉ trang web mỗi ngày. Điều này đồng nghĩa với việc phải mất gần 3 tháng cho việc cập nhật lại toàn bộ trang web đã được xử lí. Trong trước đó, Google công bố rằng họ đã có thể cập nhật hệ thống chỉ mục rất nhanh, chỉ trong vòng vài ngày, thậm chí vài chục phút cho các trang blog.

Mức độ phù hợp với nhu cầu tìm kiếm của người dùng

Đây là điểm mấu chốt nhất trong cuộc đua của các máy tìm kiếm. Nếu bàn về tìm kiếm theo từ khóa (keyword), Google đã không có đối thủ. Tuy nhiên, nếu người dùng không biết rõ về từ khóa họ cần cung cấp cho máy tìm kiếm, họ cần máy tìm kiếm “hiểu” ý (semantic meaning) của họ thông qua ngữ nghĩa hàm ý trong câu truy vấn. Đây là điểm mà các đối thủ của Google như Powerset, SearchWiki và Cuil nhắm vào.

Điều làm nên thành công của Google trong quá trình tìm ra các trang web phù hợp với nhu cầu tìm kiếm của người dùng đó là thuật toán PageRank. Thuật toán này đánh giá tầm quan trọng của một trang web dựa vào tính đại chúng của nói (popularity). Nếu một trang được nhiều trang uy tín khác liên kết đến, tầm quan trọng của trang đó sẽ cao. Ví dụ, trang XYZ được các trang như CNN hay BBC liên kết đến, sẽ có tầm quan trọng cao hơn là trang ABC chỉ được các trang ít nổi tiếng hơn liên kết đến. Tầm quan trọng của một trang tính theo thuật toán PageRank, cộng với hàng trăm thông số khác, giúp Google trả về kết quả xếp hạng phù hợp với người dùng hơn các đối thủ cạnh tranh hiện nay.

Cuil cho rằng, thuật toán xếp hạng của họ không dựa vào tính đại chúng như thuật toán PageRank của Google, mà thay vào đó là dựa vào phân tích nội dung (content analysis) để hiểu ngữ nghĩa của từng trang. Tuy nhiên, theo như phân tích của chuyên gia Danny Sullivan [2,3], hiện nay, Cuil vẫn sử dụng ý tưởng về tính đại chúng của thuật toán PageRank cho thuật toán xếp hạng trang web của họ. Một ví dụ là khi người dùng gõ vào từ khóa “Harry Potter”, người ta có thể tự hỏi tại sao trang web về bộ phim “Harry Potter and the Order of the Phoenix” lại được Cuil xếp ngay trong kết quả trả về của trang đầu tiên trong khi có hàng vạn trang khác liên quan tới Harry Potter lại xếp phía sau. Câu trả lời chỉ có thể là dùng cách phân tích về tính đại chúng của các trang mà thôi. Do đó, một trang khi được liên kết đến nhiều như trang web về bộ phim mới nhất về Harry Potter, sẽ được đánh giá cao hơn các trang khác.

Cũng nói thêm rằng, mặc dù nhiều máy tìm kiếm mới như Cuil đều cho rằng họ thực hiện phân tích ngữ nghĩa trên các trang để giúp tìm ra các trang web phù hợp với người dùng tốt hơn so với Google, tuy nhiên thực tế cho thấy rằng, từ nói đến làm vẫn còn khoảng cách khá xa. Hơn nữa, hiểu ngữ nghĩa chưa hẳn đã cho kết quả tìm kiếm tốt hơn. Một ví dụ điển hình là trong bộ phận dịch máy của Google, có rất nhiều nhân viên không biết đọc tiếng Trung Quốc, nhưng hệ thống dịch máy Trung – Anh của họ lại tốt hơn so với các hệ thống hiện có7.

Giao diện giao tiếp với người dùng

Có lẽ điểm khác nổi bật giữa Cuil và Google là giao diện 3 cột (có thể tùy chỉnh thành 2 cột).

Với cách bố trí này, người dùng được hỗ trợ thêm trong việc tinh chỉnh lại kết quả tìm kiếm, ví dụ tìm sách về Harry Potter, hay trò chơi liên quan đến Harry Potter. Những hỗ trợ này thực ra không mới vì trước đó các đối thủ khác như Vivisimo, KartOO và Yahoo cũng đã có.

Gia diện người dùng của Cuil
Hình 1 : Giao diện người dùng của máy tìm kiếm Cuil

Cơ sở hạ tầng

Cơ sở hạ tầng (hệ thống máy chủ cho trung tâm dữ liệu) là một trong những yếu tố quan trọng của các máy tìm kiếm. Hai tiêu chí hàng đầu là tính hiệu quả (trả về kết quả nhanh nhất) và tính toàn vẹn và nhất quán của dữ liệu phân tán. Google đã có nhiều năm kinh nghiệm và có số lượng máy chủ khổng lồ đặt khắp nơi trên thế giới để đảm bảo cho việc trả kết quả về rất nhanh dù người dùng ở bất cứ đâu. Trong khi đó, Cuil chỉ mới hỗ trợ cho thị trường Mỹ, các thị trường khác như châu Âu và châu Á sẽ được hỗ trợ trong thời gian tới. Ngoài ra, ngay trong ngày đầu khai trương, Cuil đã cho thấy sự quá tải khi số lượng người dùng tăng đột biến, vượt qua ước tính của họ.

Kết luận

Cũng như các địch thủ “tiềm năng” khác của Google như Powerset và SearchWiki, Cuil nhận được nhiều sự quan tâm và kì vọng của dư luận ngay khi mới ra đời. Tuy nhiên, hầu như ít ai tin rằng Cuil có thể đánh bại được Google. Hai địch thủ lớn nhất của Google hiện nay là Yahoo và Microsoft, với số tiền đầu tư lên đến hàng trăm triệu đô la, cùng đội ngũ nghiên cứu và kĩ sư hùng hậu, vẫn phải nhìn Google thâu tóm hơn 60% thị phần tìm kiếm. Trong khi đó, Cuil mới ra đời, số tiền đầu tư chỉ khoảng 33 triệu đô la, cùng với đội ngũ 30 người, có lẽ mục tiêu trước mắt của Cuil nên là đánh bại các đối thủ khác của Google như Powerset, SearchWiki và Vivisimo trước đã.

Chú thích:

  1. WebFountain là dự án đầy tham vọng về máy tìm kiếm của IBM. Khác với các máy tìm kiếm như Google là tìm các trang phù hợp với câu truy vấn, WebFountain nhắm đến mục tiêu tìm ra những tri thức ẩn (knowledge mining) từ việc phân tích dữ liệu khổng lồ từ Web. Ví dụ WebFountain có thể trả lời cho những câu truy vấn dạng “Điều gì làm nên sự nổi tiếng của công ty XYZ” ?;
  2. TeraGoogle là dự án của Google về xây dựng hệ thống đánh chỉ mục khổng lồ giúp Google có thể đánh chỉ mục và thực hiện tìm kiếm hầu hết các trang web trên Internet. Năm 2004, Google đã mua lại hệ thống đánh chỉ mục của Anna Patterson (với 12 triệu trang web từ Internet Archive, lớn nhất vào thời điểm đó) để nâng cấp cho hệ thống đánh chỉ mục của mình. Anna Patterson sau đó làm việc cho Google trong dự án TeraGoogle và rời Google năm 2006 để sáng lập Cuil;
  3. AltaVista là một trong những máy tìm kiếm tốt nhất trước khi Google ra đời. Trong vai trò đồng sáng lập AltaVista, Louis Monier đã thiết kế hệ thống thu thập trang web nhanh nhất vào thời điểm năm 1995. Louis Monier sau này gia nhập eBay và làm việc cho Google trong một thời gian ngắn và rời Google năm 2007 để cùng tham gia sáng lập Cuil.

Bình luận

avatar cialis
0
 
 
htleni [url=http://qcialis.fr/]cialis[/url] xSUVsV [url=http://qviagra.eu/]viagra[/url] MgaFC [url=http://qviagra.fr/]viagra en ligne[/url] 0110 [url=http://qviagra.it/]viagra[/url] 8734 [url=http://qcialis.it/]cialis[/url] :-O [url=http://qcialis.eu/]cialis[/url] lwFWa
Name *
Email (For verification & Replies)
URL
Code   
ChronoComments by Joomla Professional Solutions
Submit Comment
Hủy
Tên của bạn *
Email
URL
Chống spam   
Gửi
 

Đăng nhập

Hỗ trợ trực tuyến

Chuyên trang BĐS

www.batdongsanvina.com

Thống kê truy cập

mod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_counter
mod_vvisit_counterHôm nay344
mod_vvisit_counterHôm qua378
mod_vvisit_counterTuần này722
mod_vvisit_counterTuần trước3461
mod_vvisit_counterTháng này2460
mod_vvisit_counterTháng trước16073
mod_vvisit_counterTổng truy cập298981

Hiện đang online: 24


Thiết kế website

Tin vắn

Đã từng nhiều năm khốn khổ bởi các vụ kiện độc quyền nên Microsoft hiểu đó cũng chính là thứ vũ khí tốt nhất để kìm chân đối thủ lớn nhất của mình: Google.Đọc tiếp ...

Đăng ký nhận bản tin

Họ tên:

Email:

Ý kiến của bạn

Bạn thích chuyên mục nào nhất trên seolanlinh
 

Liên kết website


SEO | Bất Động Sản | Đặt tiệc | Khách Sạn | Nhà Hàng | Thương Mại | House in Hanoi