Như thường lệ, những gì liên quan đến Google đều hot với những người quan tâm đến công nghệ. Cũng tương tự như MU của bóng đá. Gần đây, hôm 24.03.2009, Google thông báo trên blog về hai cải tiến liên quan đến công nghệ tìm kiếm (bản tiếng Việt có thể xem ở đây). Nói một cách tóm tắt, hai cải tiến đó bao gồm:
Thứ nhất, với mỗi câu query, Google đưa thêm một số "đề xuất" mà máy tìm kiếm đoán đó là ý của người dùng, ví dụ như tìm "principles of physics" (các nguyên lí/định luật của vật lí học) thì sẽ có các "đề xuất" (Google gọi đó là "related searches") như "angular momentum," "special relativity," "big bang" and "quantum mechanic". Bằng cách này, nếu người dùng không tìm thấy kết quả phù hợp trong trang đầu trả về, họ có thể chọn các "đề xuất" này để được hi vọng tìm kết quả phù hợp hơn.
Thứ hai, với mỗi kết quả tìm kiếm trả về, Google thường có 2 dòng rút ra từ nội dung của trang web (thường là các dòng đầu tiên) để người dùng có thể biết qua về trang web, đánh giá nó có phù hợp với yêu cầu của mình hay không, trước khi quyết định có nên chuyển sang trang đó hay không. Hai dòng này được Google gọi là snippset. Cải tiến lần này là thêm nhiều dòng hơn (1 dòng) cho snippet cho những câu query dài hơn 3 keywords. Sở dĩ có con số 3 vì hiện nay số trung bình keywords cho mỗi query để Google làm việc tốt chỉ là 3-4 (Bạn có biết là bạn ko thể nhập quá 32 keywords trong ô search của Google hay ko?). Thêm dòng thông tin sẽ giúp người dùng có thêm thông tin để đánh giá về độ phù hợp.
Bài trên Google blog chỉ nói hai thứ này là hai thứ cải tiến, tuy nhiên báo chí lại nói rộng hơn đó là Google giờ đã trang bị thêm khả năng tìm kiếm ngữ nghĩa. Nói như vậy cũng ko có gì sai, nhưng cũng nên hiểu rằng nó không có gì quá to tát. Bởi vì để có thể đề xuất các related searches, máy tìm kiếm phải có khả năng hiểu ngữ nghĩa/ẩn ý (semantic) của câu query (ví dụ khi người dùng gõ vào "vịnh hạ long", thì có thể đoán là người dùng đang muốn tìm về các danh lam thắng cảm ở VN). Tuy nhiên, để hiểu được semantic là cực khó (người ta hay gọi là semantic gap) do đó, Google ko thể hiểu hết ngữ nghĩa của mọi câu query mà chỉ hiểu được một số câu thông dụng mà thôi (Vấn đề này Google có nói, nhưng hình như mọi người ít quan tâm. Phải quan tâm để biết chính xác Google đã hiểu được ngữ nghĩa đến đâu). Chính vì vậy mà Google chỉ gọi là cải tiến mà thôi, chứ ko phải là cuộc cách mạng, chuyển từ tìm kiếm theo từ khóa (keyword) sang tìm kiếm ngữ nghĩa (semantic). Điều này cũng phù hợp như những gì mà Google đã nói trước đó, nghĩa là đó chỉ là mix-up chứ ko thể thay thế! Thực ra nếu bạn dùng Yahoo, hay Cuil, những "đề xuất" này cũng đã có. Vấn đề là "đề xuất" này phù hợp với người dùng đến đâu, giúp người dùng đến đâu trong quá trình đi tìm thứ phù hợp cho nhu cầu của mình.
Về việc mở rộng snipsets, kĩ thuật để hiển thị thêm dòng thì ko khó, nhưng kĩ thuật để hiểu rằng khi nào thì mở rộng mà khi nào thì không mới là vấn đề. Tôi ko biết là Google có cần hiểu ngữ nghĩa mới cho mở rộng không, hay là chỉ cần đếm số từ khóa trong query, nếu lớn hơn 3 thì thêm 1 dòng cho snipset. Nếu chỉ đếm thôi thì chẳng có gì phải bàn.
Liên quan đến semantic search, trong video retrieval cũng bàn về semantic search. Nếu trong web (text) search, Google nói rằng chỉ cần keywords là đủ khi họ có dữ liệu index đủ lớn. Thì trong video search, điều này không đơn giản như vậy. Bởi vì từ keyword, ví dụ rose, tới ảnh/video có chứa keyword đó hiện giờ là khoảng cách quá lớn (hệ thống tốt nhất hiện nay chỉ cho được kết quả với độ chính xác hơn 10% mà thôi). Trong khi đó, matching keyword với text-document, có thể thấy độ chính xác gần như tuyệt đối (nếu chỉ xét trên string search).
Tương lai của máy tìm kiếm, có thể nói, đó chính là máy tìm kiếm hiểu ngữ nghĩa cho ảnh/video hơn là cho text; Tất nhiên là máy tìm kiếm hiểu ngữ nghĩa cho text vẫn rất cần, nhưng để thấy được sự vượt trội của nó so với các máy tìm kiếm dùng từ khóa như Google hiện tại là điều rất khó (Powerset, Hakia, Cuil là các ví dụ). Nhưng để thấy được sự vượt trội của máy tìm kiếm hiểu ngữ nghĩa cho ảnh/video là chuyện vẫn có thể trong tầm tay. Nói một cách khác, nếu bạn muốn làm gì đó về máy tìm kiếm, thì làm về máy tìm kiếm cho ảnh/video sẽ có cơ hội nhiều hơn là máy tìm kiếm cho text.
Lê Đình Duy
Thứ nhất, với mỗi câu query, Google đưa thêm một số "đề xuất" mà máy tìm kiếm đoán đó là ý của người dùng, ví dụ như tìm "principles of physics" (các nguyên lí/định luật của vật lí học) thì sẽ có các "đề xuất" (Google gọi đó là "related searches") như "angular momentum," "special relativity," "big bang" and "quantum mechanic". Bằng cách này, nếu người dùng không tìm thấy kết quả phù hợp trong trang đầu trả về, họ có thể chọn các "đề xuất" này để được hi vọng tìm kết quả phù hợp hơn.
Thứ hai, với mỗi kết quả tìm kiếm trả về, Google thường có 2 dòng rút ra từ nội dung của trang web (thường là các dòng đầu tiên) để người dùng có thể biết qua về trang web, đánh giá nó có phù hợp với yêu cầu của mình hay không, trước khi quyết định có nên chuyển sang trang đó hay không. Hai dòng này được Google gọi là snippset. Cải tiến lần này là thêm nhiều dòng hơn (1 dòng) cho snippet cho những câu query dài hơn 3 keywords. Sở dĩ có con số 3 vì hiện nay số trung bình keywords cho mỗi query để Google làm việc tốt chỉ là 3-4 (Bạn có biết là bạn ko thể nhập quá 32 keywords trong ô search của Google hay ko?). Thêm dòng thông tin sẽ giúp người dùng có thêm thông tin để đánh giá về độ phù hợp.
Bài trên Google blog chỉ nói hai thứ này là hai thứ cải tiến, tuy nhiên báo chí lại nói rộng hơn đó là Google giờ đã trang bị thêm khả năng tìm kiếm ngữ nghĩa. Nói như vậy cũng ko có gì sai, nhưng cũng nên hiểu rằng nó không có gì quá to tát. Bởi vì để có thể đề xuất các related searches, máy tìm kiếm phải có khả năng hiểu ngữ nghĩa/ẩn ý (semantic) của câu query (ví dụ khi người dùng gõ vào "vịnh hạ long", thì có thể đoán là người dùng đang muốn tìm về các danh lam thắng cảm ở VN). Tuy nhiên, để hiểu được semantic là cực khó (người ta hay gọi là semantic gap) do đó, Google ko thể hiểu hết ngữ nghĩa của mọi câu query mà chỉ hiểu được một số câu thông dụng mà thôi (Vấn đề này Google có nói, nhưng hình như mọi người ít quan tâm. Phải quan tâm để biết chính xác Google đã hiểu được ngữ nghĩa đến đâu). Chính vì vậy mà Google chỉ gọi là cải tiến mà thôi, chứ ko phải là cuộc cách mạng, chuyển từ tìm kiếm theo từ khóa (keyword) sang tìm kiếm ngữ nghĩa (semantic). Điều này cũng phù hợp như những gì mà Google đã nói trước đó, nghĩa là đó chỉ là mix-up chứ ko thể thay thế! Thực ra nếu bạn dùng Yahoo, hay Cuil, những "đề xuất" này cũng đã có. Vấn đề là "đề xuất" này phù hợp với người dùng đến đâu, giúp người dùng đến đâu trong quá trình đi tìm thứ phù hợp cho nhu cầu của mình.
Về việc mở rộng snipsets, kĩ thuật để hiển thị thêm dòng thì ko khó, nhưng kĩ thuật để hiểu rằng khi nào thì mở rộng mà khi nào thì không mới là vấn đề. Tôi ko biết là Google có cần hiểu ngữ nghĩa mới cho mở rộng không, hay là chỉ cần đếm số từ khóa trong query, nếu lớn hơn 3 thì thêm 1 dòng cho snipset. Nếu chỉ đếm thôi thì chẳng có gì phải bàn.
Liên quan đến semantic search, trong video retrieval cũng bàn về semantic search. Nếu trong web (text) search, Google nói rằng chỉ cần keywords là đủ khi họ có dữ liệu index đủ lớn. Thì trong video search, điều này không đơn giản như vậy. Bởi vì từ keyword, ví dụ rose, tới ảnh/video có chứa keyword đó hiện giờ là khoảng cách quá lớn (hệ thống tốt nhất hiện nay chỉ cho được kết quả với độ chính xác hơn 10% mà thôi). Trong khi đó, matching keyword với text-document, có thể thấy độ chính xác gần như tuyệt đối (nếu chỉ xét trên string search).
Tương lai của máy tìm kiếm, có thể nói, đó chính là máy tìm kiếm hiểu ngữ nghĩa cho ảnh/video hơn là cho text; Tất nhiên là máy tìm kiếm hiểu ngữ nghĩa cho text vẫn rất cần, nhưng để thấy được sự vượt trội của nó so với các máy tìm kiếm dùng từ khóa như Google hiện tại là điều rất khó (Powerset, Hakia, Cuil là các ví dụ). Nhưng để thấy được sự vượt trội của máy tìm kiếm hiểu ngữ nghĩa cho ảnh/video là chuyện vẫn có thể trong tầm tay. Nói một cách khác, nếu bạn muốn làm gì đó về máy tìm kiếm, thì làm về máy tìm kiếm cho ảnh/video sẽ có cơ hội nhiều hơn là máy tìm kiếm cho text.
Lê Đình Duy
Bài viết cũ ở CVPR group:
@Semantic Search vs Keyword Search
Liên quan tới semantic search engines, Google blogs có bài khá thú vị, xem ở đây.
Tóm tắt một số ý:
- Google thừa nhận hiện nay search engine của họ chỉ làm việc trên keyword, do đó vẫn chưa thỏa mãn hoàn toàn nhu cầu của người dùng, bởi vì người dùng muốn tìm dưới dạng câu hỏi hơn là keyword.
- Tuy nhiên, dù ko hoàn toàn hiểu ngữ nghĩa (semantic) của câu hỏi người dùng, Google vẫn có thể trả về các kết quả không khác gì hiểu ngữ nghĩa. Lí do là Google có được số lượng trang web khổng lồ và cách họ làm bây giờ như là brute-force.
- Cách làm hiện nay của Google về mặt nào đó gần giống như statistical learning (học thông qua thống kê).
Right now Google is really good with keywords, and that's a limitation we think the search engine should be able to overcome with time. People should be able to ask questions, and we should understand their meaning, or they should be able to talk about things at a conceptual level. We see a lot of concept-based questions -- not about what words will appear on the page but more like "what is this about?" A lot of people will turn to things like the semantic Web as a possible answer to that. But what we're seeing actually is that with a lot of data, you ultimately see things that seem intelligent even though they're done through brute force.
When you type in "GM" into Google, we know it's "General Motors." If you type in "GM foods" we answer with "genetically modified foods." Because we're processing so much data, we have a lot of context around things like acronyms. Suddenly, the search engine seems smart like it achieved that semantic understanding, but it hasn't really. It has to do with brute force. That said, I think the best algorithm for search is a mix of both brute-force computation and sheer comprehensiveness and also the qualitative human component.Peter Norvig, director of research at Google, seems to agree. "I have always believed (well, at least for the past 15 years) that the way to get better understanding of text is through statistics rather than through hand-crafted grammars and lexicons. The statistical approach is cheaper, faster, more robust, easier to internationalize, and so far more effective." Google uses statistics for machine translation, question answering, spell checking and more, as you can see in this video. The same video explains that the more data you have, the better your AI algorithm will perform, even if it isn't the best.
Lê Đình Duy
0 comments:
Post a Comment