Online Search
NHỮNG BƯỚC CƠ BẢN ĐỂ TÌM TIN TRÊN
CÁC CƠ SỞ DỮ LIỆU TRỰC TUYẾN (ONLINE SEARCH)

HOWIE(HAO) PHAN, Universtiy of California, Los Angeles

 

Như một chuyên gia về thông tin học nói: "Bất cứ một phương cách nào có hiệu quả nhất trong một cuộc tìm kiếm thông tin trên mạng chính là một phương cách tốt nhất". "Do what works". Việc tìm kiếm thông tin trên mạng có thể được tiến hành theo nhiều cách khác nhau tùy thuộc vào từng cá nhân, và trong hoàn cảnh của Việt Nam, cũng tùy thuộc rất hiều vào khả năng đến được với các cơ sở dữ liệu. Tuy vậy, việc tìm kiếm thông tin trên mạng bao gồm một số bước cơ bản mà những người chuyên môn về thông tin học thường tuân thủ để có được hiệu quả cao nhất trong việc cung cấp thông tin đến người yêu cầu.

Theo Barbara Quint, hiện nay việc tìm kiếm trên mạng thường bao gồm 7 bước sau:

  1. Phỏng vấn người yêu cầu tin

  2. Xác định mục tiêu tổng quát

  3. Chọn cơ sở dữ liệu thích hợp

  4. Tạo lập các chiến thuật tìm kiếm

  5. Tiến hành tìm kiếm

  6. Phản hồi và phân tích kết quả

  7. Trình bày kết quả tìm cho người yêu cầu

1. Phỏng vấn người yêu cầu thông tin:

Đây là bước quan trọng nhất trong bất cứ một cuộc cung cấp thông tin nào. Một thông tin đắt tiền, có giá trị cao trong một lĩnh vực nhất định nào đó, nhưng nếu không nhắm đúng vào nhu cầu thông tin cụ thể của người yêu cầu thì cũng không phải là một thông tin giá trị. Và trong trường hợp đó, cuộc tìm kiếm thông tin không được coi là hoàn hảo. Người cung cấp thông tin cần phỏng vấn kỹ người yêu cầu tin để biết rõ loại thông tin nào khách hàng của mình đang cần. Cần lưu ý rằng, trong rất nhiều trường hợp, người yêu cầu thông tin không biết rõ mình cần thông tin gì. Thường thì họ chỉ có một ý niệm khá mơ hồ về vấn đề mà họ đang tìm kiếm. Trong trường hợp này, người cung cấp thông tin nên hỏi khách hàng cần sử dụng thông tin vào mục đích gì. Sẽ cần nhiều tài liệu chi tiết cao để thỏa mãn yêu cầu thông tin của một giáo sư sử học đang viết sách chuyên môn hơn là với một sinh viên năm thứ nhất đang viết một bài tiểu luận. Do mục đích sử dụng thông tin khác nhau, một công ty thương mại có thể sẽ có cách đặt vấn đề khác với những nhà xã hội học khi yêu cầu các thông tin về mức độ thu nhập của một nhóm người tiêu dùng. Trong một cuộc phỏng vấn, người cung cấp thông tin nên biết:

  • Người yêu cầu thông tin là ai

  • Thông tin cung cấp sẽ được dùng vào mục đích gì

  • Người yêu cầu thông tin đã biết và chưa biết những gì về đề tài họ đang tìm kiếm.

  • Người yêu cầu thông tin biết gì về quá trình tìm kiếm thông tin trên mạng để đánh giá đúng về thông tin được cung cấp cho họ: những mặt mạnh và hạn chế của thông tin trên mạng (ví dụ như mức độ cập nhật của các cơ sở dữ liệu), giá thành của việc cung cấp thông tin, v.v..

2. Xác định mục tiêu tổng quát:

Thường người tìm kiếm thông tin trên mạng dễ rơi vào tình trạng mất tập trung trước khối lượng thông tin lớn kết nối với nhau trên mạng.

Cần giới hạn mục đích, mức độ chi tiết của một cuộc tìm kiếm thông tin ngay từ đầu. Một cuộc tìm kiếm thông tin theo diện rộng (recall) sẽ đem đến một số lượng thông tin lớn hơn một cuộc tìm kiếm theo chiều sâu (precision). Một cuộc tìm kiếm theo chiều sâu sẽ cung cấp các thông tin sát với chủ đề tìm kiếm hơn (high relevance), mặc dù số lượng thông tin sẽ ít hơn.

Người tìm thông tin cũng cần biết những mặt mạnh và giới hạn của việc tìm thông tin trên mạng: mức độ sử dụng thành thạo các cơ sở dữ liệu, các cơ sở dữ liệu có thể dùng được (có đủ kinh phí để trả tiền), các nguồn thông tin miễn phí trên Internet có thể dùng thay thế cho các cơ sở dữ liệu phải trả tiền, các nguồn thông tin truyền thống (sách, tạp chí) có thể dùng thay thế cho các cơ sở dữ liệu.

3. Chọn cơ sở dữ liệu thích hợp

Trong thực tế, việc lựa chọn cơ sở dữ liệu là một chọn lựa giữa khả năng cung cấp thông tin của các cơ sở dữ liệu và khả năng sử dụng của người tìm thông tin trên cơ sở dữ liệu đó. Một cơ sở dữ liệu tốt cho chủ đề tìm kiếm nhưng đắt tiền, hoặc đòi hỏi người dùng phải học thêm các phần mềm ứng dụng có thể sẽ ít được chọn lựa hơn là một cơ sở dữ liệu đã được sử dụng nhiều lần. Tuy vậy, người tìm thông tin trên mạng cần vượt qua các yếu tố chủ quan này để chọn lựa những cơ sở dữ liệu sẽ cung cấp thông tin tốt nhất cho chủ đề tìm kiếm. Việc lựa chọn cơ sở dữ liệu thường được dựa trên hai yếu tố sau:

  • Cơ sở dữ liệu nào có nội dung chuyên sâu hoặc có quan hệ gần nhất với chủ đề tìm kiếm.

  • Cơ sở dữ liệu nào sẽ cung cấp thông tin gần nhất với yêu cầu về mặt hình thức: ví dụ một cơ sở dữ  liệu bao gồm các bài viết từ các tạp chí khoa học hay một cơ sở dữ liệu bao gồm các số liệu thống kê của chính phủ, một cơ sở dữ liệu toàn văn (full-text) hay một cơ sở dữ liệu chỉ bao gồm các tóm tắt .

4. Tạo lập chiến thuật tìm kiếm:

Việc tạo lập các chiến thuật rất quan trọng trong việc quyết định hiệu quả của một cuộc tìm kiếm thông tin trên mạng. Nhiều người lập tức bắt tay vào việc tìm kiếm ngay sau khi chọn cơ sở dữ liệu thích hợp mà không qua bất cứ thao tác xác định chiến thuật nào. Điều này tưởng như tiết kiệm thời gian nhưng thật ra thường khiến người tìm kiếm mất thì giờ ở trên mạng nhiều hơn mà vẫn không đạt được kết quả mong muốn.  Nên viết lên giấy các chiến thuật tìm kiếm trước khi bắt tay vào tìm kiếm trên mạng. Việc tạo lập các chiến thuật tìm kiếm thường bao gồm các công việc sau đây:

a. Xác định liên hệ logic giữa các khái niệm của chủ đề tìm kiếm:

Cần nhận rõ đâu là phần quan trọng nhất của một chủ đề tìm kiếm. Ví dụ, trong yêu cầu tìm kiếm sau:

"Tìm hiểu các chứng bệnh nhiệt đới gây tử vong phổ biến ở trẻ em"

Ở đây, "bệnh nhiệt đới" phải là khái niệm chủ đạo để đưa vào tìm kiếm trước tiên. Các khái niệm còn lại sẽ được đưa vào sau để thu hẹp kết quả tìm cho sát với chủ đề khi có quá nhiều kết quả ở diện rộng.

b. Tìm kiếm các từ, khái niệm đồng nghĩa:

Sử dụng từ điển đồng nghĩa và tiêu đề đề mục để tìm các từ, khái niệm đồng nghĩa nhằm thay thế các từ, cụm từ được cung cấp để mở rộng khả năng tìm kiếm. Ví dụ: nếu dùng tiêu đề đề mục, thay vì dùng cụm từ "bệnh nhiệt đới" (tropical deseases), cụm từ "tropical medicine" sẽ có thể được dùng để thay thế. Dùng từ điển đồng nghĩa, từ "tử vong" có thể được thay thế bằng từ "chết".

c. Thiết lập quan hệ logic giữa các khái niệm:

Một khái niệm như "bệnh nhiệt đới" hoặc có thể cho ra quá nhiều kết quả ở diện rộng hoặc quá ít kết quả. Cần xây dựng saün trên giấy các khối cụm từ để thu hẹp hoặc mở rộng kết quả tìm kiếm. Việc sử dụng đúng các từ nối của toán tử logic (Boolean) sẽ làm được việc này.

Ba từ nối phổ biến nhất của toán tử logic là OR, AND và NOT. Dùng AND để thu hẹp kết quả, OR mở rộng, và NOT để giới hạn, loại trừ. Ví dụ:

  • Dùng OR: (Bệnh nhiệt đới OR tử vong);

  • Dùng AND: (Bệnh nhiệt đới AND trẻ em);

        (Bệnh nhiệt đới AND trẻ em AND tử vong);
        (Bệnh nhiệt đới AND phổ biến AND tử vong);

  • Dùng NOT: (Bệnh nhiệt đới NOT người lớn);

  • Cách tốt nhất là dùng kết hợp:

        (Bệnh nhiệt đới AND trẻ em) OR (trẻ em AND tử vong);
        ((Bệnh nhiệt đới OR tử vong) AND trẻ em) NOT người lớn);

* Lưu ý: Thường xảy ra việc dùng lẫn lộn giữa AND và OR. Nhiều người dùng AND để mở rộng kết quả và OR để thu hẹp. Thật ra thì AND dùng để thu hẹp kết quả vì khi đó kết quả phải thỏa mãn mọi mệnh đề, trong khi OR cho phép một lựa chọn lớn hơn, chỉ cần thỏa mãn một trong các mệnh đề OR.

Trong ví dụ trên, nếu đưa vào cụm từ (Bệnh nhiệt đới AND trẻ em), cơ sở dữ liệu phải đưa ra những bài viết bao gồm cùng lúc các thông tin liên quan đến bệnh nhiệt đới VÀ trẻ em. Trong khi đó, nếu đưa cụm từ (Bệnh nhiệt đới OR trẻ em) vào, cơ sở dữ liệu chỉ phải gọi lên tất cả các thông tin mà chỉ cần liên quan HOẶC đến bệnh nhiệt đới HOẶC đến trẻ em. Kết quả là chúng ta có một số lượng các bài viết và số liệu lớn hơn về bệnh nhiệt đới ở mọi đối tượng chứ không riêng ở trẻ em và mọi đề tài liên quan đến trẻ em chứ không riêng bệnh nhiệt đới, nghĩa là không nhất thiết hai vấn đề này phải cùng được phản ánh trong một bài viết hay số liệu.

5. Tìm kiếm trên mạng:

Sau tất cả những bước chuẩn bị cần thiết, đây là lúc thực sự bắt tay vào việc tìm trên mạng. Thông thường thì việc tìm kiếm trên mạng càng nhanh sẽ càng tiết kiệm được giá thành. Chính vì vậy, trước khi bắt đầu tìm, cần rà soát lại xem đã có đầy đủ các phương tiện cần thiết chưa: danh sách và số hiệu của các cơ sở dữ liệu, bản chỉ dẫn bao gồm các mệnh các lệnh sử dụng trên cơ sở dữ liệu. Ví dụ khi tìm kiếm trên DIALOG, nên có DIALOG POCKET GUIDE và quen thuộc với các lệnh tìm căn bản. Ngoài ra cần kiểm tra lần cuối các thiết bị như giấy và mực in để công việc không bị gián đoạn trong khi tìm kiếm.

Mặc dù việc tìm kiếm nhanh sẽ tiết kiệm được giá thành, không nên làm quá nhanh đến mức không nhìn rõ những gì mình đang làm. Luôn quan sát và rút ra những bài học từ các kết quả trong  quá trình tìm kiếm. Một trong những phương pháp tiêu biểu là PEARL GROWING, một phương pháp mà các bước tìm kiếm có tính kế thừa chặt chẽ. Trong phương pháp này, trước hết người ta tìm một nguồn thông tin (bài viết chẳng hạn) tốt về chủ đề đang tìm kiếm. Thông qua việc đọc nhanh bài viết này, người ta thu thập các cụm từ mô tả chủ đề trong bài viết để dùng cho các bước tìm kiếm tiếp theo, tên của các tác giả được trích dẫn trong danh mục trích dẫn ở cuối bài viết sẽ dẫn đến các nguồn thông tin quan trọng khác trong cùng lãnh vực. Một bài viết tốt tìm ra sẽ dẫn đến một bài viết tốt khác, một tác giả quan trọng tìm ra sẽ dẫn đến một tác giả quan trọng khác nếu người tìm kiếm chịu khó quan sát trong khi làm việc trên cơ sở dữ liệu.

Trong khi tìm kiếm trên cơ sở dữ liệu, nếu cần phải ngưng lại để phân tích kết quả và thành lập các cụm lệnh mới, nên offline.

6. Phản hồi và phân tích kết quả:

Bản chất của một cuộc tìm kiếm thông tin nằm trong mối quan hệ giữa yêu cầu thông tin và kết quả tìm kiếm. Kinh nghiệm và trình độ của người tìm kiếm thông tin thể hiện ở khả năng nhìn kết quả tìm kiếm bằng đôi mắt của khách hàng. Cần biết rõ liệu những kết quả tìm được đã đem đến câu trả lời tốt nhất cho người dùng tin hay chưa. Tốt nhất là nên thông báo thường xuyên đến khách hàng những kết quả trong quá trình tìm kiếm để có được những ý kiến phản hồi từ phía họ. Những ý kiến này sẽ giúp cho cuộc tìm kiếm đi đúng hướng và giúp người tìm kiếm kết thúc đúng lúc một cuộc tìm thông tin trên mạng.

7. Trình bày kết quả

Việc trình bày kết quả đến người yêu cầu không chỉ đơn giản là in ra các kết quả rồi trao cho người yêu cầu. Khi nhận kết quả, khách hàng cần biết rõ những khía cạnh nào chưa được giải đáp, và quan trọng hơn, họ có thể tìm thông tin về những khía cạnh còn thiếu đó từ những nguồn nào khác, hoặc từ một cuộc tìm kiếm thông tin trên mạng khác.

Cũng cần lưu ý đến hình thức thích hợp và hữu dụng nhất để trình bày kết quả. Kết quả tìm kiếm có thể được in ra giấy, ghi lại trong băng từ, đĩa từ, đĩa compact, v.v., có thể ở dạng toàn văn hay chỉ tóm tắt, chỉ dẫn, v.v..

Trên đây là những bước căn bản trong việc tìm kiếm thông tin trên các cơ sở dữ liệu trên mạng. Sau đây là một vài cơ sở dữ liệu trực tuyến hữu ích:

Các cơ sở dữ liệu miễn phí:

STN International - The Scientific & Technical Information Network.

http://www.fiz-karlsruhe.de/stn.html
http://www.fiz-karlsruhe.de/home.html
Đây là một network thuộc tổ chức phi lợi nhuận Fachinformationszentrum (FIZ) Karlsruhe, tài trợ bởi chính phủ Đức, cung cấp thông tin và các dịch vụ thông tin cho việc nghiên cứu khoa học kỹ thuật, công nghiệp, phát triển và thương mại. Có trên 50 cơ sở dữ liệu bao gồm nhiều lĩnh vực khác nhau như nông nghiệp, môi trường, thực phẩm, nhiên liệu, dược phẩm, kỹ thuật, thương mại, điện toán và toán học, kỹ thuật .

Asian Studies WWW Virtual Library

http://coombs.anu.edu.au/WWWVL-AsianStudies.html
Thư viện điện tử nghiên cứu Á Châu này được thành lập năm 1994 bởi Dr. Ciolek tại The Australian National University. Thư viện điện tử này bao gồm các chỉ dẫn đến hơn 10.000 nguồn thông tin Internet liên quan đến việc nghiên cứu toàn Á Châu, từng khu vực của Á Châu (Trung Đông, Nam Á, Đông Nam Á, v.v.) và từng nước (bao gồm Việt Nam). Đây là nguồn tài liệu miễn phí xuất sắc cho việc nghiên cứu Á Châu.

CDC-Centers for Disease Control and Prevention-National Center for HIV, STD, and TP prevention

http://www.cdc.gov/nchstp/od/nchstp.html
Đây là một cơ sở dữ liệu miễn phí cung cấp các thông tin, số liệu thống kê, nghiên cứu, tuyên truyền về các chứng bệnh HIV/AIDS, STD và TP. Từ cơ sở dữ liệu này có các kết nối đến các wcbsite liên quan trong lĩnh vực y tế.

United States National Library of Medicine-MEDLINE

http://www.nlm.nih.gov/databases/freemedl.html
Đây là một cơ sở dữ liệu lớn nhất thế giới về y học. Có thể tìm kiếm thông tin miễn phí trên MEDLINE thông qua hai công cụ là PubMed và Internet Grateful Med. Hai công cụ này sẽ cho phép tìm kiếm thông tin trong số 11 triệu tóm tắt và các bài viết toàn văn về y học và sức khoẻ. Đây là một cơ sở dữ liệu quý giá cho những người nghiên cứu y học, khoa học tự nhiên và sức khoẻ cộng đồng.

Các cơ sở dữ liệu trả tiền:

Online Databases:

http://www.co.fairfax.va.us/library/dbsremote/dbremote.htm
Đây là một thư viện liệt kê các cơ sở dữ liệu trả tiền. Từ website này, có thể tìm các cơ sở dữ liệu theo chủ đề (thương mại, y tế, lịch sử, văn chương, v.v.) theo tên cơ sở dữ liệu, hoặc theo tên các cơ sở sản xuất cơ sở dữ liệu. Đây là nguồn tin tốt về các cơ sở dữ liệu để từ đó người sử dụng có thể chọn lựa cơ sở dữ liệu thích hợp trong mọi lĩnh vực. Tuy vậy, việc sử dụng tất cả các cơ sở này đều phải trả tiền.

DialogWeb

http://products.dialog.com/products/dialogweb/
DialogWeb là một phiên bản mới của Classic Dialog cho phép người sử dụng đến với hơn 600 cơ sở dữ liệu của Dialog trên Internet. DialogWeb không yêu cầu người sử dụng phải thuộc các lệnh tìm như Classic Dialog. Dialog bao gồm các cơ sở dữ liệu thuộc rất nhiều lĩnh vực khác nhau như thông tin về các công ty, thông tin công nghiệp, các báo và tạp chí ở Bắc Mỹ và Á Châu, công nghệ, hóa học, khoa học xã hội và nhân văn, giáo dục, v.v.. Đây là một cơ sở dữ liệu thương mại lớn và nổi tiếng trong giới thông tin học.

Lexis-Nexis

http://www.lexis-nexis.com/lncc/

Một trong những tổ hợp cơ sở dữ liệu lớn, nổi tiếng về luật pháp, chính phủ, thương mại, kỹ thuật, sản phẩm và phục vụ. Có thể trở thành thành viên trả tiền dài hạn hoặc dùng thẻ tín dụng để tìm kiếm ngắn hạn trên cơ sở dữ liệu này.

Ovid

http://www.ovid.com/index.cfm
Một trong những tổ hợp cơ sở dữ liệu quen thuộc về nghiên cứu khoa học, thương mại và y học. Tuy là một cơ sở dữ liệu thương mại, người tìm kiếm có thể sử dụng nó tạm thời bằng cách đi vào Demo Databases hoặc Database of the Month.

Tài liệu tham khảo:

    Quint, Barbara. "Inside a Searcher's Mind: the Seven Stages of An Online Search". Online, July 1991.
    Hawkins, Donald T. and  Wages, Robert. "Online Bibliographic Search Strategy Development". Online, May 1982.