Web'de istenilen bir bilgiyi arama, çoğu insan için artık günlük bir aktivitedir. Arama ve haberleşme günümüzde bilgisayarın en popüler kullanım alanlarıdır. Bundan dolayı, şirketlerde ve üniversitelerde birçok kişi, doğru ve istenilen bilgiyi daha kolay ve daha hızlı bir şekilde elde etmek için arama teknolojilerini geliştirmeye çalışmaktadırlar. Bilgisayar bilimcileri, yazılım mühendisleri, bilgi bilimcileri, arama motoru optimizeleri veya ilgili sahadaki meslek gruplarına dahil olan her kimse, "Information Retrieval" alanında çalışmalarını sürdürmektedirler.
Genel bir tanım yapmak gerekirse, Information Retrieval; yapılandırma, analiz, düzenleme, depolama, arama ve bilgiye erişim ile ilgili geniş bir sahadır.
1950'lerden beri bu alanın temel odak noktası metin ve metin belgeleri olmuştur. Web sayfaları, bilimsel makaleler, e-postalar, kitaplar ve haber makaleleri bu belgelere verebileceğimiz birçok örnekten sadece birkaçıdır. Tüm bu belge tipleri, başlık, yazar, tarih ve daha çok bilimsel dergilerde çıkan metinlerin içeriği ile ilgili özet bilgi, benzer yapı özelliklerine sahiptir. Bu yapı elemanları, veri tabanı kayıtlarında değinilen "alan"lar olarak adlandırılabilir. Bir belge ve bir veri tabanı kaydı arasındaki önemli ayrım, belgelerdeki bilginin çoğunun nispeten yapılandırılmamış metin biçiminde olmasıdır. Yani veri tabanlarındaki gibi bir organizasyon (düzenleme) yoktur. Örnek vermek gerekirse, "hesap numarası" ve "bakiye" alanlarına sahip bir veri tabanı kaydını düşünelim. Her iki alan da, iyi ve doğru şekilde tasarlanmış olsun. "1234 hesap numarasını bul" ya da "Bakiyesi 1000 TL'den büyük hesapları bul" gibi sorgularda kayıtları belirleyen algoritmaları uygulamak çok kolaydır.
Şimdi, iki bankanın birleşimi ile ilgili bir haber yazısını düşünelim. Haber, manşet ve haber içeriği gibi niteliklere sahip olsun. Ama temel içerik, makalenin yani haber yazısının kendisidir. Bir veri tabanı sisteminde, bu kritik ve önemli bilgi parçası, kendi içinde bir yapılandırmaya sahip olmaksızın, tek geniş bir nitelik (özellik) olarak depolanacaktır. Arama motorlarında bu haberle ilgili bir arama yapmak istediğimizde sorgumuz, "banka birleşimi" ya da "banka devralma" biçiminde olacaktır. Bu aramayı yapmak için, makalenin metni (haber yazısı) ile sorgu metinlerini karşılaştırabilecek ve makalenin aranmakta olan bilgiyi içerip içermediğine karar verebilecek algoritmaları tasarlamalıyız. Bir kelimenin, cümlenin, paragrafın veya tüm makalenin anlamını tanımlamak ya da belirtmek, bir hesap numarasını tanımlamaktan daha zordur. İnsanların metinleri nasıl karşılaştırdığı ve bu karşılaştırmayı doğru olarak uygulayan bilgisayar algoritmalarının tasarlanması, Information Retrieval alanının özüdür.
Artan bir şekilde, information retrieval uygulamaları, birçok medya tipini de içermektedir. Popüler bilgi medyaları, resimler, konuşma ve müzik içeren ses ve videoları içerir.
Medyanın çeşitliliğine ek olarak information retrieval, çeşitli görevleri ve uygulamaları içermektedir. Kısaca;
*World Wide Web (Web search): Information retrieval'da en çok kullanılan arama biçimidir. Aynı zamanda şirketlerde, devlet kurumlarında ve birçok alanda uygulamaların önemli bir bölümünü kapsamaktadır. (Google, Yahoo search gibi)
*Vertical search: Belli bir konuya kısıtlandırılmış alanda yapılan Web arama biçimi olarak belirtilmiştir. (otomobil endüstrisi, sağlık, seyahat alanları gibi)
*Enterprise search: Bir şirketin, kendi intraneti'nde dağılmış olan belgelerde, (e-posta, rapor vs.) istenilen bilgiyi bulmak için kullanılan arama biçimidir.
*Desktop search: Kişisel bilgisayarlarda yer alan dokümanları aramada kullanılan arama biçimidir.
*Peer-to-peer search: Merkezi bir kontrol olmadan, düğüm networklerinde bilgiyi bulmaya dayanan arama biçimidir.
Information retrieval, sadece kullanıcı sorgularına ("ad-hoc search" de denir) dayalı çeşitli medyalarda, istenilen bilgiyi getiren göreve sahip değildir. "Filtering","classification" ve "question answering" bu alanda uygulanan diğer görevlerdir.
Bunlardan kısaca bahsedelim;
*Filtering veya Tracking, bir kişinin ilgi alanlarının belirlemeye çalışılmasıdır diyebiliriz.
*Classification, belli alanların sınıflandırılması ya da etiketlenmesidir. Etiketlenen bu alanlar, ilgili belgelere atanırlar. Bazı arama sitelerinde, arama kutucuğunun altında yer alan etiketler örnek olarak verilebilir.
*Question answering, Web search'e benzer fakat belirli soruların cevabını bulmaya odaklanmıştır. Örneğin; "Türkiye'nin en büyük dağının adı nedir?" sorusunun cevabının bulunması gibi.
Buraya kadar, information retrieval'ı oluşturan kısımlardan kısaca bahsettik. Bunları özetledikten sonra yazımıza burada son veriyoruz.
|
İçeriklere Örnekler
|
Uygulamalara Örnekler
|
Görevlere Örnekler
|
|
Metin
|
Web search
|
Ad-hoc search
|
|
Resim
|
Vertical search
|
Filtering
|
|
Video
|
Enterprise search
|
Classification
|
|
Ses
|
Desktop search
|
Question answering
|
|
Müzik
|
Peer-to-peer search
|
|