Rambler's Top100Astronet    
  po tekstam   po klyuchevym slovam   v glossarii   po saitam   perevod   po katalogu
 

Naznachenie i vozmozhnosti sistemy GTSearch Naznachenie i vozmozhnosti sistemy GTSearch
10.11.2003 18:19 | S. V. Ayukov/GAISh, Moskva

Poiskovaya mashina GTSearch prednaznachena dlya raboty s veb-dokumentami (dokumentami, dostupnymi s veb-serverov po protokolu HTTP). Ona pozvolyaet vypolnyat' poisk dokumentov po zadannym klyuchevym slovam i imeet raznoobraznye soputstvuyushie funkcii.

Sistema GTSearch sozdana pri podderzhke Rossiiskogo fonda fundamental'nyh issledovanii (granty 02-07-90222-v i 03-07-90187-v) i kompanii Delta-Soft.

Rabochaya ekspluataciya sistemy nachata v noyabre 2003 goda v ramkah proektov Poisk po MGU i Poisk po astronomicheskim saitam Rossii.

Funkcii i vozmozhnosti GTSearch

Osnovnaya funkciya poiskovoi mashiny GTSearch (Generic Text Search) - poisk po klyuchevym slovam v dokumentah, dostupnyh po protokolu HTTP. Dokumenty perekachivayutsya s veb-serverov na lokal'nyi komp'yuter i po nim stroitsya tak nazyvaemyi "obratnyi indeks", kotoryi daet vozmozhnost' po zadannym klyuchevym slovam iskat' dokumenty, soderzhashie eti slova. Naidennye dokumenty ranzhiruyutsya v sootvetstvii s kriteriyami relevantnosti: polozheniem slov vnutri dokumenta, blizost'yu klyuchevyh slov drug k drugu. Takzhe mozhet uchityvat'sya kolichestvo vneshnih ssylok na dokument dlya vydeleniya "vazhnyh" dokumentov.

Krome poiska, GTSearch mozhet ispol'zovat'sya dlya organizacii raboty s veb-dokumentami: pokaz spiskov dokumentov (obshii spisok, posaitovyi spisok i dr.), pokaz naibolee svezhih dokumentov (ili naibolee staryh dlya vyyavleniya davno ne obnovlyavshihsya), lokal'noe hranenie i izvlechenie kopii dokumentov, razbienie mnozhestva dokumentov na rubriki i prosmotr rubrik.

Oblast' primeneniya i reshaemye zadachi

Poisk po saitu: organizuite poisk po vashemu saitu ili neskol'kim saitam na sovremennom urovne. Nikakih special'nyh dorabotok saita, kak pravilo, ne trebuetsya (za isklyucheniem dobavleniya formy poiska).

Tematicheskii poisk: sobrav kollekciyu veb-resursov na zadannuyu temu (naprimer, komnatnye rasteniya), organizuite poisk po nei. Eto otlichnoe dopolnenie k tematicheskomu saitu (naprimer, saitu firmy, proizvodyashei gorshki ili udobreniya), a takzhe reklamnaya ploshadka s strogo celevym traffikom. Dlya kachestvennogo funkcionirovaniya tematicheskogo poiska neobhodimo podderzhivat' aktual'nyi spisok saitov po teme.

Podderzhka kataloga resursov: poisk yavlyaetsya otlichnym dopolneniem k katalogu veb-resursov. Kak pravilo, katalog slozhnee v obrashenii, chem poisk, poetomu dlya neterpelivogo (ili ochen' zanyatogo) pol'zovatelya poisk pozvolyaet sil'no sokratit' vremya nahozhdeniya nuzhnoi informacii na katalogizirovannyh resursah. GTSearch imeet vstroennye sredstva dlya integracii s katalogami resursov (podderzhka rubrik).

Monitoring saita ili gruppy saitov: organizuite postoyannyi obhod nuzhnyh saitov, vyyavlenie nedavno izmenivshihsya dokumentov i poisk po nim. Eto nadezhnyi sposob ne propustit' nichego novogo, prichem obnovlennye i vnov' poyavivshiesya dokumenty mogut byt' predstavleny v vide udobnogo spiska, otsortirovannogo ili po setevomu imeni (URL), ili po vremeni poslednei modifikacii.

Spisok vozmozhnostei

Ogranicheniya

Osnovnoe ogranichenie -- kolichestvo i ob'em obrabatyvaemyh dokumentov. S odnoi storony, GTSearch ne ispol'zuet evristicheskih metodov pri poiske i vsegda vydaet tochnye rezul'taty. Obychno v bol'shih poiskovyh sistemah tochnost' poiska zavisit ot zagruzki sistemy, no v GTSearch eto ne tak. Krome togo, GTSearch ne imeet sredstv dlya parallelizacii poiska. Poetomu na sovremennom komp'yutere s processorom Intel s chastotoi 2-3 GGc razumnyi predel chisla obrabatyvaemyh dokumentov sostavlyaet okolo 10 mln. (prinimaya srednii razmer dokumenta ravnym 10KB). Proizvoditel'nost' nachinaet zametno padat' pri chisle dokumentov, prevyshayushem 1 mln.

Otmetim, chto obshee kolichestvo dokumentov v Rossiiskom segmente interneta v 2003 godu sostavlyaet poryadka 100 mln. (po dannym krupneishih poiskovyh sistem Rambler i Yandex). Eti dokumenty ohvatyvayut tysyachi tematik, i, takim obrazom, dlya organizacii tematicheskogo poiska ne trebuetsya obrabatyvat' bolee neskol'kih millionov dokumentov.


Publikacii s klyuchevymi slovami: poisk informacii - poiskovaya sistema - katalog astronomicheskih resursov
Publikacii so slovami: poisk informacii - poiskovaya sistema - katalog astronomicheskih resursov
Sm. takzhe:
Vse publikacii na tu zhe temu >>

Ocenka: 3.1 [golosov: 130]
 
O reitinge
Versiya dlya pechati Raspechatat'

Astrometriya - Astronomicheskie instrumenty - Astronomicheskoe obrazovanie - Astrofizika - Istoriya astronomii - Kosmonavtika, issledovanie kosmosa - Lyubitel'skaya astronomiya - Planety i Solnechnaya sistema - Solnce


Astronet | Nauchnaya set' | GAISh MGU | Poisk po MGU | O proekte | Avtoram

Kommentarii, voprosy? Pishite: info@astronet.ru ili syuda

Rambler's Top100 Yandeks citirovaniya