IPS ay Layunin at mga tungkulin ng mga sistema ng pagkuha ng impormasyon

IPS ay Layunin at mga tungkulin ng mga sistema ng pagkuha ng impormasyon
IPS ay Layunin at mga tungkulin ng mga sistema ng pagkuha ng impormasyon
Anonim

Mahirap para sa isang modernong tao na isipin ang buhay nang walang Internet at halos madaliang pag-access sa mga mapagkukunan ng impormasyon. Ang gumagamit ay bihirang mag-isip tungkol sa kung paano isinasagawa ang paghahanap para sa nais na nilalaman sa network. Ngunit ito ay napaka-interesante.

Ang information retrieval system (IPS) ay isang kumplikadong software at hardware system na pumipili ng impormasyon sa kahilingan ng user. Ang impormasyon ay naka-imbak sa mga server sa digital na anyo, gaya ng mga aklat na dating nasa istante ng mga aklatan. Ang sistema ay binubuo ng maraming mga subsystem. Ginagawa ng bawat isa ang gawain nito sa proseso ng pagproseso ng kahilingan ng user at pagbibigay sa kanya ng impormasyon sa text o sound form. Ang multiplicity ng mga gawain na malulutas ay tumutukoy sa pagiging kumplikado ng arkitektura ng mga modernong sistema ng pagkuha ng impormasyon (isang pagdadaglat ng sistema ng pagkuha ng impormasyon). Isang uri ng "black box": sa input - ang text ng kahilingan, kung ano ang nasa loob - ay hindi alam, sa output - komprehensibong impormasyon.

Card file sa totoong buhay
Card file sa totoong buhay

Mga stream ng input

Mga kahilingan para sa impormasyong nabuo ng isang tao sa text form sa screen ng kanyang gadget,bumubuo ng maliit na bahagi ng mga kahilingang pinoproseso ng search engine. Ang mga pangunahing hanay ng mga query sa paghahanap ay nabuo ng mga robot na tumatanggap ng kahilingan ng tao at nagsasagawa ng multi-step na paghahanap at feedback sa user. Kasama sa mga system sa pagkuha ng impormasyon ang kilalang Google, Yandex at iba pa, na nagpoproseso ng milyun-milyong kahilingan araw-araw.

Source search objects

Ang hanay ng mga paunang bagay na kinaiinteresan para sa paghahanap ay mga dokumento, talaan, video, larawan at higit pa. Ang mga ito ay nilikha sa labas ng IPS. Ang pangkalahatang sistema ng imbakan at pagkuha ng impormasyon ay dapat may built-in na bibliographic system - isang uri ng catalog na nagbibigay-daan sa iyong maghanap ng anumang uri ng mga bagay.

Ang Objects o ang kanilang mga digital na pagbabago ay nagiging isang "entry resource" sa IPS. Kabilang sa mga ito ang napiling impormasyon na kailangan ng user.

Maghanap ng impormasyon
Maghanap ng impormasyon

Mga panlabas na mapagkukunan

Ang view ng pagpili ng impormasyon ay gumagamit ng mga external na mapagkukunan ng kaalaman. Ito ang impormasyong hinahanap ng gumagamit. Ang pamagat ng pelikula, isang quote mula sa libro, at higit pa. Para sa paghahanap sa computer, ang impormasyong ito ay dapat na isalin sa isang query sa isang algorithmic na wika. Sa IPS, ginagawa ito gamit ang block para sa paggawa, pag-index at pagbuo ng mga query.

Sa isip, ang tatlong prosesong ito-representasyon, pag-index, at pagbuo ng query-ay dapat umasa sa magkatulad na mapagkukunan ng kaalaman, ngunit sa pagsasagawa, hindi ito makakamit.

Ang mga mapagkukunan ng kaalaman ay dapat na patuloy na suriin at i-update, at ang update ay dapat na magkapareho atnaka-synchronize. At ang panlabas na pinagmumulan ng kaalaman ay palaging nauuna sa pagkakasunod-sunod ng paggamit nito sa mga search engine para sa isang query, kung minsan ay ilang taon.

Sistema ng pagkuha ng impormasyon
Sistema ng pagkuha ng impormasyon

Mga Pagganap

Ang mga representasyon ng orihinal na mga bagay ay binubuo ng input data sa ilang kumbinasyon o binago alinsunod sa mga panuntunan at algorithm ng isang partikular na sistema ng pagkuha ng impormasyon.

Ang Views ay mas marami o mas kaunting binagong mga kopya ng orihinal na bagay sa paghahanap. Sa koleksyon ng mga hindi na-edit na buong teksto, ang bawat teksto ay may sariling representasyon. Sa koleksyon ng mga bagay ng mga eksibit at artifact ng museo, ang representasyon ay maaaring isang binagong paglalarawan ng bagay kasama ang imahe nito. Sa ilang mga kaso, ang representasyon ay maaaring bahagyang nagmula sa orihinal na bagay at isang bahagi mula sa paglalarawan: sa bibliographic na mga search engine, ang mga representasyon ay hinango mula sa bagay - halimbawa, pamagat, pangalan ng may-akda ay isasama sa anotasyon ng akda.

Paghanap ng kailangan mo
Paghanap ng kailangan mo

Nahahanap na index

Dahil ang impormasyon sa mga sistema ng pagkuha ng impormasyon ay naka-imbak sa anyo ng isang representasyon, makatuwirang ipagpalagay na ang paghahanap ay isinasagawa ayon sa representasyon at, pagkatapos ng pagpili, ay ibinibigay sa gumagamit. Sa pagsasagawa, hindi ito ang kaso. Halimbawa, ang kasalukuyang online na mga katalogo ng library ay karaniwang naghihigpit sa mga paghahanap sa ilang mga field: may-akda, pamagat, at mga sub title sa loob ng isang view na naglalaman ng iba pang mga field na hindi hinanap. Ito ay sapat na dahilan kung bakit kinakailangan na makilalaisang view at isang mahahanap na index, na siyang bahagi ng paghahanap ng view. Tinutukoy nito ang lahat ng bagay na dapat na mahahanap. Ang isang nahahanap na index, tulad ng view at source object, ay maaaring hatiin sa magkahiwalay na mga sub-index upang makapagbigay ng mas tumpak at naka-target na mga paghahanap

Ang mga search engine ay karaniwang may synthetic na istraktura sa loob para sa pagtutugma ng wastong mga resulta ng paghahanap. Ang istrukturang ito ay ang pangalawang bahagi ng mahahanap na index.

Sa pamamaraan, ang proseso ng pag-index ay maaaring ipatupad sa iba't ibang paraan: isang mahahanap na index ay maaaring makuha sa pamamagitan ng:

  • literal na pagkopya ng nahahanap na representasyon;
  • sa pamamagitan ng pagkopya sa mga detalye ng view. Ito ay maaaring bahagi o lahat ng mga view na pisikal na umiiral lamang bilang mga fragment, na ibinahagi ayon sa mga panuntunan para sa paggawa ng index para sa paghahanap, na kokolektahin kapag kinakailangan.
Pamamahala ng paghahanap
Pamamahala ng paghahanap

Humiling ng Mga Panuntunan sa Disenyo at Mga Pormal na Kahilingan

Ang Query engineering ay isang function na namamagitan sa pagitan ng query ng user at isang pormal na query. Binabago nito ang query ng user, itinutugma ito sa retrieval command dictionaries, index specification, at index bago ang retrieval. Sa simula ng pagbuo ng IPS, ang tungkuling ito ay tradisyonal na itinalaga sa mga kwalipikadong IT specialist.

Ang pagbuo ng mga query sa computer na maaaring tumugma sa mga query sa diksyunaryo sa isang nahahanap na index system ay karaniwang tinutukoy bilang module na "input ng diksyunaryo."Ang pag-automate ng function na ito ay nangangako at nag-aalok ng mga pagkakataon para sa mga eksperto at probabilistikong paraan ng paghahanap.

Ang isang pormal na kahilingan ay nagiging isang pormal na kahilingan pagkatapos ma-convert ang kahilingan ng user. Ang mga halimbawa ng naturang pormal na pagbabago ay kinabibilangan ng truncation, substitution, normalization, vectorization at iba pang pagbabago ng "external" na representasyon sa "internal" na representasyon ng computer IPS (decryption - information retrieval system).

Extracted Document Link Sets

Ang resultang hanay ng mga pinagmumulan ng impormasyon ay lohikal na isang subset ng mga view na ginawa ng pagtutugma ng mga panuntunang inilapat sa pormal na query ng isang mahahanap na index.

Karaniwan, ngunit hindi kinakailangan, mayroong isang hiwalay na proseso ng pag-uuri para sa nakuhang hanay ng impormasyon. Ang mga online na katalogo ng library ay karaniwang muling inaayos ang mga natanggap na hanay ayon sa alpabeto ng may-akda bago ipakita. Sa mga sistema ng pagkuha ng impormasyon na gumagawa ng mahigpit na pagraranggo, nauuna ang pagkakasunud-sunod ng pagraranggo sa anumang muling pagsasaayos.

Pagsusuri sa datos
Pagsusuri sa datos

Mga output stream

Ang output ng mga resulta ng paghahanap ay tradisyonal na ginagawa sa display, mas madalas sa anyo ng isang stream ng mga bagay na gagamitin sa ibang lugar o para sa ibang layunin, ang kumukumpleto sa pangunahing loop ng paghahanap. Ang mga naturang stream ay maaaring ipadala sa mga visualization device, storage para sa karagdagang pagproseso, o gamitin bilang input stream sa iba pang mga serbisyo sa pagpili.

Ang mga system sa pagkuha ng impormasyon ay nagbibigay-daan sa feedback mula saang output ng anumang proseso ng pagpili. Ang output ng anumang proseso ay maaaring maging feedback sa iba pang mga proseso. Ang feedback ay maaaring magbigay ng batayan para sa ekspertong paghuhusga sa anumang yugto.

Inirerekumendang: