Valódi beszélgetés a szinonimákról és a keresésről

Amikor szoftvermérnökökkel és termékmenedzserekkel beszélek keresőmotorjaik fejlesztéséről, a beszélgetés gyakran lekérdezések bővítéséhez vezet, és konkrétan szinonimákhoz. Sok kereséssel foglalkozó ember úgy véli, hogy a legnagyobb problémájuk az, hogy nincs elég szinonima a szótárukban.

A szinonimák hasznosak, de nem jelentenek gyógyírt a keresési problémákra.

Jó szinonimaszótár birtoklása jó dolog. Amikor valaki kanapéra keres, akkor a keresőnek vissza kell küldenie a kanapékat is. A jó visszahívás elérése általában a szinonimapárok robusztus gyűjteményének összeállításával kezdődik.

De e nem ér véget ezzel. És a szinonimákra való naiv támaszkodás a visszahívási problémák kezelésében valószínűleg még rosszabb pontossági problémákat okoz. Például a szemüveg és a szemüveg ésszerűnek tűnik szinonimapárként, de a keresőmotor nem eredményezhet szemüveget, ha valaki borospohárra keres. Pillanatok alatt visszatérünk erre a példára.

Mivel könnyen hozzáadható szinonimák egy szótárhoz, a keresőmotor-fejlesztők, valamint a keresőmotor adminisztrációjának korlátozott hatáskörű üzleti felhasználói gyakran szinonimákat használnak a visszahívási problémák – különösen a kínos visszahívási problémák – kezelésére. De mint a legtöbb ad hoc hibakeresési erőfeszítés esetében, ez a megközelítés is gyakran váratlan – és nem kívánt – következményeket okoz. Duzzadt szinonimaszótárhoz vezet, amelyet nemcsak szavak töltenek be, amelyek jelentése a kontextustól függ, hanem olyan helyesírási és pluralizációs szavakkal is, amelyeket a helyesírás-javítás és a lemmatizáció jobban kezelne.

Természetes nyelven nem létezik a kontextusfüggetlenség.

Ezen a ponton arra gondolhat, hogy a szinonimaszótárak fő problémája abból adódik, hogy akaratlanul is beletartoznak olyan párok, amelyekben mindkét szó jelentése a kontextustól függ. Talán a megoldás az, ha kizárunk minden olyan szót vagy kifejezést, amely 100% -ban nem ugyanazt jelenti.

Megteheti, de egy üres szinonimaszótárral rendelkezik. Vagy marad egy rendkívül konzervatív párok, mint a szín és a szín, gyenge gyűjteménye. Kidobta a babát a fürdővízzel – nem mintha ez a két szó szinonimának kellene lennie.

Természetes nyelven nincs olyan, hogy kontextusfüggetlen. A legjobb esetben a két szó lényegében ugyanazt jelenti, legtöbbször. De mindig vannak kivételek, és lehetetlen – vagy legalábbis nem praktikus – megpróbálni előre látni és elszámolni minden kivételt. Először el kell fogadnia, hogy mit jelentenek a szavak – és ennélfogva, hogy két szó vagy kifejezés szinonimák-e – mindig a kontextustól függ.

De ne ess kétségbe! A kontextus előtted áll!

Szerencsére a keresés általában nagyszerű kontextusforrást kínál Önnek arról, hogy mit jelent egy szó – nevezetesen a keresési lekérdezés többi része. Keresőmotorjaink nem biztos, hogy elérték a „szuperintelligenciát”, de legalább felhasználhatják a keresési lekérdezést kontextusként, hogy szűkítsék a szó jelentését.

Például egy keresőmotornak képesnek kell lennie arra, hogy rájöjjön, hogy a borospoharak keresése a konyhai kellékeket célozza-e meg, ezért nem adhat vissza borszínű szemüveget (igen, léteznek). Valószínűleg nincsenek eredmények a borászati ​​szemüvegekről a konyhai eszközökben.

Ha a keresőmotor ki tudja találni a lekérdezés általános kategóriáját, akkor többnyire kiküszöbölheti annak kockázatát, hogy a szinonimák kivegyék a szavak jelentését a kontextusból. A lekérdezés automatikus besorolása általános kategóriába nem könnyű probléma, de a befektetés megtérülése kiemelt fontosságúvá teszi, ha a keresés fontos az Ön számára. És még jobban teljesíthet, ha felismeri a lekérdezési szegmenseket és entitásokat.

Szinonimákkal növelheti a visszahívási és lekérdezési kontextust a pontosság érdekében.

A lekérdezés kontextusának használata a pontosság érdekében azt jelenti, hogy megengedheti magának, hogy szinonimákkal tévedjen a visszahívás oldalán. Ne dobjon minden óvatosságot a szélnek – rossz szinonimapárokkal továbbra is lehet rosszat teremteni. De ahelyett, hogy tökéletes szinonimagyűjteményt próbálna előállítani, jobb, ha átruházza a felelősségeket, szinonimákat használva a felidézés biztosítása érdekében, miközben a lekérdezések kategorizálására és más lekérdezési megértési technikákra támaszkodik a pontosság érdekében.

És kérem, ne használjon szinonimákat a lemmatizálás és a helyesírás-javítás megvalósításához! Sokkal jobban jársz, ha elkülöníted ezt a különböző lekérdezés-átírási stratégiát, és mindegyiket megoldod a megfelelő eszközzel.

Ez minden, emberek! Remélem, élvezte ezt a valódi beszélgetést a szinonimákról és a keresésről.