Verbetering van het begrip van zoekopdrachten met menselijke annotatie

Gebruikmaken van menselijk oordeel en gestructureerde taxonomie om op consistente wijze om te gaan met dubbelzinnige randgevallen en de relevantie voor zoekopdrachten te verbeteren voor een toonaangevend e-commerceconglomeraat in Polen.

Zoekopdracht verbeteren

project Overzicht

De klant, een Poolse e-commerceleider, ontvangt dagelijks miljoenen zoekopdrachten. Veel van deze zoekopdrachten zijn dubbelzinnigomvatten spelfouten, of verwijzen naar meerdere productcategorieën, wat een uitdaging vormt voor geautomatiseerde zoekmachines.

Om te verbeterenzoeknauwkeurigheid en klantervaringShaip ontwikkelde een gestructureerd annotatiekader, geïnspireerd op Baymards onderzoek. Zoekopdrachten werden systematisch geclassificeerd in 11 categorieën (bijv. productcategorie, thema, specifiek kenmerk, exact, handelaar, symptoom, niet-product, enz.) met voorrangsregels om een ​​consistente categorisering te garanderen.

 

Zoekopdracht verbeteren

Key Stats

Meer dan 50,000 zoekopdrachten geannoteerd

over meerdere categorieën heen

11 Annotatieklassen

met duidelijke definities en voorrangsregels

Werkproces in 3 stappen

Annotatie ➔ QA ➔ MKB-arbitrage

Project bereik

Het project was gericht op het bouwen van een uitgebreide taxonomie Om het volledige spectrum van zoekgedrag van gebruikers op een grootschalig marktplaatsplatform vast te leggen. De scope omvatte:

  • Het ontwikkelen van een taxonomie van 11 categorieën met duidelijke definities en een hiërarchie van voorrang om gevallen aan te pakken waarin query's in meer dan één klasse passen.
  • Duizenden echte zoekopdrachten annoteren in zowel product- als niet-productdomeinen om het classificatiesysteem te trainen en te kalibreren.
  • Het oplossen van dubbelzinnige vragen door het te escaleren naar Subject Matter Experts (SMEs), waardoor consistentie werd gewaarborgd in de manier waarop edge cases werden afgehandeld.
  • Het verstrekken van geannoteerde voorbeelden en rechtvaardigingen voor QA-kalibratie, het creëren van een trainingsset waarop toekomstige annotators als referentie kunnen vertrouwen.

Voorbeelden van aantekeningen zijn onder andere:

  • De dietrich ELENSIO ➔ Exact
  • E 91 ➔ Moeilijk te zeggen
  • tezfiles ➔ Handelaar
  • subaru brz toyota gt86 ➔ Non-Product
  • okulary BHP ➔ Productcategorie
  • stawu skokowego ➔ Symptom

Challenges

Het project moest verschillende obstakels overwinnen problemen met de complexiteit van gegevens die typisch zijn voor e-commerce zoekomgevingen:

Dubbelzinnigheid

Zoekopdrachten als “E 91” kunnen betrekking hebben op zeer uiteenlopende producten (een automodel, een zekeringhouder, een capsule-opdruk), waardoor de interpretatie zeer onzeker is.

Typfouten en varianten

Spelfouten of afkortingen, zoals “lampa uf zestaw”, vereisten contextuele menselijke interpretatie om te worden begrepen als “lampa UV zestaw”.

Overlappende categorieën

Query's kwamen vaak overeen met meerdere klassen (bijvoorbeeld Exact vs. Compatibel vs. Specifiek kenmerk), waardoor voorrangsregels nodig waren om consistentie te garanderen.

Ongeldige invoer

Serienummers of identificatiegegevens die niet overeenkomen met het product, moesten worden gemarkeerd als 'Ongeldige zin' in plaats van verkeerd te worden geclassificeerd.

Schaalbaarheid

Het consequent toepassen van genuanceerde classificatieregels op tienduizenden zoekopdrachten eisten een sterk kwaliteitsborging- en annotatiebeleid.

Het resultaat

Om deze uitdagingen aan te pakken, is een gestructureerd annotatiekader werd geïntroduceerd, waarbij automatisering in evenwicht werd gebracht met menselijk toezicht:

Annotatierichtlijnen

Er zijn gedetailleerde definities, voorbeelden en instructies gemaakt om annotators te helpen bij het consistent classificeren, zelfs in complexe scenario's.

Voorrangsregels

Er werd een hiërarchie vastgesteld (bijvoorbeeld Compatibel > Exact > Specifiek kenmerk), zodat overlappende gevallen systematisch werden opgelost.

Multi-level QA-proces

  1. Eerste annotatie door getrainde annotators.
  2. Secundaire beoordeling door QA-specialisten.
  3. Escalatie naar het MKB voor arbitrage in grensgevallen of meningsverschillen

Praktische toepassing van richtlijnen met real-world queries

  • 4008146044786 ➔ Ongeldige zin
  • miraculum królika Thematisch kenmerk
  • zcd galactisch grijs Compatibel
  • Belgische herder Thema

 Dit zorgde ervoor uitlijning, kwaliteit en betrouwbaarheid via de annotatiepijplijn.

Resultaat

Het initiatief leverde meetbare verbeteringen op in het zoeksysteem van de klant:

  • Meer dan 50,000 zoekopdrachten geclassificeerd met hoge precisie, waardoor een robuuste trainingsdataset voor verbeteringen in zoekopdrachten ontstaat.
  • Verbeterde relevantie van zoekresultaten, wat direct de tevredenheid van de gebruiker vergroot en frustratie door irrelevante matches vermindert.
  • Verminderde dubbelzinnigheid door het systematisch oplossen van grensgevallen via MKB-gestuurde arbitrage- en precedentenregels.
  • Verbeterde vindbaarheid van producten, waardoor gebruikers items nauwkeuriger kunnen vinden in verschillende categorieën, kenmerken en thema's.

Over het geheel genomen legde het project de basis voor een een intelligentere, op de gebruiker gerichte zoekervaring, waarmee we de klant helpen zijn concurrentievoordeel op de e-commercemarkt te behouden.

De workflow voor menselijke annotatie bracht helderheid in complexe zoekopdrachten. De gestructureerde taxonomie en precedentieregels verbeterden de nauwkeurigheid van onze zoekmachine aanzienlijk en zorgden voor een soepelere gebruikerservaring.

– Hoofd van Search & Discovery, in Polen gevestigd e-commerceconglomeraat

Gouden 5-sterren