Digital Commerce Data Mining – akwizycja danych w handlu detalicznym

We are setting up a new series on the useful programs of facts science in retail called, "Digital Commerce Data Mining". The very first write-up in the collection is 'Data Acquisition in Retail - Adaptive Facts Collection'. Data acquisition at a massive scale and at reasonably priced fees is not probable manually. It is a arduous course of action and it comes with its individual challenges. To handle these troubles, Intelligence Node’s analytics and facts science team has developed strategies by sophisticated analytics and continuous R&D, which we will be discussing at length in this report.

Eksperckie spojrzenie na praktyczne przypadki użycia info science w handlu detalicznym

Wstęp

Intelligence Node musi codziennie przeszukiwać miliony stron internetowych, aby dostarczać swoim klientom dokładne dane w czasie rzeczywistym z dużą szybkością. Ale akwizycja danych na tak dużą skalę i po przystępnych kosztach nie jest możliwa ręcznie. Jest to rygorystyczny proces i wiąże się z własnymi wyzwaniami. Aby sprostać tym wyzwaniom, zespół analityków i analityki danych Intelligence Node opracował strategie poprzez zaawansowaną analitykę oraz ciągłe badania i rozwój.

W tej części serii „Alpha Seize in Digital Commerce” zbadamy wyzwania związane z pozyskiwaniem danych w handlu detalicznym i omówimy aplikacje do nauki o danych, aby rozwiązać te wyzwania.

Indeksowanie adaptacyjne do pozyskiwania danych

adaptacyjne komponenty i procedura indeksowania

Indeksowanie adaptacyjne składa się z 2 elementów:

Eleganckie oprogramowanie pośredniczące: Intelligent proxy

Zespół analityków danych Intelligence Node pracował nad opracowaniem inteligentnych, zautomatyzowanych strategii w celu pokonania wyzwań związanych z indeksowaniem, takich jak wysokie koszty, pracochłonność i niski wskaźnik sukcesu.

  • Buduje recepturę (prepare) na cel z dostępnych strategii
  • Stara się go zminimalizować na podstawie:
  • Cena £
  • Wskaźnik sukcesu
  • Prędkość

Niektóre strategie są

  • Decyzja o wyborze określonej puli adresów IP
  • Korzystając z mobilnych/mieszkalnych adresów IP
  • Korzystając z różnych klientów użytkownika
  • Z zwyczaj rozbudowana przeglądarka (klaster)
  • Wysyłając specjalne nagłówki/cookies
  • Korzystanie z antyblokera [Anti-PerimeterX] strategie

Podnoszenie ciężarów: Parsowanie

Automatyczne parsowanie

  • Zespół akwizycji danych wykorzystuje indywidualnie dostrojoną sieć opartą na transformator-enkoderze (podobną do BERT). Ta sieć konwertuje strony internetowe na tekst w celu uzyskania informacji ogólnych dostępnych na stronach produktów, takich jak cena, tytuł, opis i adresy URL obrazów.
  • Sieć jest świadoma układu i wykorzystuje właściwości CSS elementów do wyodrębniania tekstowych reprezentacji HTML bez renderowania go, w przeciwieństwie do metody ekstrakcji opartej na Selenium.
  • Sieć może wydobywać informacje z zagnieżdżonych tabel i złożonych struktur tekstowych. Jest to możliwe, ponieważ product rozumie zarówno język, jak i HTML DOM.

Analiza wizualna

Innym sposobem wyodrębniania informacji ze stron internetowych lub plików PDF/zrzutów ekranu jest wizualne usuwanie. Często, gdy indeksowanie nie wchodzi w grę, zespół analityków i analityki danych korzysta z niestandardowego wizualnego rozwiązania indeksowania opartego na sztucznej inteligencji.

Detale

  • W przypadku źródeł zewnętrznych, w których indeksowanie jest niedozwolone, zespół korzysta z wizualnego rozwiązania indeksowania opartego na sztucznej inteligencji
  • Zespół wykorzystuje Object Detection przy użyciu architektury Yolo (opartej na CNN), aby precyzyjnie identyfikować stronę produktu z obiektami zainteresowania. Na przykład tytuł, cena, informacje i obszar obrazu.
  • Zespół wysyła pliki pdf/obrazy/filmy, aby uzyskać informacje tekstowe, dołączając sieć OCR na końcu tej hybrydowej architektury.

Przykład

wizualny przykład parsowania

Stos technologiczny

Zespół używa poniższego stosu technologicznego do zbudowania technologii przeciwdziałania blokowaniu, szeroko używanej przez Intelligence Node:

Linux (Ubuntu), domyślny wybór dla serwerów, działa jako nasz podstawowy program operacyjny, pomagając nam wdrażać nasze aplikacje. Używamy Pyton rozwijać nasz model ML, ponieważ obsługuje większość bibliotek i jest łatwy w użyciu. Pytorch, platforma uczenia maszynowego typu open up source oparta na bibliotece latarki jest preferowanym wyborem do prototypowania badań w celu budowania modeli i szkolenia. Chociaż podobny do TensorFlow, Pytorch jest szybszy i przydaje się przy tworzeniu modeli od podstaw. Używamy FastAPI dla punktów końcowych API oraz do konserwacji i serwisu. FastAPI to platforma internetowa, która umożliwia dostęp do modelu z dowolnego miejsca.

Przeszliśmy z Flask na FastAPI ze względu na dodatkowe korzyści. Korzyści te obejmują prostą składnię, niezwykle szybką strukturę, asynchroniczne żądania, lepszą obsługę zapytań i światowej klasy dokumentację. Wreszcie, Docker, platforma do konteneryzacji, pozwala nam połączyć wszystkie powyższe elementy w kontener, który można łatwo wdrożyć na różnych platformach i środowiskach. Kubernetes pozwala nam automatycznie organizować, skalować i zarządzać tymi aplikacjami kontenerowymi w celu obsługi obciążenia na autopilocie — jeśli obciążenie jest duże, skaluje się w górę, aby obsłużyć dodatkowe obciążenie i na odwrót.

Wniosek

W erze cyfrowej sprzedaży detalicznej giganci tacy jak Amazon wykorzystują zaawansowaną analizę danych i silniki cenowe, aby co kilka minut przeglądać ceny milionów produktów. Aby konkurować na tym poziomie zaawansowania i oferować konkurencyjne ceny, asortyment i spersonalizowane doświadczenia dzisiejszym porównywarkom, niezbędna jest analiza danych oparta na sztucznej inteligencji. Pozyskiwanie danych przez indeksowanie witryn konkurencji nie ma alternatywy. Ponieważ branża detaliczna staje się coraz bardziej dynamiczna i zaciekła, prędkość, różnorodność i ilość danych będą musiały być aktualizowane w tym samym tempie. Dzięki tym innowacjom w zakresie pozyskiwania danych opracowanym przez zespół, Intelligence Node dąży do ciągłego dostarczania swoim klientom najdokładniejszych i najbardziej kompleksowych danych, jednocześnie dzieląc się swoimi zdolnościami analitycznymi z entuzjastami analityki danych na całym świecie.