Digital Commerce Data Mining – akwizycja danych w handlu detalicznym
We are setting up a new series on the useful programs of facts science in retail called, "Digital Commerce Data Mining". The very first write-up in the collection is 'Data Acquisition in Retail - Adaptive Facts Collection'. Data acquisition at a massive scale and at reasonably priced fees is not probable manually. It is a arduous course of action and it comes with its individual challenges. To handle these troubles, Intelligence Node’s analytics and facts science team has developed strategies by sophisticated analytics and continuous R&D, which we will be discussing at length in this report.
Eksperckie spojrzenie na praktyczne przypadki użycia info science w handlu detalicznym
Wstęp
Intelligence Node musi codziennie przeszukiwać miliony stron internetowych, aby dostarczać swoim klientom dokładne dane w czasie rzeczywistym z dużą szybkością. Ale akwizycja danych na tak dużą skalę i po przystępnych kosztach nie jest możliwa ręcznie. Jest to rygorystyczny proces i wiąże się z własnymi wyzwaniami. Aby sprostać tym wyzwaniom, zespół analityków i analityki danych Intelligence Node opracował strategie poprzez zaawansowaną analitykę oraz ciągłe badania i rozwój.
W tej części serii „Alpha Seize in Digital Commerce” zbadamy wyzwania związane z pozyskiwaniem danych w handlu detalicznym i omówimy aplikacje do nauki o danych, aby rozwiązać te wyzwania.
Indeksowanie adaptacyjne do pozyskiwania danych
Indeksowanie adaptacyjne składa się z 2 elementów:
Eleganckie oprogramowanie pośredniczące: Intelligent proxy
Zespół analityków danych Intelligence Node pracował nad opracowaniem inteligentnych, zautomatyzowanych strategii w celu pokonania wyzwań związanych z indeksowaniem, takich jak wysokie koszty, pracochłonność i niski wskaźnik sukcesu.
- Buduje recepturę (prepare) na cel z dostępnych strategii
- Stara się go zminimalizować na podstawie:
- Cena £
- Wskaźnik sukcesu
- Prędkość
Niektóre strategie są
- Decyzja o wyborze określonej puli adresów IP
- Korzystając z mobilnych/mieszkalnych adresów IP
- Korzystając z różnych klientów użytkownika
- Z zwyczaj rozbudowana przeglądarka (klaster)
- Wysyłając specjalne nagłówki/cookies
- Korzystanie z antyblokera [Anti-PerimeterX] strategie
Podnoszenie ciężarów: Parsowanie
Automatyczne parsowanie
- Zespół akwizycji danych wykorzystuje indywidualnie dostrojoną sieć opartą na transformator-enkoderze (podobną do BERT). Ta sieć konwertuje strony internetowe na tekst w celu uzyskania informacji ogólnych dostępnych na stronach produktów, takich jak cena, tytuł, opis i adresy URL obrazów.
- Sieć jest świadoma układu i wykorzystuje właściwości CSS elementów do wyodrębniania tekstowych reprezentacji HTML bez renderowania go, w przeciwieństwie do metody ekstrakcji opartej na Selenium.
- Sieć może wydobywać informacje z zagnieżdżonych tabel i złożonych struktur tekstowych. Jest to możliwe, ponieważ product rozumie zarówno język, jak i HTML DOM.
Analiza wizualna
Innym sposobem wyodrębniania informacji ze stron internetowych lub plików PDF/zrzutów ekranu jest wizualne usuwanie. Często, gdy indeksowanie nie wchodzi w grę, zespół analityków i analityki danych korzysta z niestandardowego wizualnego rozwiązania indeksowania opartego na sztucznej inteligencji.
Detale
- W przypadku źródeł zewnętrznych, w których indeksowanie jest niedozwolone, zespół korzysta z wizualnego rozwiązania indeksowania opartego na sztucznej inteligencji
- Zespół wykorzystuje Object Detection przy użyciu architektury Yolo (opartej na CNN), aby precyzyjnie identyfikować stronę produktu z obiektami zainteresowania. Na przykład tytuł, cena, informacje i obszar obrazu.
- Zespół wysyła pliki pdf/obrazy/filmy, aby uzyskać informacje tekstowe, dołączając sieć OCR na końcu tej hybrydowej architektury.
Przykład
Stos technologiczny
Zespół używa poniższego stosu technologicznego do zbudowania technologii przeciwdziałania blokowaniu, szeroko używanej przez Intelligence Node:
Linux (Ubuntu), domyślny wybór dla serwerów, działa jako nasz podstawowy program operacyjny, pomagając nam wdrażać nasze aplikacje. Używamy Pyton rozwijać nasz model ML, ponieważ obsługuje większość bibliotek i jest łatwy w użyciu. Pytorch, platforma uczenia maszynowego typu open up source oparta na bibliotece latarki jest preferowanym wyborem do prototypowania badań w celu budowania modeli i szkolenia. Chociaż podobny do TensorFlow, Pytorch jest szybszy i przydaje się przy tworzeniu modeli od podstaw. Używamy FastAPI dla punktów końcowych API oraz do konserwacji i serwisu. FastAPI to platforma internetowa, która umożliwia dostęp do modelu z dowolnego miejsca.
Przeszliśmy z Flask na FastAPI ze względu na dodatkowe korzyści. Korzyści te obejmują prostą składnię, niezwykle szybką strukturę, asynchroniczne żądania, lepszą obsługę zapytań i światowej klasy dokumentację. Wreszcie, Docker, platforma do konteneryzacji, pozwala nam połączyć wszystkie powyższe elementy w kontener, który można łatwo wdrożyć na różnych platformach i środowiskach. Kubernetes pozwala nam automatycznie organizować, skalować i zarządzać tymi aplikacjami kontenerowymi w celu obsługi obciążenia na autopilocie — jeśli obciążenie jest duże, skaluje się w górę, aby obsłużyć dodatkowe obciążenie i na odwrót.
Wniosek
W erze cyfrowej sprzedaży detalicznej giganci tacy jak Amazon wykorzystują zaawansowaną analizę danych i silniki cenowe, aby co kilka minut przeglądać ceny milionów produktów. Aby konkurować na tym poziomie zaawansowania i oferować konkurencyjne ceny, asortyment i spersonalizowane doświadczenia dzisiejszym porównywarkom, niezbędna jest analiza danych oparta na sztucznej inteligencji. Pozyskiwanie danych przez indeksowanie witryn konkurencji nie ma alternatywy. Ponieważ branża detaliczna staje się coraz bardziej dynamiczna i zaciekła, prędkość, różnorodność i ilość danych będą musiały być aktualizowane w tym samym tempie. Dzięki tym innowacjom w zakresie pozyskiwania danych opracowanym przez zespół, Intelligence Node dąży do ciągłego dostarczania swoim klientom najdokładniejszych i najbardziej kompleksowych danych, jednocześnie dzieląc się swoimi zdolnościami analitycznymi z entuzjastami analityki danych na całym świecie.