Podszedłem sceptycznie gdy pojawiło się info o nowym magicznym sofcie pozwalającym odkryć to co Google ukryło pod ponad 90% (not provided) w bezpłatnych wynikach wyszukiwania. Było już kilka sztuczek lecz ich skuteczność była bardzo podobna do tej, którą można było otrzymać łącząc Google Analytics z Google Serach Console. Można było również wnioskować czego wyszukiwali użytkownicy po tym, w które miejsce naszej strony trafiali, o tych metodach pisał Avinash Kaushik.
A wszystko zaczęło się od października 2011, gdy ogólnodostępna kopalnia wiedzy o słowach kluczowych została zamknięta za nieprzeniknionymi wrotami (not provided). Ich wartości doszły do 80-98%. Straciliśmy praktycznie wszystkie wartościowe informacje, które pomagały nam w optymalnym dobrze słów kluczowych i optymalizacji stron.
Przede wszystkim zainteresowały mnie metody i źródła pozyskiwania tych danych. Bo przecież uwierzyć, że ot tak po prostu ktoś jest w stanie odszyfrować to co Google tak skrzętnie ukrywa jest niemożliwe.
Keyword Hero próbuje odtworzyć te informacje na danych pochodzących z 11 źródeł takich jak:
- Google Search Console
- Frazy widoczne w Google Analytics
- Bing Search APi
- serwisy monitorujące wyniki
- dane z rozszerzeń przeglądarek
- inne
Jak mówi CTO Keyword Hero Daniel Schmeh działa to tak, że w pierwszym kroku aplikacja pobiera listę poszczególnych adresów URL naszej strony. Dla tych stron tworzona jest lista prawdopodobnych słów kluczowych generujących wejścia. Następnie algorytm korzysta z narzędzi SEO, nie zdradza dokładnie jakich, ale sądzę, że dobrym przykładem jest SEMSTORM, który pozwala pobrać informacje na temat widoczności stron na konkretne frazy, korzysta także z Google Trends, Google Search Console, Bing Cognitive Services, API w Wikipedii. W ten sposób tworzy możliwe dużą listę słów kluczowych dla określonych adresów URL i szacuje prawdopodobieństwo ich wystąpienia.
Następnie wyniki są testowane i porównane z prawdziwymi danymi, kupowanymi przez zespół Keyword Hero m.in. z rozszerzeń wyszukiwania do przeglądarek. W tym momencie uruchamiany jest algorytm samouczenia się Machine learning, która przetwarza dane, porównuje i wnioskuje z jakim prawdopodobieństwem dla naszego adresu ktoś wpisał określoną frazę.