Д-р Епщайн, политически пристрастия и резултати от търсенето с Google

Малко съм объркан от твърденията на д-р Робърт Епщайн и неговото твърдение, основано на едно проучване от 95 участници, че Google по някакъв начин умишлено отклонява резултатите, показани преди президентските избори в САЩ през 2016 г. И следователно, вероятно е повлиял на самите резултати от изборите.

Това е огромен твърдение да се направи. Човек би се надявал, че уважаван изследовател като д-р Епщайн ще разполага с научните данни, за да ги подкрепи. За съжаление не го виждам.

Науката е обективна само до момента, в който ученият признава и обяснява собствените си пристрастия. Науката не се основава на предварително зададена програма или опит за изравняване на резултата. Не съм сигурен, че д-р Епщайн е контролирал собствените си пристрастия в очевидния си лов на вещици, за да свали Google за предлагането на „предубедени“ резултати от търсенето.

Търсачките винаги са били предубедени

Google винаги е предлагал предубедени резултати от търсенето. Ако не разбирате това има за да бъде случаят с която и да е търсачка, тогава може да се нуждаете от бърз опреснителен курс за това как работят търсачките.

Няма такова нещо като обективни резултати от търсенето. Всички търсачки използват запазени алгоритми с търговска тайна, за да сте сигурни, че виждате какво прави компанията за търсачки за „най-добрите“ резултати. „Най-доброто“ - от началото на търсачките онлайн в началото на 90-те години - винаги е бил субективен термин. Няма единно обективно класиране на уебсайтове, което да казва: „Винаги показвайте този уебсайт първо за тази заявка за търсене, защото това е очевидно най-добрият резултат.“

И познайте какво - хората обичат това! Ето защо Google е на върха на купчината търсачки, защото наистина предлага резултатите, които очевидно са най-подходящи за повечето хора. В момента, в който Google спре да предлага такива подходящи резултати, нова търсачка може и ще заеме мястото си. (Някой да помни Alta Vista, Excite или дори Yahoo? [И не, Yahoo вече не търси - резултатите му се предоставят от Bing.])

Как изглежда пристрастието в резултатите от търсачката?

Без да знаят мнозина, търсачките не показват абсолютно еднакви резултати при една и съща заявка, зададена от двама различни хора. Повечето търсачки, включително Google, използват сложни фактори за персонализация, както и психографски профил, за да сортират и представят резултатите, които според него са най-подходящи за вас.

На практика това означава, че моето търсене на „симптоми на депресия“ може да върне различен набор от резултати, отколкото вашето търсене при същите условия. Ако не контролирате внимателно това в методологията си, вашите резултати ще бъдат безсмислени и опетнени.

Epstein & Robertson (2015) откриват в поредица от лабораторни (не реални) експерименти, когато изкуствено манипулират страниците с резултати от търсачките, те могат да повлияят на предпочитанията на избирателите на субектите за кратък период от време. Той не изследва действителни страници на търсачките. И той игнорира оформлението и грима на съвременните страници с резултати от търсачките. Реалните страници с резултати от търсенето съдържат множество реклами (които всеки може да закупи) в горната част на страницата преди каквито и да било органични резултати.

Резултатите на тези изследователи не са изненадващи, тъй като отразяват това, което би ви казал всеки експерт по оптимизация на търсачките (SEO) - позицията има значение на страницата с резултати от търсачката. Уебсайтовете получават много повече трафик, ако са # 1, # 2 или # 3 срещу # 9 - или още по-лошо, на втората страница с резултати.

Във втори лабораторен експеримент същият изследовател демонстрира методи (отново, използвайки напълно фалшива търсачка - не Google), при които създаденият от тях ефект - ефектът на манипулацията на търсачката (SEME) - може да бъде потиснат (чрез своевременни сигнали, показвани на потребителите ).

Google помогна на Хилари да спечели?

През 2017 г. Epstein & Robertson вече не се задоволиха да демонстрират очевидното - че позициите в класирането имат значение на страниците с резултати от търсачките. Те направиха още една крачка напред и проведоха проучване на 95 американци (само 21 от които се идентифицираха като „нерешени“ на предстоящите президентски избори) през 2016 г. и техните навици за търсене.

В бяла книга, публикувана само на собствения им уебсайт, Epstein & Robertson отправят необикновеното твърдение:

[… W] Установихме, че между май и ноември 2016 г. резултатите от търсенето, показани в отговор на широк набор от условия за търсене, свързани с избори, са били средно пристрастни в полза на г-жа Клинтън във всичките 10 позиции в резултатите от търсенето.

Публикувано като „бяла книга“, а не като рецензирано проучване на списанието, това повдигна куп червени знамена.1

В изследването беше обяснено малко по методологията. Това не включва информация за това какво е направено за ограничаване на персонализирането на резултатите от търсенето (тъй като искате да контролирате тази независима променлива), нито какви термини за търсене са използвали всъщност.Всъщност при четенето на двете предишни проучвания, публикувани от тези изследователи, дори не е ясно, че те са наясно как работят търсачките по отношение на техните стратегии за осигуряване на приходи, седмичните промени в алгоритъма, които те използват, и персонализирането на резултатите от търсенето.

Според мен също има известна небрежност в усилията на изследователя. Няма обосновка за конкретния период от 25 дни, който те са използвали за изследване в проучването, спрямо всеки друг период от време. И всъщност те признават, че всъщност не са гледали толкова внимателно по-голямата част от точките с данни, които са събрали. Изследователите пренебрегнаха данните от изследванията на стойност 7 месеца, за да се съсредоточат само върху 3-те седмици преди изборите

Те също така взеха решението post-hoc да отхвърлят всички базирани на Gmail.com данни поради аномалии в тези данни. Тези аномалии случайно не показват такова пристрастие, което те приписват или на набор от „ботове“, или - изчакайте - умишлен саботаж от страна на Google.

Тъй като има значително малцинство легитимни потребители, които използват Gmail, тези обосновки за изхвърляне на всички получени от Gmail.com данни изглеждат в най-добрия случай под въпрос. Според мен това е ужасно изследователско решение, което е взето, но такова, което по случайност също гарантира, че изследователите са намерили значение в техните данни.

Но тук е истинският ритник:

Екстраполирайки от математиката, въведена в този доклад, в статии, публикувани през февруари 2016 г. и след това, водещият автор на проучването PNAS прогнозира, че пристрастие към Клинтън в резултатите от търсенето на Google с течение на времето ще премести поне 2,6 милиона гласа на Клинтън.

В техническата книга има нулева математика. Там са куп описателни статистически данни, но тези статистически данни едва ли говорят за това какви процедури или моделиране всъщност са използвали изследователите, за да стигнат до заключенията, които са направили.

„Доказателствата на систематичните пристрастия на президентските избори през 2016 г.?“ Малка извадка от моделиращи данни, базирани на 95 американци (минус потребителите на Gmail.com, чиито данни са изпращали след хок).

Накратко, според мен това е точно този вид калпави, сенчести, ужасно проектирани изследвания, които преминават за „доказателство“ в наши дни. Защо изследователите биха провели такова привидно политически пристрастно проучване и също така да направят заключения, за които нямат реално пряко доказателство? 3

Може би има брадва за смилане?

Изследователите са хора. А хората понякога имат брадва за смилане. Не е нужно да отивате далеч, за да намерите една от възможните конкретни оси на Епщайн.

Преди 2012 г. Епщайн не проявяваше голям интерес към търсачките или как работят. Той публикува на различни теми за психологията, връзките и психичното здраве и пише за тях за масовите уебсайтове.

Тогава в началото на 2012 г. личният уебсайт на Epstein е получател на предупреждение за злонамерен софтуер, което се появява, когато потребителите се опитват да получат достъп до сайта му от Google. Google показва тези предупреждения, за да отклони потребителите от потенциално злонамерени уебсайтове.

Но този инцидент очевидно е влязъл под кожата на Епщайн по някакъв начин, защото изведнъж той пише множество статии през есента на 2012 г. за необходимостта да се регулира Google. Това от изследовател, който никога преди не е написал нито дума за търсачките. Намирам времето за интересно.

Накратко, Епщайн се застъпва за регулирането на федералното правителство на Google през последните седем години. Не би било твърде трудно да си представим хипотетичен изследовател, който да проектира изследвания, които да подкрепят нейните или неговите убеждения.

Резултатът от пристрастията на търсачката

Търсачките винаги са били пристрастни и винаги ще бъдат, защото те са субективни инструменти, предназначени да помогнат на потребителите да получат информация или развлечения. Минутата, в която голямото правителство иска да започне да наблюдава резултатите от търсенето ми, е тази, в която се обърна към търсачка, при която такова правителствено филтриране не се прави.

Също така помага да се има предвид хипотетичното вмешателство спрямо реалното намесване в политиката на САЩ. Докато Епщайн намеква, че Google манипулира резултатите си от политическото търсене, за да благоприятства кандидатите, които иска да бъдат избрани за длъжност, ние имаме реално доказателство за манипулиране на Facebook през президентските избори през 2016 г. чрез спонсорирани от Русия организации, купуващи милиони долари фалшива реклама на платформата му

Интересното е, че изглежда Епщайн не проявява особен интерес към това. Може би това е така, защото Facebook никога не го е онеправдавал, както Google някога.

За повече информация

Политифакт: Доналд Тръмп греши в Google, манипулирайки резултатите от изборите

Препратки

Епщайн и Робъртсън. (2017). Потискане на ефекта от манипулацията на търсачката (SEME). Proc. ACM Hum.-Comput. Взаимодействат., 1 (2), 42.

Епщайн и Робъртсън. (2017). Метод за откриване на пристрастия в класацията за търсене, с доказателства за систематични пристрастия, свързани с президентските избори през 2016 г. Бяла книга, публикувана от AIBRT, организацията на Epstein.

Епщайн и Робъртсън. (2015). Ефектът от манипулацията на търсачката (SEME) и неговото възможно въздействие върху резултатите от изборите. PNAS, 10.1073 / pnas.1419828112

Бележки под линия:

  1. На въпрос за липсата на рецензирани проучвания, Епщайн ми отговори: „Аз също имам проблеми както по спешност, така и по отношение на количеството: завърших или провеждам толкова много различни проучвания на нови форми на онлайн влияние (уча седем различни вида влияние в момента - SEME и шест други), че реших да обобщя констатациите си в доклади на конференции, бели книги и в даден момент под формата на книги, вместо да прекарам малкото време, което ми остава в болезнено бавен процес на академични публикации. Когато се натъкна на друга нова форма на онлайн влияние, отнема ми поне година-две, за да го разбера и да го определя количествено. (Дори не съм започнал да експериментирам с половин дузина нови форми на влияние, за които знам.) Добавянето на още една-две години към този процес, за да се публикува в списание, изглежда неразумно предвид моята възраст и предвид колко потенциално важни са тези открития за човечеството “. [↩]
  2. Изследователите твърдяха, че това се дължи на това, което според тях набират въпроси и усъвършенстват процедурите си. Което поражда въпроса - не би ли трябвало първо да се усъвършенстват процедурите им в пилотно проучване, както биха направили повечето изследователи? [↩]
  3. Или, ако искате да бъдете педантични, имайте минимални доказателства, базирани на малка извадка от само 95 потребителски търсения - минус някакъв брой теми в Gmail.com - в рамките на 25 дни. [↩]

!-- GDPR -->