Лоши изследвания: Популярни условия за търсене на секс
Изследователите Оги Огас и Сай Гаддам наскоро издадоха книга, Милиарда нечестиви мисли, подробно анализирайки техния анализ на 400 милиона търсения, събрани от търсачката Dogpile. От тези 400 милиона търсения, 13 процента (55 милиона) са за еротично съдържание.
Как се разбиха тези 55 милиона търсения? Нека разберем ... но нека разгледаме и методологията на тези изследователи, за да видим дали техните открития си струват хартията, върху която са отпечатани. (Ако смятате, че не, вероятно сте прав.)
И така, ето какво търсят хората от Dogpile, когато става въпрос за сексуални интереси. Обърнете внимание, че термините по-долу са общата категория за търсене на този интерес, която включва всички видове пермутации на термините. Тези пермутации (като „цици“ за гърди) не са изброени по-долу; използвай въображението си.
- Младежи - 13,5 процента
- Гей - 4,7 процента
- MILFs (Mother’s I Like Like to F ***) - 4,3 процента
- Гърди - 4,0 процента
- Измама на съпруги - 3,4 процента
- Вагини - 2,8 процента
- Пениси - 2,4 процента
Боклук вътре, боклук навън
Има една стара поговорка в компютърното програмиране - GIGO: Garbage In, Garbage Out. Той се прилага еднакво добре за всяко научно начинание, което е толкова добро, колкото данните, които сте избрали да анализирате. Ако започнете с набор от данни със съмнителна обобщаемост или стойност, може да откриете, че правите изводи, които нямат голяма връзка с реалността.
В този случай има огромен проблем с изследователските данни, събрани от тези изследователи. Те не идват от Google или дори от Bing. Те идват от малко известна търсачка, наречена „Dogpile“, която дори не е търсачка. Това, което е Dogpile, е просто агрегираща машина за резултати от търсенето от Google, Yahoo и Bing (тъй като Bing сега предоставя на Yahoo своите данни за търсене, не съм сигурен защо все още съществува тази диференциация).
Това не е същото като търсене, проведено в Google чрез Google.com, или търсене, проведено в Bing чрез Bing.com. Всъщност трябва да отидете на уебсайта Dogpile, за да получите тези резултати - резултати, които са формирали набора от данни за настоящите изследователи. Ако извършите търсене в Google.com, вашето търсене не би било анализирано от тези изследователи (което има смисъл, тъй като Google и Bing не правят данните, които събира при търсенията, лесно достъпни за изследователите).
Това, което вероятно прави Dogpile малко използван, е фактът, че той смесва спонсорираните реклами в мрежата за търсене с органичните резултати от търсенето, на практика без визуална реплика, която прави. Малкият отпечатък в края на всеки резултат от търсенето ви дава възможност да разберете дали е „спонсориран“ резултат или не - например реклама. В търсене на „депресия“ на Dogpile, 14 от първите 20 резултата от търсенето бяха реклами - не точно нещо, което повечето обикновени хора биха търпели много дълго.
Хората, които търсят съдържание онлайн, отдавна са решили да се откажат от използването на търсачки, които се опитват да смесят рекламата с действителните резултати. Причината е проста - хората ще кликват върху реклама, когато се интересуват от предлагания продукт или услуга. Те не обичат да бъдат подвеждани да кликват върху това, което според тях е резултат от търсенето, само за да разберат, че това е маскирана реклама.
И така, кой използва Dogpile? Кой знае, но със сигурност няма вероятност да бъде основен потребител на интернет. Докато над 150 милиона души използват Google и 90 милиона използват Bing.com, Dogpile’s 2-3 милиона души на месец бледнее в сравнение и е далеч по-малко от 0,05% от общия пазар на търсачки.
Можете ли да проведете проучване на такъв малък набор от данни и да се опитате да използвате дим и огледала, за да изглеждате така, сякаш всъщност сте направили същия вид новаторски изследвания, които Институтът Кинси направи през 50-те и 60-те години? Със сигурност можете.
Например Оги Огас и Сай Гаддам казаха, че са анализирали 400 милиона търсения в интернет. Но сравнете този брой с 3 милиарда търсения, извършвани всеки ден, според Hitwise, компания за онлайн анализ. Внезапно 400 милиона - макар и привидно впечатляващо число във вакуум - изглеждат далеч по-малко впечатляващи, когато се поставят в някакъв контекст на данните. 400 милиона търсения е еквивалент на това, което се извършва за около 3 часа. В един ден.
Контекстът, разбира се, е всичко, когато става въпрос за набори от данни, особено когато тези набори от данни вероятно са пристрастни по начини, по които никога не сте си направили труда да разследвате. В този случай наборът от данни е предубеден от използването на търсачката Dogpile - малка, нишова търсачка, която е по-вероятно, отколкото да не се използва от определена подгрупа от популацията, която се различава от останалата част от популацията.
Така че вземете този списък със зърно. Интересно е, но не съм сигурен, че отразява общото население. И със сигурност не си струва да купувате цяла книга, която се задълбочава в този дефектен набор от данни.