ОКО ПЛАНЕТЫ > Теории и гипотезы > Закон Бенфорда

Закон Бенфорда


2-02-2018, 15:51. Разместил: Редакция ОКО ПЛАНЕТЫ

Закон Бенфорда

Каков шанс, что случайное число начнётся с цифры «1″? Или с цифры «3″? Или с «7″? Если вы немного знакомы с теорией вероятности, то можете предположить, что вероятность?—?один к девяти, или около 11%.

Если же вы посмотрите на реальные цифры, то заметите, что «9″ встречается гораздо реже, чем в 11% случаев. Также куда меньше цифр, чем ожидалось, начинается с «8″, зато колоссальные 30% чисел начинаются с цифры «1″. Эта парадоксальная картина проявляется во всевозможных реальных случаях, от количества населения до цен на акции и длины рек.

Давайте узнаем подробнее, что это за теория …

Закон Бенфорда был открыт вовсе не Бенфордом, а американским астрономом Шимоном Ньюкомбом. Примерно в 1881 г. Ньюкомб заметил, что страницы тетради с логарифмическими таблицами, на которых числа начинались с 1, гораздо сильнее захватаны и истрепаны, чем страницы, на которых числа начинались с 2 и так далее до 9 – те выглядели чистыми, как будто их вообще не открывали. Ньюкомб предположил: те страницы, которые больше всего истрепались, чаще всего и открывали, и на основании своих наблюдений заключил: те ученые, которые до него брали тетрадь, работали с данными, отражавшими подобное распределение цифр. Закон же был назван по фамилии Франка Бенфорда, который в 1938 г. заметил то же самое, что и Ньюкомб, когда просматривал логарифмические таблицы в научно-исследовательской лаборатории «Дженерал Электрик» в г. Скенектади, штат Нью-Йорк.  Он обнаружил, что частота появления цифры в качестве первой падает по мере того, как цифра увеличивается от одного до девяти. То есть «1″ появляется в качестве первой цифры примерно в 30,1% случаев, «2″ появляется около 17,6% случаев, «3″?—?примерно в 12,5%, и так далее до «9″, выступающей в качестве первой цифры всего лишь в 4,6% случаев.

Но ни Ньюкомб, ни Бенфорд не доказали справедливость закона. Это произошло только в 1995 г., и автор доказательства – Тед Хилл, математик из Технологического института Джорджии.

Чтобы понять это, представьте себе, что вы последовательно нумеруете лотерейные билеты. Когда вы пронумеровали билеты от одного до девяти, шанс любой цифры стать первой составляет 11,1%. Когда вы добавляете билет № 10, шанс случайного числа начаться с «1″ возрастает до 18,2%. Вы добавляете билеты с № 11 по № 19, и шанс того, что номер билета начнётся с «1″, продолжает расти, достигая максимума в 58%. Теперь вы добавляете билет № 20 и продолжаете нумеровать билеты. Шанс того, что число начнётся с «2″, растёт, а вероятность того, что оно начнётся с «1″, медленно падает.

Закон Бенфорда не распространяется на все случаи распределения чисел. Например, наборы чисел, диапазон которых ограничен (человеческий рост или вес), под закон не попадают. Он также не работает с множествами, которые имеют только один или два порядка.

Тем не менее, закон распространяется на многие типы данных. В результате власти могут использовать закон для выявления фактов мошенничества: когда предоставленная информация не следует закону Бенфорда, власти могут сделать вывод, что кто-то сфабриковал данные.

Закону Бенфорда подчиняются числа из многих областей, к примеру, из области финансов. В действительности, закон как нельзя лучше подходит для обработки большого массива финансовых показателей на предмет мошенничества.



В одном таком случае был замешан молодой предприниматель Кевин Лоуренс – он умудрился собрать 91 млн. долларов на создание сети клубов здоровья, оборудованных по последнему слову техники. Набив карманы наличными, Лоуренс развил бурную деятельность, нанял тучу исполнительных директоров и спустил деньги инвесторов так же быстро, как и собрал. И все бы ничего, за исключением одного: Лоуренс со своей когортой большую часть денег тратили не на развитие дела, а на личные нужды. А так как приобретение нескольких домов, двадцати личных яхт, сорока семи автомобилей (в числе которых пять «хаммеров», четыре «феррари», три спортивных «доджа», два шикарных «форда» и «ламборгини дьябло»), двух часов «Ролекс», браслета с бриллиантами в 21 карат, самурайского меча за 200 тыс. долларов и машины для коммерческого производства сладкой ваты едва ли можно было списать как деловые расходы, Лоуренс с дружками попытались увести деньги путем перечисления их по сложной банковской схеме со счета на счет как средства то одной подставной компании, то другой – все с целью создания видимости активно расширяющегося бизнеса. На их несчастье, заподозривший неладное бухгалтер-криминалист Даррелл Доррелл составил список из более чем 70 тыс. номеров (счета и переводы) и, опираясь на закон Бенфорда, сравнил, как распределяются цифры. А распределялись они вразрез с законом. Это, конечно же, было только началом расследования, однако дальше история развивалась по известному сценарию, а развязка наступила за день до Дня благодарения 2003 г., когда Кевин Лоуренс, окруженный своими адвокатами и облаченный в светло-голубую тюремную робу, был приговорен к двадцати годам заключения без права досрочного освобождения. Налоговое управление США также изучило закон Бенфорда как способ обнаружения случаев налогового мошенничества. Один исследователь даже применил закон к данным налоговых поступлений от Билла Клинтона за тринадцать лет. Цифры распределились в соответствии с законом.

Закон Бенфорда применим к множествам чисел, которые могут расти экспоненциально (другими словами, темп роста величины пропорционален её текущему значению). Например, счета за электричество, остатки товаров на складах, цены на акции, численность населения, смертность, длины рек, площади стран, высоты самых высоких сооружений в мире.

Закон обычно не действует для распределений с заданными минимальными или максимальными значениями (список компаний с доходом от 50 000 до 100 000 долларов). Также не подходит нормальное распределение и распределения, охватывающие только один или два порядка величин (IQ взрослых). Закон Бенфорда не применим к множеству букв. Объём данных должен быть достаточен для применения статистических методов.

Форма Закона Бенфорда может быть объяснена, если предположить, что равномерно распределены логарифмы чисел; например, вероятность нахождения числа между 100 и 1000 (логарифм между 2 и 3) является такой же, как и между 10 000 и 100 000 (логарифм между 4 и 5). Для множества чисел, особенно имеющих экспоненциальный рост, таких как доходы или цены на бирже, это разумное предположение.

Для того чтобы установить явный вид функции F(n), удовлетворяющей закону Бенфорда, рассмотрим переменную величину G(t), растушую по показательному (экспоненциальному) закону.  Время, за которое G(t) возрастает от 1 до 10, примем за единицу времени; тогда G(t) = 10t. Разделим интервал [0, 1] на отрезки, внутри которых значения G(t) заключены между последовательными целыми числами. Их границами служат точки lg1 = 0, lg2, lg3…..lg9, lg10 = 1 (рис. 3).

Рис. 3. Объяснение закона Бенфорда

Когда G(t) нарастёт до 10, примем эту десятку за новую единицу измерения, а текущее время – за новое начало отсчета; при этом процесс нарастания G(t) в следующем разряде от новой единицы до новой десятки каждый раз будет описываться одной и той же формулой.

Вероятность обнаружить величину G в таком состоянии, что её первая цифра равна n, равна длине n-ого отрезка:

Значения F(n), вычисленные по этой формуле, приведены в таблице:

Первая цифра Значение F(n) или вероятность встретить цифру первой
1 30,103%
2 17,609%
3 12,494%
4 9,691%
5 7,918%
6 6,695%
7 5,799%
8 5,115%
9 4,576%

Похоже ведет себя и население стран мира (рис. 4). Вот что пишет на эту тему математик академик Владимир Игоревич Арнольд. Согласно теории Мальтуса, население каждой страны растет в геометрической прогрессии. А первые цифры населения фиксированной страны в последовательные годы распределены как первые цифры степеней двойки (см. рис. 2).

Согласно эргодическому принципу,  временное среднее можно заменить пространственным: распределение по странам в один и тот же год должно совпадать с распределением в одной стране в разные годы.

Рис. 4. Первая цифра населения стран мира

Рис. 5. Первая цифра площади стран мира

Рис. 6. Первые цифры чисел из энциклопедий

И напоследок статистика первых цифр суммы счета торговой компании (более 71 000 записей).

Рис. 7. Первые цифры суммы счета торговой компании

https://masterok.livejournal.c...


Вернуться назад