Теорема на Бейс

От testwiki
Направо към навигацията Направо към търсенето

Теорема на Бейс по името на Томас Бейс (Thomas Bayes) се използва в теорията на вероятностите за изчисляване на вероятността за настъпване на дадено събитие, след като вече е известна част от информацията за него.

Формулировка

P(A|B)=P(B|A)P(A)P(B),

където

P(A) – вероятност за настъпване на събитието A;
P(A|B) – Условна вероятност за настъпване на събитието A при положение, че събитието B е настъпило (апостериорна вероятност);
P(B|A) – Условна вероятност за настъпване на B при положение, че A е настъпило;
P(B) – вероятност за настъпване на събитието B.

Извод

За да изведем теоремата, трябва да напишем определението за условна вероятност. Вероятността за настъпване на събитието A при положение, че B вече е настъпило е:

P(A|B)=P(AB)P(B).

Аналогично, вероятността за настъпване на B при положение, че A се е сбъднало е:

P(B|A)=P(AB)P(A).

Като комбинираме двете уравнения, получаваме:

P(A|B)P(B)=P(AB)=P(B|A)P(A).

Тази лема понякога се намира „правило за умножение на вероятности“ Остава да разделим на P(B), при положение, че тази вероятност не е нулева, за да получим Теоремата на Бейс:

P(A|B)=P(B|A)P(A)P(B).

Примери

Тест за болест

Задача: Фармацевтична компания произвежда тест, за който се твърди че е надежден: ако пациентът е болен, този тест в 99% от случаите ще даде положителен резултат, а ако пациентът е здрав, в 99% от случаите тестът ще е отрицателен. Ако тази болест засяга 0,5% от населението, то каква е вероятността пациентът да е болен, ако тестът е положителен?

Решение:

  • Означаваме с Pr(B) вероятността даден пациент да е болен, която според данните от задачата е равна на 0.005
  • Означаваме с Pr(Z) вероятността даден пациент да е здрав, която е очевидно 0.995
  • Означаваме с Pr(+|B) вероятността тестът да даде положителен резултат, ако пациентът е болен, т.е. 0.99
  • Означаваме с Pr(+|Z) вероятността тестът да даде положителен резултат, a пациентът да е здрав, т.е. 0.01
  • Означаваме с Pr(+) тестът да даде положителен резултат, независимо дали пациентът е болен или не
  • Търсената вероятност е Pr(B|+) т.е. вероятността пациентът да е болен, ако тестът е положителен

По теоремата на Бейс:

Pr(B|+)=Pr(+|B)Pr(B)Pr(+).

Вероятността Pr(+) е равна на вероятността тестът да е положителен, независимо дали пациентът е здрав или болен. Тази вероятност е равна на вероятността тестът да е положителен и пациентът да е болен, плюс вероятността тестът да е положителен, а пациентът да е здрав. Или:

Pr(+)=Pr(+B)+Pr(+notB) (теорема)

Понеже

Z=notB

Следва

Pr(+)=Pr(+B)+Pr(+Z)
Pr(+)=Pr(+|B)Pr(B)+Pr(+|Z)Pr(Z)

Или търсената вероятност е:

Pr(B|+)=Pr(+|B)Pr(B)Pr(+|B)Pr(B)+Pr(+|Z)Pr(Z)
Pr(B|+)=0.99×0.0050.99×0.005+0.01×0.995

или в крайна сметка:

Pr(B|+)=0.33

Което означава, че вероятността даден пациент да е болен, ако тестът е положителен е само около 33%, което не е практично за нуждите на медицината, т.е. въпреки впечатляващите вероятности в условието, тестът е слаб. Това означава, че тестовете за болести следва да се произвеждат с точност, много по-голяма от 99%.

Анти-спам филтри

Съществуват анти-спам филтри за електронна поща, основаващи се на теоремата на Бейс. Тези програми изчисляват вероятността дадено електронно съобщение да е спам по следния начин:

Pr(spam|words)=Pr(words|spam)Pr(spam)Pr(words)

Където Pr(spam|words) е вероятността дадено съобщение да е спам, при положение че съдържа определени думи и изрази в него, Pr(words|spam) е вероятността тези думи или изрази да се съдържат в спам-съобщение, Pr(spam) е броят на спамовете към общия брой на съобщенията, т.е. вероятността всяко съобщение да е спам, а Pr(words) е вероятността тези думи да бъдат намерени в нормално електронно съобщение. Идеята е предложена за пръв път от английския програмист Пол Греъм.

Външни препратки

Шаблон:Превод от