But now I'm five, I know everything!
или NLP для чайннигиляторов вселенских легких




Если кто-то здесь писал рецензии на imdb, я, возможно, прочитал вашу среди двух тысяч других. Ну, то есть, как прочитал... Я определил, понравился вам фильм или нет. А это, как выясняется, совсем другое дело. Дело в том, что не нужно быть семи пядей во лбу, чтобы выяснить, положительная данная рецензия или отрицательная. Более того, не нужно даже иметь лоб. Лоб, правда, необходим, чтобы написать программу, которая, основываясь на частоте употребления слов в рецензиях каждого вида, автоматически вынесет вердикт о том, "отстой" или "шедевра" фильм "Американский пирог N", по мнению глубокоуважаемого Васи Пупкина. С гарантией 80%. Круто, да?

Ну, то есть, Вася Пупкин мнил себя завзятым синефилом со способностями к письменной риторике выше среднего. Он три часа в поте лица ваял Отзыв, разложил по полочкам режиссерские находки и актерские сверхзадачи, ввернул оригинальную трактовку ключевой идеи сценария, провел в высшей степени прозорливую параллель с ранним творчеством Ким Ки Дука... А тут его отзыв вытащила из цифровой горы imdb железная рука хитрой только-только обучившейся не без моей помощи Программы1. Моя умничка стрясла всю эту словесную шелуху, сравнила получившуюся кучку по составу с формулой "рецензия на отстой", а затем - с "рецензия на шедевру" и - та-дамм! - заявила в том духе, что, мол, "шедевра детектед". Не, ну, круто ведь, а? Это и называется natural language processing (NLP) - обработка естественного языка.

читать дальше

@темы: gilbert fun, ergo sum