или NLP для чайннигиляторов вселенских легкихЕсли кто-то здесь писал рецензии на imdb, я, возможно, прочитал вашу среди двух тысяч других. Ну, то есть, как прочитал... Я определил, понравился вам фильм или нет. А это, как выясняется, совсем другое дело. Дело в том, что не нужно быть семи пядей во лбу, чтобы выяснить, положительная данная рецензия или отрицательная. Более того, не нужно даже иметь лоб. Лоб, правда, необходим, чтобы написать программу, которая, основываясь на частоте употребления слов в рецензиях каждого вида, автоматически вынесет вердикт о том, "отстой" или "шедевра" фильм "Американский пирог N", по мнению глубокоуважаемого Васи Пупкина. С гарантией 80%. Круто, да?
Ну, то есть, Вася Пупкин мнил себя завзятым синефилом со способностями к письменной риторике выше среднего. Он три часа в поте лица ваял Отзыв, разложил по полочкам режиссерские находки и актерские сверхзадачи, ввернул оригинальную трактовку ключевой идеи сценария, провел в высшей степени прозорливую параллель с ранним творчеством Ким Ки Дука... А тут его отзыв вытащила из цифровой горы imdb железная рука хитрой только-только обучившейся не без моей помощи Программы1. Моя умничка стрясла всю эту словесную шелуху, сравнила получившуюся кучку по составу с формулой "рецензия на отстой", а затем - с "рецензия на шедевру" и - та-дамм! - заявила в том духе, что, мол, "шедевра детектед". Не, ну, круто ведь, а? Это и называется natural language processing (NLP) - обработка естественного языка.
читать дальшеА все потому, что imdb - корпус. Знаете, что такое корпус? Это набор текстов для машинного (не обязательно машинного, но скоро другого не останется) анализа, сформированный по какому-либо правилу. imdb - корпус кинорецензий. Их можно классифицировать на "отстой" и "шедевра", можно - на 1, 2, .., 9 и 10 звездочек. Еще лучше на 100 - это мы мучаемся, что поставить - семь или восемь, а машине увеличить число градаций - раз скрипнуть. Был бы корпус достаточно большой.
Собрание сочинений Шекспира - это тоже корпус. Если неутомимый Вася Пупкин напишет "Ромео и Джульетта 2: Хэппи-энд" и скажет, что откопал ее у себя в огороде, Программа2 оценит вероятность данного текста и заявит, что его написал тот же человек, что и отзыв на "Американский пирог N". (Словосочетание "вероятность текста" мне особенно греет душу плавит мозг, потому что это не вероятность того, что текст написал Шекспир, что еще куда ни шло, нет - это именно вероятность данного текста как случайного события появления "раму" после уже случившегося случайного события "мама мыла".)
Хотя Вася Пупкин может разочароваться в рецензировании кино и написать Программу3, которая напишет (сгенерирует) "Ромео и Джульетту 2" как наиболее вероятный текст Шекспира, и тогда Программа2 только разведет своей железной рукой с табличкой "Шекспир 100%".
Дайри, кстати, тоже можно считать корпусом. Только что я пополнил этот корпус еще одним элементом. Как статистически нехарактерный для Дайри, он, скорее всего, будет отброшен при любом анализе. Кроме, возможно, информационного поиска экстремистских материалов Всемирным Разумом в году первом от выхода в свет "Ромео и Джульетты 2".