Содержание
Этот пример основан на "стандартном" наборе новостных документов, публикуемых интернет-сайтом lenta.ru. С данного сайта было взято 60 статей, посвященных таким сферам жизни как политике, спорту и экономике - по 20 штук на каждую тему. Все статьи являют собой некоторую сводку новостей за начало октября 2006 года.
Текст этих сообщения был сохранен в файлах с расширением TXT (обычный текстовый документ). Ниже показан пример такого файла.

Рис. 1. Фрагмент текста
Пример сохранённого документа Благодаря способу отбора статей, все документы автоматически были классифицированы на 3 группы. В данном случае нас будет интересовать группа Политика, т.е. цель этого проекта заключается в том, чтобы автоматически классифицировать статьи, связанные с политикой
Необходимо отметить, что общие возможности методов, которые позволяют вам автоматически классифицировать большой объем текста на несколько групп, могут быть очень широкими. После определения хорошего метода классификации, сотни (или даже тысячи) часов работы можно сэкономить, внедрив автоматизированную систему. (Отметим, что система STATISTICA идеально подходит для внедрения таких систем, поскольку она поддерживает распределение результатов текстовой добычи. Поскольку эта система является полностью программируемой, то ее можно легко интегрировать с существующими электронными системами управления, такими как STATISTICA Document Management System.)
Файл данных с ссылками
Задача этого Анализа заключается в извлечении модели, которая позволила бы нам автоматически определять документы, принадлежащие категории Политика Система STATISTICA Текстовая добыча & Текстовая добыча из файлов содержит множество опций для получения требуемых документов или ссылок на них, включая веб-анализ. В данном примере мы будем использовать файл данных Таблица статьи lenta.sta, в котором уже содержится необходимая информация для получения всех документов. Заметим, что документы могли также быть сохраненными в других форматах(таких ка .pdf, .ps, .doc и т. д.) Своевременно также будет продемонстрировать возможности опции «web-crawling», позволяющей по ссылке на директорию или страницу в сети получать в качестве значений переменных STATISTICA имена всех файлов заданного типа, которые в иерархическом древовидном представлении архитектуры являются дочерними для указанной директории или страницы в сети.
Шаг 1. Выберите команду Текстовая добыча и сканирование в Web & Текстовая добыча в Web из файлов в меню Анализ для вызова диалога Текстовая добыча из файлов - Стартовая панель. Выберите необходимый уровень вложенности, папку или WEB- страницу, содержащую интересующие Вас файлы, а также задайте тип необходимых Вам документов, путем указания соответствующего фильтра.
Рис. 2. Диалог «Текстовая добыча из файлов» шаг 1
Шаг 2. После этого нажмите кнопку Добавить для добавления выбранной вами ссылки в дерево извлечения. Далее нажмите Выполнить и перенесите выделенные документы в окно Список документов.
Рис. 3. Диалог «Текстовая добыча из файлов» шаг 2
Шаг 3. Далее вы можете поместить данные в таблицу STATISTICA.
Рис. 4. Таблица данных, полученная при помощи технологии “WEB-crawling”
Итак, вернемся к случаю, когда интересующие нас документы уже занесены в таблицу Таблица статьи lenta.sta.

Рис. 5. Таблица данных
Переменная Адрес папки содержит ссылку на директорию, в которой хранятся текстовые файлы. В переменной Имя файла содержатся реальные имена файлов, а переменная Полный адрес документа вычисляется как объединение этих двух переменных, что позволяет получить полные ссылки на файлы. Отметим, что вы можете быстро задать соответствующий путь, изменив переменную Адрес папки (используйте диалог Редактор текстовых меток для определения ссылок на правильную директорию), а затем пересчитайте переменную Имя файла
Отметим, что файл Таблица статьи lenta.sta также содержит информацию (в переменной 5: Отношение к теме Политика) о том, как переменные классифицировали каждый документ (принадлежит или не принадлежит он группе Политика). Кроме того, в файле данных существует переменная Проверяемые файлы, которая позднее будет использоваться во время кросс-проверки итоговой модели для вычисления ее адекватности и точности.
Определение Анализа
Откройте файл данных Таблица статьи lenta.sta. Этот файл будет иметь вид, описанный выше. Однако, могут существовать некоторые различия в переменной Адрес папки. Выберите команду Текстовая добыча & Текстовая добыча из файлов в меню Анализ - Текстовая добыча для вызова диалога Текстовая добыча - Стартовая панель. На вкладке Быстрый или Дополнительно в этом диалоге отмените выбор опции Обзор документов, нажмите кнопку Выберите переменную с именами документов, чтобы отобразить диалог, в котором необходимо выбрать переменную Полный адрес папки (в этой переменной содержатся полные ссылки на исходные TXT-документы)

Рис. 6. Диалог Текстовая добыча
и нажмите кнопку OK, чтобы вернуться на Стартовую панель.
Теперь перейдите на вкладку Индексация и нажмите кнопку Список исключений, чтобы отобразить диалог открытия файлов. Выберите файл RussianStopList.txt (который находится в одной из поддиректорий системы STATISTICA Текстовая добыча & Текстовая добыча из файлов).
Загрузите этот файл в качестве стандартного списка стоп-слов, т.е. слова, содержащиеся в этом списке, не будут учитываться при индексировании во время обработки документов.
Обработка файла данных
Нажмите кнопку OK, чтобы начать обработку документов, через несколько секунд будет отображен диалог Текстовая добыча - Результаты.

Рис. 7. Диалог Результаты текстовой обработки документов
Опции, доступные в этом диалоге, частично описаны в разделе Вводный обзор, а также в разделе Текстовая добыча - Результаты. Главная цель исследования заключается в получении хорошей модели для автоматической классификации документов, соответствующих понятию Заработок.
Сохранение частот выделенных слов в исходном файле
Далее необходимо записать частоты выделенных слов назад в исходный файл данных, чтобы можно было использовать эти значения в последующих Анализах. Перейдите на вкладку Сохранение, чтобы сохранить 952 выделенных слова, необходимо освободить для них место. Для этого введите число 952 в поле Число добавляемых переменных, а затем нажмите кнопку Добавить переменные в исходную таблицу.
После этой операции к исходному файлу будут добавлены 952 новых переменных. Далее выберите опцию Сохранить статистики в исходных данных и выберите все выделенные слова (переменные) в левой части диалога и все созданные переменные - в правой части, а затем нажмите кнопку Присвоить.
Рис. 8. Диалог Присвоение переменным статистики для сохранения в исходных данных
Потом нажмите кнопку OK, чтобы выполнить эту операцию. Вы увидите, что добавленные переменные автоматически получат имена, соответствующие выделенным словам, а соответствующие частоты будут записаны в ячейки новых переменных.
Рис. 9. Таблица данных после добавления переменных и присвоения им полученных значений в результате обработки текста
Таким образом, мы выполнили основные этапы текстовой добычи. Нам остается лишь построить хорошую модель для предсказания содержимого (Политика - Да/Нет) новых статей, чтобы мы могли автоматически классифицировать их.
Начальный выбор
Существует несколько способов достижения поставленной цели. На первом шаге будем использовать мощные и эффективные средства Выбора и отсеивания переменных для определения подмножества из 952 слова, которые были выделены для построения будущей модели. На самом деле, это не является острой необходимость, поскольку практически все методы предсказывающей классификации, доступные в STATISTICA Добыча данных, могут обрабатывать подобные предикторы. Однако, чтобы показать, как быстро можно построить модели, будет использовать методы Выбора и отсеивания переменных.
Выберите команду Отсеивание признаков в меню Анализ - Добыча данных. Затем выберите переменную Отношение к теме Политика в качестве категориальной зависимой переменной, а все остальные переменные, содержащие частоты слов, в качестве непрерывных предикторов.
Рис. 10. Диалог Отсеивание признаков
Затем нажмите кнопку OK, чтобы перейти в диалог Результаты. Отобразим первые 20 предикторов переменной Отношение к теме Политика (введите число 20 в поле Отобразить)
Рис. 11. Диалог Результаты отсеивания признаков
и создайте график важности предикторов.
Рис. 12. График значимости 20 наиболее значимых непрерывных предикторов
Мы будем использовать 20 наилучших предикторов для построения новой модели. Будем использовать средства модуля Классификация и регрессионные деревья.
Нажмите кнопку Вывести k наилучших предикторов, чтобы скопировать список наилучших предикторов для использования в модуле Классификация и регрессионные деревья.
Рис. 13. Список (номеров) 20 наиболее значимых предикторов
Общая классификация и регрессионные деревья
Выберите команду Общая деревья классификации и регрессия в меню Анализ - Добыча данных. По умолчанию, выбрана опция Стандартный анализ. Нажмите кнопку OK. В диалоге Стандартный анализ выберите опцию Категориальный отклик, нажмите кнопку Переменные и выберите в качестве зависимой переменной – Отношение к теме Политика, также выберите 20 наилучших предикторов.
Рис. 14. Диалог Стандартная GCRT
На вкладке Проверка выберите опцию V-образная кросс-проверка (чтобы автоматически выбрать робастную модель) и также укажите переменную Проверяемые файлы в качестве Проверочной выборки с кодом «обучающая», которая определяет выборку для построения модели.
Рис. 15. Возможность включения «кросс-проверки» в анализ
Теперь нажмите кнопку OK, чтобы начать Анализ. Через несколько секунд будет отображен диалог Результаты. Нажмите кнопку OK, чтобы просмотреть итоговое дерево.
Рис. 16 График дерева классификации статьи по признаку её отношения к теме Политика
Если вы перейдете на вкладку Классификация в диалоге Результаты GC&RT и выберите опцию Анализируемая, чтобы вычислить предсказанную классификацию для тестовой выборки, то после нажатия кнопки Предсказанные и наблюдаемые по классам будет отображена следующая матрица ошибочных классификаций.
Рис. 17. Матрица ошибочных классификаций
Таким образом мы построили модель с точностью 92%!
Вывод
В этом примере мы рассмотрели, как различные методы STATISTICA Текстовая добыча & Текстовая добыча из файлов вместе с другими модулями STATISTICA Добыча можно использовать для построения высокоточных предсказываемых моделей для классификации текста. Система STATISTICA хорошо подходит для этих целей, поскольку в ней присутствует тесная интеграция различных компонент.
В начало
Комментарии: