Этот пример основан на "стандартном" наборе документов Reuters. Из базы данных Reuters-21578 было выбрано 5,000 документов. Отметим, что эта база данных была создана на основе газетных статей за 1987 год. Документы были собраны и проиндексированы сотрудниками компании Reuters в 1987. Отметим, что право собственности на эти статьи принадлежит компаниям Reuters Ltd. и Carnegie Group, Inc., а использованные файлы доступны только для исследований. Вы также можете прочитать Главу 16 в Manning and Schütze (2002), чтобы получить дополнительную информацию об этих документах и специальных видах анализа.
Текст этих сообщения был сохранен в файлах XML (Extensible Markup Language). Ниже показан пример такого файла.

Рис.1
Все документы были тщательно классифицированы экспертами на различные группы. В данном случае нас будет интересовать группа "Заработок", т.е. цель этого проекта заключается в том, чтобы автоматически классифицировать статьи, связанные с заработком (см. также Manning and Schütze, 2002, p. 579).
Необходимо отметить, что общие возможности методов, которые позволяют вам автоматически классифицировать большой объем текста на несколько групп, могут быть очень широкими. После определения хорошего метода классификации, сотни (или даже тысячи) часов работы можно сэкономить, внедрив автоматизированную систему. (Отметим, что система STATISTICA идеально подходит для внедрения таких систем, поскольку она поддерживает распределение результатов текстовой добычи. Поскольку эта система является полностью программируемой, то ее можно легко интегрировать с существующими электронными системами управления, такими как STATISTICA Document Management System.)
Файл данных с ссылками
Задача этого Анализа заключается в извлечении модели, которая позволила бы нам автоматически определять документы, принадлежащие категории Заработок Система STATISTICA Текстовая добыча & Текстовая добыча из файлов содержит множество опция для получения требуемых документов или ссылок на них, включая веб-анализ (см. раздел Вводный обзор). В данном примере мы будем использовать файл данных ReutersDataReferences.sta, в котором уже содержится необходимая информация для получения всех документов.

Рис.2
Переменная Root Directory содержит ссылку на директорию, в которой хранятся текстовые файлы. В переменной File Name содержатся реальные имена файлов, а переменная Document вычисляется как объединение этих двух переменных, что позволяет получить полные ссылки на файлы. Отметим, что вы можете быстро задать соответствующий путь, изменив переменную Root Directory (используйте диалог Редактор текстовых меток для определения ссылок на правильную директорию), а затем пересчитайте переменную Document.
Отметим, что файл ReutersDataReferences.sta также содержит информацию (в переменной 5: Topic: Earnings?) о том, как переменные классифицировали каждый документ (принадлежит или не принадлежит он группе Earnings). Кроме того, в файле данных существует переменная Training, которая позднее будет использоваться во время кросс-проверки итоговой модели для вычисления ее адекватности и точности.
Определение Анализа
Откройте файл данных ReutersDataReferences.sta. Этот файл будет иметь вид, описанный выше. Однако, могут существовать некоторые различия в переменной Root Directory. Выберите команду Текстовая добыча & Текстовая добыча из файлов в меню Анализ - Текстовая добыча для вызова диалога Текстовая добыча - Стартовая панель. На вкладке Быстрый или Дополнительно в этом диалоге отмените выбор опции Обзор документов, нажмите кнопку Выберите переменную с именами документов, чтобы отобразить диалог, в котором необходимо выбрать переменную Document (в этой переменной содержатся полные ссылки на исходные XML-документы)

Рис.3
и нажмите кнопку OK, чтобы вернуться на Стартовую панель.

Рис.4
Теперь перейдите на вкладку Индексация и нажмите кнопку Список исключений, чтобы отобразить диалог открытия файлов. Выберите файл EnglishStopList.txt (который находится в одной из поддиректорий системы STATISTICA Текстовая добыча & Текстовая добыча из файлов).

Рис.5
Загрузите этот файл в качестве стандартного списка стоп-слов, т.е. слова, содержащиеся в этом списке, не будут учитываться при индексировании во время обработки документов. См. также раздел Вводный обзор.
Обработка файла данных
Нажмите кнопку OK, чтобы начать обработку документов, через несколько секунд будет отображен диалог Текстовая добыча - Результаты.

Рис.6
Опции, доступны в этом диалоге, частично описаны в разделе Вводный обзор, а также в разделе Текстовая добыча - Результаты. Главная цель исследования заключается в получении хорошей модели для автоматической классификации документов, соответствующих понятию Заработок.
Сохранение частот выделенных слов в исходном файле
Далее необходимо записать частоты выделенных слов назад в исходный файл данных, чтобы можно было использовать эти значения в последующих Анализах. Перейдите на вкладку Сохранение. Чтобы сохранить 310 выделенных слов, необходимо освободить для них место. Для этого введите число 310 в поле Число добавляемых переменных, а затем нажмите кнопку Добавить переменные в исходную таблицу.

Рис.7
После этой операции к исходному файлу будут добавлены 310 новых переменных. Далее выберите опцию Сохранить статистики в исходных данных и выберите все выделенные слова (переменные) в левой части диалога и все созданные переменные - в правой части, а затем нажмите кнопку Присвоить.

Рис.8
Потом нажмите кнопку OK, чтобы выполнить эту операцию. Вы увидите, что добавленные переменные автоматически получат имена, соответствующие выделенным словам, а соответствующие частоты будут записаны в ячейки новых переменных.

Рис.9
Таким образом, мы выполнили основные этапы текстовой добычи. Нам остается лишь построить хорошую модель для предсказания содержимого (Заработок - Да/Нет) новых статей, чтобы мы могли автоматически классифицировать их.
Начальный выбор
Существует несколько способов достижения поставленной цели. На первом шаге будем использовать мощные и эффективные средства Выбора и отсеивания переменных для определения подмножества из 310 слов, которые были выделены для построения будущей модели. На самом деле, это не является острой необходимость, поскольку практически все методы предсказывающей классификации, доступные в STATISTICA Добыча данных, могут обрабатывать подобные предикторы. Однако, чтобы показать, как быстро можно построить модели, будет использовать методы Выбора и отсеивания переменных.
Выберите команду отсеивание признаков в меню Анализ - Добыча данных. Затем выберите переменную Topic: Earnings? в качестве категориальной зависимой переменной, а все остальные переменные, содержащие частоты слов, в качестве непрерывных предикторов.

Рис.10
Затем нажмите кнопку OK, чтобы перейти в диалог Результаты. Отобразим первые 50 предикторов переменной Topic: Earnings? (введите число 50 в поле Отобразить) и создайте график важности предикторов.

Рис.11
Судя по этому графику, может быть эффективным использовать только 20 предикторов для итоговой модели. Мы будем использовать 20 наилучших предикторов для построения новой модели. Будем использовать средства модуля Классификация и регрессионные деревья.
Нажмите кнопку Вывести k наилучших предикторов, чтобы скопировать список наилучших предикторов для использования в модуле Классификация и регрессионные деревья.

Рис.12
Общая классификация и регрессионные деревья
Выберите команду Общая деревья классификации и регрессия в меню Анализ - Добыча данных. По умолчанию, выбрана опция Стандартный анализ. Нажмите кнопку OK. В диалоге Стандартный анализ выберите опцию Категориальный отклик, нажмите кнопку Переменные и выберите в качестве зависимой переменной - Topic: Earnings?, также выберите 20 наилучших предикторов.

Рис.13
На вкладке Проверка выберите опцию V-образная кросс-проверка (чтобы автоматически выбрать робастную модель) и также укажите переменную Training в качестве Проверочной выборки с кодом Training, который определяет выборку для построения модели.

Рис.14
Теперь нажмите кнопку OK, чтобы начать Анализ. Через несколько секунд будет отображен диалог Результаты. Нажмите кнопку OK, чтобы просмотреть итоговое дерево.

Рис.15
Итоговое дерево аналогично дереву, показанному в Manning and Schütze (2002, Figure 16.1). Тем не менее, если вы перейдете на вкладку Классификация в диалоге Результаты GC&RT и выберите опцию Проверить множество, чтобы вычислить предсказанную классификацию для тестовой выборки, то после нажатия кнопки Предсказанные и наблюдаемые по классам будет отображена следующая матрица ошибочных классификаций.

Рис.16
Таким образом мы построили модель с точностью 94%!
Вывод
В этом примере мы рассмотрели, как различные методы STATISTICA Текстовая добыча & Текстовая добыча из файлов вместе с другими модулями STATISTICA Добыча можно использовать для построения высокоточных предсказываемых моделей для классификации текста. Система STATISTICA хорошо подходит для этих целей, поскольку в ней присутствует тесная интеграция различных компонент.
Скачать дополнение к "STATISTICA Text Miner. Анализ и классификация текста."
Комментарии: