Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server (2018)
Программа курса
Модуль 1. Постановка задачи
Скачать:
Программа курса
Модуль 1. Постановка задачи
- Задачи хранения, обработки и анализа текстов Строковые типы данных: VarChar, Text Работа с текстом в формате «юникод»: NVarChar, SCSU Хранение текста в BLOB’ах: BLOB, CLOB, NCLOB, типы документов Хранение текста в файлах и файловых таблицах: FileStream, FileTables Текст в XML-документах: кодировки, языковая разметка, элементы, атрибуты Загрузка текста в базу данных: OpenRowset-BULK Режимы упорядочения и работа с диакритами: Collate, регистр, диакритические знаки Режимы поиска: строковый, полнотекстовый, морфологический, фонетический, семантический, аналитический Параметризация поиска: язык запросов, операторы, параметры Требования к оформлению результатов поиска: ранжирование, сниппеты, подсветка, постраничная выдача Оценка качества поиска: точность, отклик, производительность
- Поисковые строковые функции: CharIndex, PatIndex Вспомогательные строковые функции: Concat, Replace, Stuff, Substring, Reverse, Upper, Lower Поиск по шаблону: LIKE Использование регулярных выражений: VBScript.RegExp, Regex.Match
- Подготовка индексов: типы данных, привязка к строке, язык, тип документа, обновление Базовые возможности полнотекстового поиска: Contains, FreeText, ContainsTable, FreeTextTable Логические выражения в полнотекстовых запросах: AND, OR, NOT Полнотекстовые операции: префиксы, генерализация, INFLECTIONAL, THESAURUS Весовые коэффициенты и расстояния: NEAR, WEIGHT
- Табличный вывод результатов: соединение с ContainsTable и FreeTextTable Генерация сниппетов и подсветка: простые сниппеты, подсветка с учётом словоформ Ранжирование: простое, взвешенное, с колоночными мультипликаторами Постраничная выдача: Row_Number, OFFSET, FETCH Параметризация поиска: простые и сложные формы, язык запросов
- Языковая разметка текста: LCID, xml:lang, индексирование, парсинг Хранение многоязычных документов: табличное, колоночное, с языковым атрибутом, XML Морфология: генерализация, парсинг Работа с документами на нескольких языках: запросы с явным указанием языка, фильтрация по языковому атрибуту Синонимы: THESAURUS, подстановки и расширения Шумовые слова: просмотр, редактирование, привязка, генерализация шумовых слов
- Серверные компоненты полнотекстового поиска: установка и настройка Ресурсы операционной системы: службы, фильтры, файлы Подготовка фильтров: установка, тестирование, интерфейс, стандартные установочные наборы Настройка базы данных для работы с текстом: каталоги, файловые группы, включение механизма поиска Выбор механизма хранения: BLOB, XML, текст, FileStream Работа со словарями синонимов: редактирование и загрузка словарей, подстановки и расширения, приоритеты Настройка шумовых слов: подключение, влияние на индексирование Создание и настройка полнотекстовых индексов: режим отслеживания, обновление Обслуживание полнотекстовых индексов и каталогов: мониторинг, обновление
- Серверные диагностические инструменты: настройки, служебные процедуры, DMV/DMF Диагностика и мониторинг полнотекстовых индексов: документы, ключевые слова, события Диагностика и мониторинг полнотекстовых запросов: парсинг, трассировка
- Семантический поиск: подготовка базы данных, ключевые фразы, похожие документы Фонетический поиск: Soundex, Difference: NYSIIS Вычисление расстояний между словами: по Хэммингу, по Левенштейну, LCS Анализ N-грамм: триграммы, 4-граммы, Векторный анализ текста: простые и взвешенные координаты Задачи класса «Text Mining»: NLP
Скачать:
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.