Чтение файлов баз данных

Данные можно считать из любого формата баз данных, для которого установлен соответствующий драйвер. В локальном режиме анализа необходимые драйверы должны быть установлены на Вашем локальном компьютере. В распределенном режиме анализа (доступном при наличии серверной версии IBM® SPSS® Statistics) драйверы должны быть установлены на удаленном сервере.Дополнительную информацию см. данная тема Режим распределенного анализа в Данная глава 4 на стр. 69.

Файлы данных

Примечание: Если Вы используете 64-битную Windows версию SPSS Statistics, чтение источников данных Excel, Access и dBASE будет невозможно, даже несмотря на то, что они могут появляться в списках доступных источников данных. 32-битные драйверы ODBC несовместимы с 64-битной Windows версией.

Как читать файлы баз данных

E   Выберите в меню:

Файл > Открыть базу данных > Новый запрос…

E   Выберите источник данных.

E   При необходимости (в зависимости от источника данных) выберите базу данных Вам может понадобиться ввести имя и пароль.

E   Выберите таблицу (таблицы) и поля, которые Вы хотите загрузить. В источниках OLE DB (имеющихся только в операционных системах Windows) можно выбрать только одну таблицу.

E   Задайте требуемые связи между таблицами.

E   Дополнительно можно:

n    Задать критерий отбора данных.

n    Задать запрос значения для того, чтобы при последующем чтении данных можно было бы изменять параметры запроса.

n    Сохраните созданный запрос, прежде чем запускать его.

Редактирование сохраненного запроса к базе данных

E   Выберите в меню:

Файл > Открыть базу данных > Изменить запрос…

E   Выберите файл запроса (*.spq), который Вы хотите отредактировать.

E   Следуйте инструкциям по созданию нового запроса.

с помощью сохраненных запросов

E   Выберите в меню:

Файл > Открыть базу данных > Выполнить запрос…

E   Выберите файл запроса (*.spq), который Вы хотите запустить.

E   При необходимости (в зависимости от базы данных) введите имя и пароль.

E   Если в запросе запрашивается значение, Вам, возможно, будет необходимо ввести и другую информацию (например, квартал, за который вы хотите прочитать данные по продажам).

Выбор источника данных

В первом диалоговом окне Конструктора чтения баз данных выберите тип источника данных.

Источники данных ODBC

Если у Вас нет сконфигурированных источников данных ODBC, или если Вы хотите добавить новый источник данных ODBC, щелкните по кнопке Добавить источник данных.

n    В системе семейства Linux эта кнопка отсутствует. Источники данных ODBC описаны в файле odbc.ini, а переменная среды ODBCINI должна указывать на расположение этого файла. Дополнительные сведения см. в документации к драйверам базы данных.

n    В распределенном режиме анализа данных (если имеется сервер IBM® SPSS® Statistics) эта кнопка недоступна. Чтобы добавить источники данных в распределенном режиме анализа, обратитесь к Вашему системному администратору.

Источник данных ODBC описывается двумя видами информации: драйвер, который будет использоваться для доступа к данным, и местоположение базы данных, к которой требуется получить доступ. Для задания источника данных должен быть установлен соответствующий драйвер. Средство установки (носитель) содержит драйверы для разнообразных форматов баз данных.

Файлы данных

Рисунок 3-1

Конструктор чтения баз данных

Источники данных OLE DB

Чтобы иметь доступ к источникам данных через интерфейсы OLE DB (только для операционной системы Microsoft Windows), необходимо иметь следующее установленное программное обеспечение:

n    .NET framework. Чтобы получить последнюю версию .NET framework, зайдите по адресу http://www.microsoft.com/net.

n    IBM® SPSS® Data Collection Survey Reporter Developer Kit. За информацией о получении совместимой версии SPSS Survey Reporter Developer Kit обратитесь на www.ibm.com/support (http://www.ibm.com/support).

Следующие ограничения относятся к источникам данных OLE DB:

n    Для источников данных OLE DBС команда объединения таблиц не поддерживаются.

Данные могут считываться одновременно только из одной таблицы.

n    Источники данных OLE DB можно добавлять только в локальном режиме анализа.

Чтобы добавить источники данных OLE DB при работе в распределенном режиме на сервере, обратитесь к Вашему системному администратору.

n    В распределенном режиме анализа (доступном для SPSS Statistics Server), источники данных OLE DB доступны только для серверов Windows. Кроме того, на сервере должны быть остановлены .NET и SPSS Survey Reporter Developer Kit.

Рисунок 3-2

Конструктор чтения баз данных с доступом к источникам данных OLE DB.

Чтобы добавить источник данных OLE DB:

E   Щелкните Добавить источник данных OLE DB.

E   В диалоговом окне Data Link Properties щелкните по закладке Provider и затем выберите провайдера OLE DB.

E   Щелкните Next или щелкните на закладке Connection.

E   Выберите базу данных, введя директорию и имя базы данных или щелкнув по кнопке выбора базы данных. (Может потребоваться ввести имя и пароль.)

Файлы данных

E   Щелкните ОК после ввода всей необходимой информации. (Вы можете убедиться в доступности указанной базы данных, щелкнув по кнопке Test Connection.)

E   Введите имя базы данных, подключение к которой нужно проверить. (Это имя будет отображаться в списке доступных источников данных OLE DB.)

Рисунок 3-3

Диалоговое окно Сохранить информацию о подключении к OLE DB как

E   Щелкните по ОК .

После этого Вы попадаете в первое диалоговое окно Конструктора чтения баз данных, где Вы можете выбрать имя, под которым сохраняются источники данных OLE DB, и перейти к следующему шагу конструктора.

Удаление источников данных OLE DB

Чтобы удалить имена источников данных из списка источников данных OLE DB, удалите файл UDL с именем источника данных, который находится в:

[drive]:\Documents and Settings\[user login]\Local Settings\Application Data\SPSS\UDL

Выбор полей данных

В шаге Выбор данных можно задать информацию о том, какие таблицы и поля считываются в IBM SPSS Statistics. Поля базы данных (столбцы) считываются в IBM SPSS Statistics

как переменные.

Если в таблице выбраны поля, то в следующих окнах конструктора чтения баз данных будут видны все поля этой таблицы, однако импортируются в качестве переменных только те поля, которые выбраны на этом шаге. Это позволяет создавать соединения таблиц и задавать критерии отбора с использованием полей, которые не требуется импортировать.

Рисунок 3-4

Конструктор чтения баз данных, выбор данных

Отображение  имен полей. Чтобы получить список полей таблицы, щелкните по значку “плюс” (+) слева от имени таблицы. Чтобы убрать информацию о полях, щелкните по значку минус (–) слева от названия таблицы.

Как добавить поле. Дважды щелкните по нужному полю в списке Имеющиеся таблицы или перетащите его с помощью мыши в список Получить поля в следующем порядке. Поля могут быть переупорядочены в выбранном списке полей путем перенесения в нужное место.

Как удалить поле.  Для этого нужно дважды щелкнуть мышью по полю, которое нужно удалить, в списке Получить поля в следующем порядке или перетащить его с помощью мыши в список Имеющиеся таблицы.

Сортировка  названий полей.  Если установлен флажок Сортировать имена полей,

Конструктор чтения баз данных выводит доступные для чтения поля в алфавитном порядке.

По умолчанию в списке доступных таблиц отображаются только стандартные таблицы баз данных. Можно управлять типами элементов, которые будут отображаться в списке:

n    Таблицы.  Стандартные таблицы баз данных.

Файлы данных

n    Представления. Представления являются виртуальными или динамическими “таблицами”, заданными при помощи запросов. Они могут включать объединения нескольких таблиц и/или полей, полученных путем вычислений на основе значений других полей.

n    Синонимы. Синонимы являются альтернативными именами для таблиц или выборок,

обычно задаваемыми в запросах.

n    Системные таблицы.  В системных таблицах задаются свойства баз данных. В некоторых случаях стандартные таблицы баз данных могут быть классифицированы как системные таблицы и будут отображаться только при выборе этого варианта. Доступ к системным таблицам часто ограничивается администраторами.

Примечание: В источниках OLE DB (доступных только для операционных системах Windows) можно выбрать поля только в одной таблице. Связи между таблицами не поддерживаются в источниках данных OLE DB.

Создание связей между таблицами

Шаг Задать связи позволяет задать связи между таблицами источников данных ODBC. Если поля выбраны из нескольких таблиц, необходимо задать, по крайней мере, одну связь.

Рисунок 3-5

Конструктор чтения баз данных, задание связей

Задание связей. Чтобы задать связь, перетащите поле одной таблицы в поле другой таблице, с которым Вы хотите его связать. Конструктор чтения баз данных нарисует связующую линию между двумя полями, показывающую эту связь. Эти поля должны быть одного типа.

Соединить таблицы автоматически. Если установлен флажок ‘Соединить таблицы автоматически’, то автоматически появится линия, соединяющая любые два поля с одинаковыми именами и типами данных.

Тип связи. Если драйвер поддерживает внешние соединения, можно задавать внутренние,

левые внешние или правые внешние связи.

n    Внутренние связи. Внутренние связи включает только те строки, в которых связанные

поля равны. В данном примере будут включены все строки из двух таблиц, значения ID

в которых согласуются.

n    Внешние связи.  Кроме объединения таблиц по внутренним связям один-к-одному,

можно также использовать внешние связи, чтобы объединять таблицы по схеме

один-ко-многим. Например, можно было бы объединить таблицу с небольшим числом

Файлы данных

записей, представляющих значения данных и соответствующие метки значений, с таблицей, содержащей сотни или тысячи записей с результатами опроса респондентов. Левые внешние связи включают все записи из таблицы слева, и только те записи из таблицы справа, где связанные поля равны. Правые внешние связи включают все записи из таблицы справа, и только те записи из таблицы слева, где связанные поля равны.

Ограничение запрашиваемых наблюдений

На шаге Ограничить запрашиваемые наблюдения можно задать критерий отбора подмножеств наблюдений (строк).  Ограничение наблюдений обычно сводится к заполнению сетки критериев одним или несколькими критериями. Критерии состоят из двух выражений и некоторого отношения между ними. Выражения возвращают для каждого наблюдения значение истина, ложь или пропущенное.

n    Если результат – истина, то наблюдение отбирается.

n    Если результат – ложь или пропущенное значение, то наблюдение не отбирается.

n    В большинстве критериев используются один или несколько из шести операторов отношений (<, >, <=, >=, = и <>).

n    Выражения могут содержать имена полей, константы, арифметические операторы, числовые и другие функции, а также логические переменные. Для задания критериев можно использовать поля, которые Вы не собираетесь импортировать.

Рисунок 3-6

Конструктор чтения баз данных, ограничение запрашиваемых наблюдений

Для построения критерия необходимы, по крайней мере, два выражения и отношение между ними.

E   Построить выражение можно одним из перечисленных ниже способов:

n    В поле Выражение можно вводить имена полей, константы, арифметические операторы,

числовые и другие функции, а также логические переменные.

n    Дважды щелкните по полю в списке Поля.

n    Перетащите поле из списка Поля в поле Выражение.

n    Выберите поле из раскрывающегося списка в активной ячейке поля Выражение.

E   Чтобы выбрать оператор отношения (например, = или >), поместите курсор в ячейку

Отношение и либо введите нужный оператор, либо выберите его в раскрывающемся списке.

Файлы данных

Если в SQL содержатся предложения с выражениями для выбора наблюдений, начинающиеся с WHERE, даты и время в выражениях должны вводиться специальным образом (включая фигурные скобки, показанные в примерах):

n    Строки данных должны быть указаны в формате {d ‘гггг-ММ-дд’}

n    Строки времени должны быть указаны в формате {t ‘чч:мм:сс’}.

n    Строки данных и времени (метки времени) должны быть указаны в формате {ts

‘гггг-ММ-дд чч:мм:сс’}

n    Полное значение даты и/или времени должно быть заключено в простые кавычки.

Год должен быть указан в полной форме, в дата и время должны содержать по два символа в каждой части значения. Например, «1 Января, 2005, 1:05 ночи» должно быть указано как:

{ts ‘2005-01-01 01:05:00’}

Функции.  В списке Функции имеются встроенные арифметические, логические, текстовые

функции, функции дат и времени, а также функции SQL. Вы можете выбрать функцию в списке и перетащить ее в выражение, или ввести вручную любую допустимую функцию SQL. Перечень доступных SQL-функций смотрите в документации к вашей базе данных. Список стандартных функций содержится в:

http://msdn2.microsoft.com/en-us/library/ms711813.aspx

Случайная  выборка.  При выборе этого варианта отбирается случайная выборка наблюдений из источника данных. Для сокращения времени обработки данных большого объема может понадобиться ограничить число наблюдений небольшой репрезентативной выборкой. Случайная выборка средствами IBM® SPSS® Statistics, если она возможна для данного источника данных, выполняется быстрее, чем случайная выборка SPSS Statistics, поскольку в последнем случае требуется загрузить все данные из источника, чтобы извлечь случайную выборку.

n    Примерно.  При выборе этого параметра генерируется случайная выборка, размер

которой определяется (примерно) задаваемым процентом наблюдений. Так как процедура генерации выборки принимает независимое псевдослучайное решение для каждого наблюдения, процент отбираемых наблюдений может только аппроксимировать процент, заданный в диалоговом окне.  Чем большее количество наблюдений содержится в файле данных, тем ближе процент отобранных наблюдений к заданному проценту.

n    Точно. Из общего заданного числа наблюдений случайно выбирается заданное число

наблюдений. Если общее заданное число наблюдений превосходит число наблюдений в файле данных, в формируемой выборке будет пропорционально меньше наблюдений, чем задано.

Примечание: Если запрашивается случайная выборка, то агрегирование (доступное в режиме подключения к SPSS Statistics Server) недоступно.

Запрос значения.  Вы можете встроить в создаваемый запрос к базе данных запрос параметра у пользователя. Когда пользователь запустит такой запрос, у него на экране появится диалоговое окно, в которое он должен будет ввести информацию. Это может понадобиться, если, например, разным пользователям нужны будут разные подмножества

одного множества данных. Например, можно с помощью одного и того же запроса считывать показатели продаж для разных кварталов.

E   Чтобы создать запрос значения, поместите курсор в любую ячейку выражения, и щелкните по кнопке Предложить ввести значение.

Создание запроса параметра

Используйте диалоговое окно Запрос значения для создания запросов, запрашивающих информацию у пользователей, при каждом запуске запроса. Это полезно, если Вы хотите считывать разные подмножества данных из одного и того же источника данных, используя разные критерии.

Рисунок 3-7

Запрос значения

Чтобы сформировать запрос значения, нужно ввести текст запроса значения и значение по умолчанию. Окно запроса значения будет появляться каждый раз, когда пользователи будут запускать запрос. Текст запроса должен содержать сведения о том, какую информацию требуется ввести. Если пользователь не выбирает значение из списка, текст должен давать

подсказку о том, в каком формате следует ввести информацию. Пример: Введите квартал

(Кв1, Кв2, Кв3, …).

Позволить пользователю  выбирать значение из списка.  Установив этот флажок, Вы можете ограничить вводимые значения. После каждого значения следует нажимать клавишу Ввод.

Тип данных.  Задайте здесь тип данных: Число, Текстовые или Даты.

Файлы данных

Результат выглядит следующим образом:

Рисунок 3-8

Запрос, созданный пользователем

Источник: Руководство пользователя по базовой системе Statistics 20

Похожие посты:

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий