Конструктор импорта текстовых файлов SPSS

Конструктор импорта текстовых файлов может считывать текстовые файлы данных,

отформатированные различным способом:

n    Файлы с данными, разделенными знаками табулятора

n    Файлы с данными, разделенными пробелами

n    Файлы с данными, разделенными запятой

n    Файлы с полями данных фиксированной ширины

Для файлов с разделителями данных, можно определить и другие символы в качестве разделителя, а также можно определить несколько разделителей для одного файла.

Как открыть текстовый файл данных

E   Выберите в меню:

Файл > Открыть текстовые данные…

E   Выберите текстовый файл в диалоговом окне «Открыть файл данных».

E   В последующих окнах Конструктора импорта текстовых файлов укажите параметры считывания.

Конструктор импорта текстовых файлов: Шаг 1

Рисунок 3-13

Конструктор импорта текстовых файлов: Шаг 1

Текстовый файл отображается в окне предварительного просмотра. Вы можете применить заранее установленный формат (предварительно сохраненный с помощью Конструктора импорта текстовых файлов) или пройти последующие шаги Конструктора импорта текстовых файлов, чтобы указать параметры чтения текстовых данных.

Файлы данных

Конструктор импорта текстовых файлов: Шаг 2

Рисунок 3-14

Конструктор импорта текстовых файлов: Шаг 2

На этом шаге задается информация о переменных. Переменная подобна полю в базе данных. Например, каждый вопрос в анкете – переменная.

Переменные  в файле…  Для того чтобы прочитать данные, Конструктор импорта текстовых файлов должен знать где заканчивается значение одной переменнойи начинается значение другой. Организация переменных определяет способ отделения одной переменной от другой.

n    С разделителем.  Для отделения переменных используются пробелы, запятые,

табуляторы и другие символы. Для каждого наблюдения переменные записаны в одинаковом порядке, но не обязательно в одинаковых столбцах.

n    Фиксированной  длины. В файле данных каждая переменная записана в одном и том же

месте (столбце) для каждого наблюдения. Никаких разделителей между переменными не требуется. Часто в текстовых файлах данных, сгенерированных компьютерными программами, значения переменных могут быть записаны непрерывно без каких-либо разделителей. Для определения того, какая переменная считывается, используется положение (номер столбца) считываемого значения.

Имена переменных находятся вверху файла? Если первая строка файла данных

содержит метки для каждой переменной, Вы можете использовать эти метки как имена переменных. Значения, не согласующиеся с правилами образования имен переменных, преобразовываются в корректные имена переменных.

Конструктор импорта текстовых файлов: Шаг 3 (файлы с разделителями)

Рисунок 3-15

Конструктор импорта текстовых файлов: Шаг 3 (файлы с разделителями)

На данном шаге указывается информация о наблюдениях. Наблюдения в IBM SPSS Statistics подобны записям в базе данных. Например, каждый респондент в данных опроса является наблюдением.

В какой строке начинается  первое наблюдение?  В этом поле необходимо указать первую строку файла данных, содержащую данные. Если в верхних строках файла данных содержатся комментарии или другой текст, который не является данными, число, указанное в этом поле, не должно быть равно 1.

Как представлены Ваши наблюдения? Задается, каким образом Конструктор импорта текстовых файлов определяет, где данное наблюдение заканчивается и начинается следующее.

n    Каждая строка соответствует  одному наблюдению.  Каждая строка соответствует

одному наблюдению. Это достаточно распространенный случай, несмотря на то,

что при большом количестве переменных, строки становятся очень длинными.

Файлы данных

Если не все строки содержат одинаковое количество значений данных, то число переменных определяется по строке, содержащей наибольшее число значений. Наблюдения с меньшим количеством значений будут содержать пропущенные значения в дополнительных переменных.

n    В наблюдении – заданное число переменных. Указанное число переменных,

составляющих одно наблюдение, сообщает Конструктору импорта текстовых файлов, когда прекратить читать одно наблюдение и начать читать следующее. В одной строке могут быть несколько наблюдений. Наблюдения могут начинаться в середине одной строки и продолжаться в следующей строке. Конструктор импорта текстовых файлов определяет конец каждого наблюдения, основываясь на числе считанных значений независимо от числа рассмотренных строк. Каждое наблюдение должно содержать значения данных (или пропущенные значения, обозначенные разделителями) для всех переменных. Иначе файл данных считается неверно.

Сколько наблюдений Вы хотите импортировать? Вы можете импортировать все наблюдения, содержащиеся в файле данных, первые n наблюдений (n определяете

Вы), или случайно отобранные наблюдения, составляющие заданный процент. Так как алгоритм случайной выборки принимает независимое псевдослучайное решение по каждому наблюдению, то процент отобранных наблюдений может только приблизительно соответствовать указанному проценту. Чем большее количество наблюдений содержится в файле данных, тем ближе процент отобранных наблюдений к заданному проценту.

Конструктор импорта текстовых файлов: Шаг 3 (файлы фиксированной длины)

Рисунок 3-16

Конструктор импорта текстовых файлов: Шаг 3 (файлы фиксированной длины)

На данном шаге указывается информация о наблюдениях. Наблюдения в IBM SPSS Statistics подобны записям в базе данных. Например, каждый респондент в данных опроса является наблюдением.

В какой строке начинается  первое наблюдение?  В этом поле необходимо указать первую строку файла данных, содержащую данные. Если в верхних строках файла данных содержатся комментарии или другой текст, который не является данными, число, указанное в этом поле, не должно быть равно 1.

Сколько строк в 1-м наблюдении?  Задается, каким образом Конструктор импорта текстовых файлов определяет, где данное наблюдение заканчивается и начинается следующее. Каждая переменная определена номером строки в пределах наблюдения и ее местоположением в столбцах. Необходимо указать количество строк в одном наблюдении, чтобы корректно прочитать данные.

Сколько наблюдений  Вы хотите импортировать?   Вы можете импортировать все наблюдения, содержащиеся в файле данных, первые n наблюдений (n определяете

Вы), или случайно отобранные наблюдения, составляющие заданный процент. Так как алгоритм случайной выборки принимает независимое псевдослучайное решение по каждому наблюдению, то процент отобранных наблюдений может только приблизительно

Файлы данных

соответствовать указанному проценту. Чем большее количество наблюдений содержится в файле данных, тем ближе процент отобранных наблюдений к заданному проценту.

Конструктор импорта текстовых файлов: Шаг 4 (файлы с разделителями)

Рисунок 3-17

Конструктор импорта текстовых файлов: Шаг 4 (файлы с разделителями)

На этом шаге Конструктор импорта текстовых файлов показывает наилучший, с его точки зрения, вариант формата данных, и позволяет корректировать выбранные параметры.

Укажите разделитель  Здесь необходимо указать символы, разделяющие значения данных.  Вы можете выбрать любую комбинацию из указанных разделителей, а также воспользоваться вариантом Другой, чтобы указать другой символ. Несколько разделителей подряд в данных интерпретируются как пропущенные значения.

Укажите квалификатор текста Символы, используемые, чтобы окружать ими значения, содержащие разделители. Например, если запятая является разделителем, то значения, содержащие запятые, будут считаны некорректно, если только не задать квалификатор текста, который выделяет значение, предотвращая интерпретацию запятых в тексте как разделителей переменных. Файлы данных в формате CSV, экспортированные из Excel, в качестве квалификатора текста содержат кавычки (“). Квалификатор текста должен быть в начале и в конце значения, выделяя таким образом все значение.

Конструктор импорта текстовых файлов: Шаг 4 (файлы фиксированной длины)

Рисунок 3-18

Конструктор импорта текстовых файлов: Шаг 4 (файлы фиксированной длины)

На этом шаге Конструктор импорта текстовых файлов показывает наилучший, с его точки зрения, вариант формата данных, и позволяет корректировать выбранные параметры. Вертикальные линии в окне предварительного просмотра указывают определенные Конструктором границы между переменными.

При необходимости, для разделения переменных вставьте, переместите или удалите границы.  Если используется несколько строк для каждого наблюдения, данные отображаются в одной строке для каждого наблюдения, с последующими строками, добавленными в конце строки.

Замечания:

Для машинно-генерируемых файлов данных, содержащих непрерывный поток значений данных без пробелов или других разделителей, могут возникнуть затруднения при определении начала каждой переменной. Для чтения таких файлов обычно используется файл определения данных или другое описание (словарь) данных, которое определяет номер строки и номер столбца для каждого значения каждой переменной.

Файлы данных

Конструктор импорта текстовых файлов: Шаг 5

Рисунок 3-19

Конструктор импорта текстовых файлов: Шаг 5

На этом шаге определяются имена и форматы переменных. Также можно указать переменные, которые не следует импортировать.

Имя переменной.  Вы можете заменить имена переменных предлагаемые конструктором на любые удобные Вам имена, удовлетворяющие требованиям IBM SPSS Statistics. Если имена переменных считываются из файла данных, Конструктор автоматически изменит имена переменных таким образом, чтобы они удовлетворяли требованиям к именам переменных в IBM SPSS Statistics. Выберите переменную в окне предварительного просмотра, и затем введите имя переменной.

Формат переменной. Для изменения формата переменной, выберите переменную в окне предварительного просмотра, и затем выберите необходимый формат в раскрывающемся списке. Вы можете использовать клавишу Shift для выделения нескольких последовательно стоящих переменных и клавишу Ctrl для выделения нескольких переменных расположенных непоследовательно.

Формат по умолчанию определяется на основе значений данных в первых 250 строках. Если в первых 250 строках встречаются данные разных форматов (например, численный, дата, строковый), то по умолчанию устанавливается строковый формат.

Параметры форматов переменных, доступные в Конструкторе импорта текстовых файлов

Параметры форматов переменных в Конструкторе импорта текстовых файлов включают:

Не импортировать.  Указанная переменная не будет импортироваться в IBM SPSS Statistics.

Числовая. Допустимые значения включают числа, предваряемые знаком плюс или минус,

и десятичный разделитель.

Текстовая.  Допустимые значения включают фактически любые символы, вводимые с клавиатуры и пробелы. Для файлов с разделителями можно указать число знаков в значениях текстовых переменных, указав максимум 32767. По умолчанию Конструктор устанавливает число знаков по самому длинному значению, встреченному в выбранной переменной(ых) в первых 250 строках файла. Для файлов с переменными фиксированной длины число знаков в текстовых переменных определяется размещением границ между переменными, заданным на Шаге 4.

Дата/Время.  Допустимые значения включают даты общего формата dd-mm-yyyy, mm/dd/yyyy, dd.mm.yyyy, yyyy/mm/dd, hh:mm:ss, и другие форматы дат и времени. Месяцы могут указываться с помощью чисел, римских чисел, с помощью трехбуквенных сокращений или целиком. Формат выбирается из списка.

Доллар.  Допустимые значения – числа с необязательными ведущим знаком $ и запятыми в качестве разделителя разрядов.

Запятая.  Допустимые значения включают числа, в которых точка используется для отделения дробной части числа от целой, а запятые могут использоваться для разделения разрядов.

Точка.  Допустимые значения включают числа, в которых запятая используется для отделения дробной части числа от целой, а точки могут использоваться для разделения разрядов.

Примечание: Значения, которые содержат недопустимые символы для указанного формата, будут интерпретированы как пропущенные. Значения, содержащее любые из заданных разделителей, будет интерпретироваться как несколько значений.

Файлы данных

Конструктор импорта текстовых файлов: Шаг 6

Рисунок 3-20

Конструктор импорта текстовых файлов: Шаг 6

Это заключительный шаг Конструктора. Можно сохранить указанные Вами параметры в виде файла для дальнейшего использования при импорте подобных текстовых файлов. Можно также вставить синтаксис, созданный Конструктором импорта текстовых файлов SPSS, в Редактор синтаксиса. Далее можно модифицировать и/или сохранить синтаксис для использования в следующих сеансах работы.

Кэшировать данные. Кэш данных – это полная копия файла данных, сохраненная временно на диске. Кэширование файла данных может повысить производительность.

Источник: Руководство пользователя по базовой системе Statistics 20

Похожие посты:

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий