Домой / Игры / Алгоритмы сортировки массивов. Внутренняя сортировка. Сравнение алгоритмов сортировки

Алгоритмы сортировки массивов. Внутренняя сортировка. Сравнение алгоритмов сортировки

Элементарные методы сортировки В качестве нашей первой экскурсии в область алгоритмов сортировки, мы изучим некоторые «элементарные» методы которые хорошо работают для небольших файлов или файлов специальной структуры. Существует несколько причин, по которым желательно изучение этих простых методов. Во-первых, они дают нам относительно безболезненный способ изучить терминологию и основные механизмы работы алгоритмов сортировки, что позволяет получить необходимую базу для изучения более сложных алгоритмов. Во-вторых, для многих задач сортировки бывает лучше использовать простые методы, чем более сложные алгоритмы. И, наконец, некоторые из простых методов можно расширить до более хороших методов или использовать их для улучшения более сложных.В некоторых программах сортировки лучше использовать простые алгоритмы. Программы сортировки часто используются только один раз (или несколько раз). Если количество элементов, которые нужно отсортировать не велико (скажем меньше чем 500 элементов), то может статься, что использование простого алгоритма будет более эффективно, чем разработка и отладка сложного алгоритма. Элементарные методы всегда пригодны для маленьких файлов (скажем меньших, чем 50 элементов); маловероятно, что сложный алгоритм было бы разумно использовать для таких файлов, если конечно не нужно сортировать большое количество таких файлов.Как правило, элементарные методы, которые мы будем обсуждать, производят около операций для сортировки N произвольно взятых элементов. Если N достаточно мало, то это может и не быть проблемой, и если элементы распределены не произвольным образом, то эти алгоритмы могут работать даже быстрее, чем сложные. Однако следует запомнить то, что эти алгоритмы не следует использовать для больших, произвольно упорядоченных файлов, с одним единственным исключением для алгоритма оболочечной сортировки, который часто используется во многих программах.Правила Игры

Перед тем, как рассматривать какой-либо конкретный алгоритм, было бы полезно изучить терминологию и некоторые основные соглашения об алгоритмах сортировки. Мы будем изучать алгоритмы для сортировки файлов записей содержащих ключи . Ключи, которые являются только частью записи (часто очень маленькой их частью), используются для управления процессом сортировки. Целью алгоритма сортировки является переорганизация записей в файле так, чтобы они располагались в нем в некотором строго определенном порядке (обычно в алфавитном или числовом).

Если сортируемый файл целиком помещается в память (или целиком помещается в массив), то для него мы используем внутренние методы сортировки. Сортировка данных с ленты или диска называется внешней сортировкой. Главное отличие между ними состоит в том, что при внутренней сортировке любая запись легко доступна, в то время как при внешней сортировке мы можем пользоваться записями только последовательно, или большими блоками. Большинство алгоритмов сортировки, которые мы рассмотрим - внутренние.

Обычно, главное, что будет нас интересовать в алгоритме - это время его работы. Первые четыре алгоритма, которые мы рассмотрим, для сортировки N элементов имеют время работы пропорциональное, в то время как более сложные алгоритмы используют время пропорциональное. (Можно показать, что никакой алгоритм сортировки не может использовать менее, чем сравнений между ключами.) После изучения простых методов мы рассмотрим более сложные методы, время работы которых пропорционально и методы использующие бинарные свойства ключей для уменьшения общего времени работы до N.

Количество используемой дополнительной памяти алгоритма сортировки - это еще один важный фактор, который мы будем принимать во внимание. Вообще говоря, методы сортировки делятся на три типа:

методы сортировки, которые сортируют без использования дополнительной памяти, за исключением, возможно, небольшого стека и / или массива;

методы, которые используют для сортировки связанные списки и поэтому используют N дополнительных указателей хранящихся в памяти;

и методы, которые нуждаются в дополнительной памяти для хранения копии сортируемого файла.

Стабильность - еще одна немаловажная характеристика методов сортировки. Метод сортировки называется стабильным, если он сохраняет относительных порядок следования записей с одинаковыми ключами. Например, если алфавитный список группы сортируется по оценкам, то стабильный метод создает список, в котором фамилии студентов с одинаковыми оценками будут упорядочены по алфавиту, а нестабильный метод создаст список в котором, возможно, исходный порядок будет нарушен. Большинство простых методов стабильны, в то время как большинство хорошо известных сложных методов - нет. Если стабильность необходима, то она может быть достигнута посредством добавления к ключу небольшого индекса перед сортировкой или посредством удлинения, каким-либо образом, ключа. Стабильность с легкостью принимается за норму; к нестабильности люди относятся с недоверием. На самом же деле, лишь немногие методы достигают стабильности без использования дополнительного времени или места.

Следующая программа, для сортировки трех записей, предназначена для иллюстрации основных соглашений, которые мы будем использовать. В частности, главная программа любопытна тем, что она работает только для N=3; смысл в том, что любая программа сортировки может быть сведена к процедуре sort3 этой программы.

Три оператора присвоения, каждый из которых сопровождается оператором if, на деле реализуют операцию «обмена». Мы вставляем ее непосредственно в программный код вместо использования вызова процедуры, поскольку они являются основой многих алгоритмов и часто попадают внутрь цикла.

Чтобы сконцентрироваться на алгоритмических вопросах, мы будем работать с алгоритмами, которые просто сортируют массивы целых в численном порядке. В общем, очень легко адаптировать такие алгоритмы для практического использования, включающего в себя работу с большими ключами или записями. В основном программы сортировки работают с записями двумя способами: либо они сравнивают и сортируют только ключи, либо передвигают записи целиком. Большинство алгоритмов, которые мы изучим можно применять, посредством их переформулировки в терминах этих двух операций, для произвольных записей. Если сортируемые записи довольно большие, то обычно пытаются избежать передвижения их посредством «косвенной сортировки»: при этом сами записи не переупорядочиваются, а вместо этого переупорядочивается массив указателей (индексов), так, что первый указатель указывает на самый маленький элемент и так далее. Ключи могут храниться либо с записями (если они большие), либо с указателями (если они маленькие). Если необходимо, то после сортировки записи можно упорядочить. Это описано дальше.

Программа sort3 использует даже более ограниченный доступ к файлу: это три операции вида «сравнить две записи и обменять их, если нужно, чтобы поместить запись с меньшим ключом на первое место». Программы, ограниченные такими операциями интересны, поскольку они подходят для реализации на аппаратном уровне. Мы изучим их более подробно позднее.

Все примеры программ используют для сортировки глобальный массив. Это не означает, что такой подход лучше или хуже чем передача массива как параметра. Все зависит от точки зрения и конкретного алгоритма. Массив сделан глобальным только потому, что тогда примеры становятся короче и понятней.

Сортировка выбором Один из самых простых методов сортировки работает следующим образом: находим наименьший элемент в массиве и обмениваем его с элементом находящимся на первом месте. Потом повторяем процесс со второй позиции в файле и найденный элемент обмениваем со вторым элементном и так далее пока весь массив не будет отсортирован. Этот метод называется сортировка выбором, поскольку он работает, циклически выбирая наименьший из оставшихся элементов, как показано на рисунке 1. При первом проходе символ пробела уходит на первое место, обмениваясь с буквой `П". На втором проходе элемент `В" обменивается с элементом `Р" и так далее.Следующая программа дает полную реализацию этого процесса. Для каждого i от 1 до N - 1 , она обменивает наименьший элемент из a [i ..N] с a[i ]:По мере продвижения указателя i слева направо через файл, элементы слева от указателя находятся уже в своей конечной позиции (и их больше уже не будут трогать), поэтому массив становится полностью отсортированным к тому моменту, когда указатель достигает правого края.Этот метод - один из простейших, и он работает очень хорошо для небольших файлов. Его «внутренний цикл» состоит из сравнения a[i ]min ] (плюс код необходимый для увеличения j и проверки на то, что он не превысил N ), что вряд ли можно еще упростить.Кроме того, хотя сортировка выбором является методом «грубой силы», он имеет очень важное применение: поскольку каждый элемент передвигается не более чем раз, то он очень хорош для больших записей с маленькими ключами.Сортировка вставкой Метод сортировки вставкой, почти столь же прост, что и сортировка выбором, но гораздо более гибкий. Этот метод часто используют при сортировке карт: берем один элемент и вставляем его в нужное место среди тех, что мы уже обработали (тем самым оставляя их отортированными).Рассматриваемый элемент вставляется в позицию посредством передвижения большего элемента на одну позицию вправо и затем размещением меньшего элемента в освободившуюся позицию, как показано на рисунке 2. Так `И" при третьем шаге меньше всех остальных отсортированных элементов, поэтому мы «топим» его в начало массива. `М» больше `И" но меньше всех остальных, поэтому мы помещаем его между `И" и `П", и так далее.Этот процесс реализован в следующей программе. Для каждого i от 2 до N , подмассив a сортируется посредством помещения a[i ] в подходящую позицию среди уже отсортированных элементов:Также как и при сортировке выбором, в процессе сортировки элементы слева от указателя i находятся уже в сортированном порядке, но они не обязательно находятся в своей последней позиции, поскольку их еще могут передвинуть направо чтобы вставить более маленькие элементы встреченные позже. Массив становится полностью сортированным когда указатель достигает правого края.Однако имеется еще одна важная деталь: программа insertion не всегда работает, поскольку while может проскочить за левый край массива, когда v - самый меньший элемент массива. Чтобы исправить ситуацию, мы помещаем «сторожевой» ключ в a, делая его, по крайней мере, не больше, чем самый маленький ключ массива. Сторожевые элементы повсеместно используются в ситуациях подобных этой для предотвращения дополнительной проверки (в данном случае j >0), что почти всегда помогает во внутренних циклах.Пузырьковая сортировка Элементарный метод сортировки, который часто дают на вводных занятиях - это пузырьковая сортировка : Стоящие рядом элементы массива обмениваются местами, до тех пор, пока встречаются неотсортированные пары. Реализация этого метода дана ниже.Чтобы поверить в то, что она на самом деле работает, может потребоваться некоторое время. Для этого заметьте, что когда во время первого прохода мы встречаем максимальный элемент, мы обмениваем его с каждым элементом справа от него пока он не окажется в крайней правой позиции. На втором проходе мы помещаем второй максимальный элемент в предпоследнюю позицию и так далее. Пузырьковая сортировка работает также как и сортировка выбором, хотя она и делает гораздо больше работы на то, чтобы переместить элемент в его конечную позицию.Характеристики простейших сортировок Свойство 1 Сортировка выбором использует около сравнений и N обменов. Свойство 2 Сортировка вставкой использует около сравнений и обменов в среднем, и в два раза больше в наихудшем случае. Свойство 3 Пузырьковая сортировка использует около сравнений и обменов в среднем и наихудшем случаях. Свойство 4 Сортировка вставкой линейна для «почти сортированных» файлов. Свойство 5 Сортировка выбором линейна для файлов с большими записями и маленькими ключами. Сортировка файлов с большими записями Очень часто бывает возможно (и желательно) сделать так, чтобы при сортировке файла состоящего из N элементов любом методом было бы сделано только N операций обмена полной записи посредством косвенной адресации к элементам массива (используя массив индексов или указателей), а саму реорганизацию делать после.Более конкретно: если массив a содержит большие записи, то мы предпочтем использовать массив указателей p для того, чтобы знать, где находится очередной элемент массива a, и для произведения псевдообмена. Ниже приведена программа сортировки вставкой с использованием массива указателей:Для предотвращения излишнего контроля в цикле, в программе опять используются «сторожевые» элементы.Изначально, индексы идут по порядку. Потом порядок индексов начинает меняться так, чтобы массив a, прочитанный по порядку чтения индексов был упорядочен.

Для этого мы можем использовать следующую процедуру, которая физически упорядочивает записи файла используя при этом N перестановок:

Сортировка Шелла Сортировка вставкой работает медленно потому, что она обменивает только смежные элементы. Оболочечная сортировка является простейшим расширением сортировки вставкой, которая увеличивает скорость работы алгоритма за счет того, что позволяет обменивать элементы находящиеся далеко друг от друга.Основная идея алгоритма состоит в том, чтобы отсортировать все группы файла состоящие из элементов файла отстоящих друг от друга на расстояние h. Такие файлы называются h-сортированными. Когда мы h-сортируем файл по некоторому большому h, мы передвигаем его элементы на большие растояния. Это облегчает работу сортировки для меньших значений h. Процесс заканчивается когда h уменьшается до 1.

Приведенная программа использует последовательность… 1093, 364, 121, 40, 13, 4, 1. Могут существовать и другие последовательности - одни лучше, другие хуже.

Свойство 6 Оболочечная сортировка никогда не делает более чем N 1.5 сравнений для вышеуказанной последовательности h.

Подсчет распределения Во многих случаях мы знаем, что значения ключей в файле лежат в каких либо пределах. В этих ситуациях применим алгоритм, именуемый подсчет распределения. Здесь приведена программа для этого простого алгоритма.

Обектом внешней сортировки является файл. Размеры файла принципиально не ограничены, то есть он может не помещаться в оперативной памяти. Для этого вида сортировки дополнительные расходы внешней памяти жестко не нормируются, поэтому активно используются вспомогательные файлы. Доступ к файлам строго последовательный. Это требование обусловлено двумя обстоятельствами. Во-первых, методы внешней сортировки должны быть работоспособными при хранении файлов на устройствах последовательного доступа типа магнитных лент. Во-вторых, при использовании прямого доступа основные затраты времени связаны с позиционированием файлов, что желательно исключить.

В основе методов внешней сортировки лежит процедура слияния, заключающаяся в объединении двух или более отсортированных последовательностей. Рассмотрим эту процедуру на примере слияния двух последовательностей A и B в последовательность C. Пусть элементы A и B отсортированы по возрастанию, то есть a 1 £ a 2 £ …£ a m и b 1 £ b 2 £ …£ b n . Требуется, чтобы последовательность C также располагалась по возрастанию, то есть выполнялось c 1 £ c 2 £ …£ c m + n .

Сначала в качестве текущих выбираются первые элементы последовательностей. Меньший из них записывается в C, и вместо него текущим становится следующий элемент этой же последовательности. Эта операция повторяется до исчерпания одной из последовательностей, после чего в C дописывается остаток другой последовательности.

Можно заметить, что доступ к элементам A, B и C выполнялся строго последовательно. В методах внешней сортировки в качестве последовательностей A, B и C фигурируют отсортированные участки файлов.

Базовым методом внешней сортировки является метод простого слияния. Рассмотрим его на следующем примере. Пусть имеется файл A, включающий элементы 27, 16, 13, 11, 18, 25, 7. Этот файл разделяется на два файла B и C путем поочередной записи элементов в эти файлы. Покажем это схемой

B: 27, 13, 18, 7

A: 27, 16, 13, 11, 18, 25, 7

Затем файлы B и C снова соединяются путем поочередного включения в C элементов из A и B. При этом первым располагается меньший элемент каждой пары. Получится следующий результат

B: 27, 13, 18, 7

Пары отделяются друг от друга апострофами. На следующем этапе снова происходит разделение файла A на B и C, но в каждый файл пишутся поочередно уже не отдельные элементы, а выделенные пары. Получаем

B: 16, 27,’ 18, 25

A: 16, 27,’ 11, 13,’ 18, 25, ‘ 7



B: 16, 27,’ 18, 25

A: 11, 13, 16, 27,’ 7, 18, 25

Затем файл A распределяется по четверкам элементов и при новом соединении будет состоять из упорядоченных восьмерок элементов. В нашем примере сортировка закончится на этом этапе. В общем случае длина отсортированных серий будет увеличиваться по степеням 2, пока величина серии не превзойдет количество элементов в файле.

На этом примере определим основные термины внешней сортировки. В методе участвовали 3 файла, поэтому он называется трехленточным. Для выполнения сортировки потребовалось 3 прохода. Отдельный проход состоял из процедур разделения и слияния, каждая из которых обрабатывала все элементы. Такие процедуры называют фазами. Следовательно, метод простого слияния является двухфазным и трехленточным.

Есть очевидное усовершенствование метода. Результат слияния сразу распределяется на две ленты, то есть в процессе участвуют уже 4 ленты. За счет дополнительной памяти число операций перезаписи уменьшается вдвое. Это однофазный четырехленточный метод, называемый также сбалансированным слиянием.

Как видно из приведенных выше данных, метод может конкурировать по скорости с самыми быстрыми методами внутренней сортировки, но не применяется в таком качестве, так как требует значительных затрат памяти. Число проходов оценивается величиной log 2 n, а общее число пересылок M пропорцинально n log 2 n.

Метод простого слияния не дает какого-либо выигрыша в тех случаях, когда файл A полностью либо частично отсортирован. Этот недостаток отсутствует в методе естественного слияния.

Назовем серией последовательность элементов a i , a i +1 , …, a j , удовлетворяющих соотношениям a i -1 > a i £ a i +1 £ …£ a j > a j +1 . В частных случаях серия может находиться в начале или конце последовательности.

Исходный файл A разбивается на серии. Распределение на B и C ведется по сериям. При соединении сливаются пары серий. Снова возможен как трехленточный, так и четырехленточный вариант метода. Ниже показан пример сортировки методом естественного слияния c 4 лентами.

B: 17, 25, 41, ‘6

A: 17, 25, 41, ‘ 9, 11, ‘ 6, ‘ 3, 5, 8, 44

C: 9, 11, ‘ 3, 5, 8, 44

A: 9, 11, 17, 25, 41 B: 3, 5, 6, 8, 9, 11, 17, 25, 41, 44


D: 3, 5, 6, 8, 44 C:

При последнем разделении лента C оказывается пустой, и отсортированный файл остается на ленте B.

Метод естественного слияния в целом быстрее, но требует большего числа сравнений, так как требуется определять конец каждой серии. Ниже приведена программа сортировки файла двухфазным трехленточным методом естественного слияния.

Program SortSlian;

{ 3-ленточная, 2-фазная сортировка естественным слиянием }

{ ключи целые и положительные }

Type elem=record

{ другие поля }

tape=file of elem;

Name: string; { имя исходного файла }

Procedure Vvod(var F: tape);

While K <> -1 do

Write("Введите очередной ключ (конец -1): ");

if K<>-1 then Write(F, S)

Procedure Pech(var F: tape);

While not eof(F) do

Write(S. Key," ")

Procedure CopyElem(var X, Y: tape;

var Buf: elem; var E: boolean);

{ копирование элемента и считывание следующего

{ в Buf с проверкой конца серии (E=True) }

if not Eof(X) then Read(X, Buf)

else Buf.Key:=-1; { барьер: достигнут конец файла }

E:=(Buf.Key

Procedure CopySer(var X, Y: tape; var Buf: elem);

{ копирование серии из X в Y }

{в начале Buf-первый элемент текущей серии на X }

{в конце Buf-первый элемент следующей или –1 (конец X) }

if Buf.Key>0 then { файл X не считан }

CopyElem(X, Y, Buf, E)

Until E { E=True в конце серии }

Procedure Raspred;

{ распределение A ---> B и C }

Read(A, S); { первый элемент из A }

Rewrite(B); Rewrite(C);

CopySer(A, B, S); {S-первый элемент следующей серии }

if S.Key>0 then { файл A скопирован не весь }

CopySer(A, C, S)

Until S.Key<0

Procedure Slian;

{ слияние B и C--->A }

E1, E2: boolean;

Procedure SlianSer;

{ слияние серий из B и C ---> A }

{ S и T - первые элементы серий }

{ S.Key<0-весь файл B считан, T.Key<0-файл C считан }

E1:=False; E2:=False;

if (S.Key>0) and ((S.Key

{ файл B не считан и текущий элемент B меньше, чем в C либо файл C полностью считан }

CopyElem(B, A, S, E1);

if E1 then { достигнут конец серии на B }

CopySer(C, A, T)

CopyElem(C, A, T, E2);

if E2 then { достигнут конец серии на C }

CopySer(B, A, S)

Begin { начало Slian }

if not (Eof(B) or Eof(C)) then

begin { оба файла не пусты }

L:=0; { счетчик числа серий }

While (S.Key>0) or (T.Key>0) do

Begin { начало основной программы }

Write("Введите имя файла для записи элементов: ");

Assign(A, Name);

Assign(B, "Rab1");

Assign(C, "Rab2");

L:=0; { L - число серий после слияния - параметр }

WriteLn("Файл A: "); Pech(A);

Raspred; { фаза распределения }

WriteLn("Файл B: "); Pech(B);

WriteLn("Файл C: "); Pech(C);

ReadLn; { пауза }

Slian { фаза слияния }

Until L<=1; { L=0, если исходный файл отсортирован }

WriteLn("Файл A в конце: ");

Close(B); Erase(B); { удаление рабочих файлов }

Close(C); Erase(C);

Стоит обратить внимание на процедуру копирования элемента с ленты на ленту CopyElem. Реально в файл записывается элемент из оперативной памяти, оставшийся от предыдущего копирования, а в память читается следующий элемент данного файла. Это связано с необходимостью постоянной проверки конца серии. Приходится особо учитывать случай, когда конец серии совпадает с концом файла. При слиянии считается количество получившихся серий. Сортировка заканчивается, когда остается единственная серия.

Эффективность сортировки можно повысить, используя многопутевое слияние, в котором распределение выполняется на k лент. Поскольку число серий на каждом проходе уменьшается в k раз, количество пересылок M пропорционально величине n log k n. Если общее число лент четное, то можно использовать однофазный метод слияния, распределяя серии с одной половины лент на другую. Платой за повышение эффективности многопутевого слияния являются, как всегда, увеличение сложности реализации и дополнительные затраты внешней памяти.

На сколько может отличаться количество серий после разделения? На первый взгляд кажется, что не более, чем на одну, но это не так. Например, при распределении серий 17, 25, 41, ’ 9, 60, ‘ 50, 52, ‘ 7 первая и третья серии сливаются в общую серию, что не происходит со второй и четвертой сериями. В результате при последующем слиянии серии на одной из лент могут закончиться раньше, и придется впустую переписывать остаток другой ленты, теряя эффективность. Подобные ситуации учитываются в методе многофазной сортировки. Рассмотрим его на примере трех лент.

Пусть при соединении лент B и C на ленту A серии на B заканчиваются раньше. Тогда лента B объявляется выходной, а лента A становится входной. Процесс продолжается до нового повторения ситуации, когда серии на одной из входных лент заканчиваются. Многофазная сортировка возможна и при многопутевом слиянии. Например, при использовании в сортировке k лент можно постоянно иметь одну выходную ленту. При исчерпании серий на одной из k-1 входных лент эта лента становится выходной вместо предыдущей выходной ленты.

Методы внутренней и внешней сортировок могут использоваться совместно. Пусть сортируется большой по объему файл. В оперативной памяти выделяется буфер максимально возможного размера. Файл делится на блоки, соответствующие величине буфера. Блоки читаются в буфер, сортируются одним из методов внутренней сортировки и переписываются в другой файл. Сейчас каждый блок нового файла является серией достаточно большой длины, определяемой размером буфера. Остается применить один из методов внешней сортировки, использующий данные серии.

МОУ СОШ С. КАМЫШКИ

ТВОРЧЕСКАЯ РАБОТА

Методы сортировки данных

в курсе ОИВТ

Выполнила:

учитель информатики

На I квалификационную категорию

с. Ал-Гай, 2006

Введение. 3

1. Необходимость изучения темы "Методы сортировки данных". 4

2. Подготовительная работа к теме "Методы сортировки данных". 4

3.Методы сортировок. 7

4. Более сложные и более эффективные методы сортировки. 10

5. Сравнительная характеристика методов сортировки. 11

Заключение. 12

ЛИТЕРАТУРА.. 13

Приложение. 14

Приложение. 15

Приложение. 16

Приложение. 20

Приложение. 21

Приложение. 24

Приложение. 26

Приложение. 28

Приложение. 29

Приложение. 34

Приложение. 37

Приложение. 42

Введение

В этой работе рассматривается большая тема "методы сортировки данных", которая является обязательной в курсе ОИВТ
Изучение табличных величин и методов сортировки - неотъемлемая часть любого курса информатики. Это видно хотя бы по тому факту, что эта тема рассматривается во всех распространенных сегодня учебниках, несмотря на различия в идейных и методических установках их авторов.
Процессом сортировки называют действия по упорядочению некоторых данных (таблицу) по ключу. Ключи могут быть разными. Например, преобразовать
1) таблицу чисел по возрастанию,
2) таблицу фамилий - по алфавиту , причем только по первой букве,
3) элементы, стоящие только на четных местах таблицы в убывающем порядке.
Очевидно, что с "отсортированными" данными работать легче и быстрее, чем с произвольно расположенными. Когда элементы "отсортированы", проще найти, например, телефон товарища в телефонной книге на 500 страниц, быстрее найти слово в словаре на 700 страниц.

Важность темы "сортировки" определяется и особой ролью таблиц. Все применения ЭВМ основаны на их способности к быстрой и точной обработке больших объемов информации, а это возможно только когда информация однородна и отсортирована. Таким образом, таблицы как основное средство представления однородной информации неизбежно используются во всех реальных компьютерных программах.
На табличном принципе основана и архитектура современных ЭВМ: память машины можно рассматривать как большой массив байтов, адреса которых располагаются по возрастанию. Следовательно, без понимания информационной сущности таблиц и основных алгоритмов их обработки невозможно формирование полноценных представлений о возможностях ЭВМ и принципах их работы. Отсюда вытекает необходимость темы "Сортировки " в общеобразовательном курсе информатики. Абсолютно необходима эта тема и в углубленном курсе информатики. Для построения сколько-нибудь сложных и содержательных программ необходимо уверенное владение общими принципами применения таблиц и базовыми приемами их обработки.
Элементы сортировки данных излагаются во многих работах различных авторов (см.). Это указывает на актуальность темы "сортировка", изучение их методов, разработки методики преподавания тем из курса ОИВТ, связанных с сортировкой данных.
В МОУ СОШ с. Камышки информатика преподается на протяжении многих лет. За эти годы нам не раз приходилось изменять программу. Иногда приходилось изменять методику изложения и содержание материала, что частично связано с развитием вычислительной техники и появляющимися в связи с этим новыми возможностями и новыми технологиями .

Тема "сортировки" является неотъемлемой частью программы. У учителя имеется большое количество заготовленных алгоритмов решения тех или иных задач. В процессе изучения темы оказывается эффективным: выполнение учеником готовых алгоритмов и программ самому, "вместо компьютера", выполнение "трассировки" алгоритма для тех или иных исходных данных, подбор таких данных, для которых алгоритм будет выполнять наибольшее или наименьшее возможное количество действий. Для каждой темы такая работа не только с компьютером, но и с тетрадью дает, по мнению автора, положительный результат.
Целью данной работы является изложение методики преподавания в 10-11 классах темы "Сортировки элементов", а также тем, связанных с сортировкой данных.
Кроме того, на примере этой темы хотелось бы продемонстрировать ту методику преподавания, которая используется и при преподавании многих других тем.
Методы "быстрой" сортировки, которые являются более сложными для понимания, изучаются на факультативных занятиях.

1. Необходимость изучения темы "Методы сортировки данных"

Изучение любой темы следует начинать с того, чтобы подвести ученика к необходимости этого, показать потребность в решении соответствующего круга проблем, привести доступные для понимания учеников примеры, продемонстрировать использование элементов сортировки в прикладных задачах (на практике, в окружающем нас мире).
Как только мы дали еще интуитивное понятие смысла "сортировки" данных, мы говорим на уроках ОИВТ о ее необходимости, например, сортировки данных по какому-либо признаку. Мы приводим примеры организации личных записных книжек, словарей, телефонных справочников , математических таблиц, энциклопедий. Трудно себе представить, как пользоваться перечисленными объектами, если информация в них не была бы отсортирована.
В словарях слово "сортировка" определяется как распределение, отбор по сортам, качеству, размерам, по сходным признакам, в программировании это слово традиционно используется в более узком смысле.
Под сортировкой в курсе ОИВТ обычно понимают процесс размещения элементов заданного множества объектов в некотором определенном порядке, как правило, в порядке возрастания или убывания (когда сортируемыми элементами являются числа) или в алфавитном порядке (при сортировке текстовой информации).
Очевидно, что отсортированными данными легче пользоваться, чем произвольно расположенными данными. Когда элементы отсортированы, их проще отыскать, проще производить с ними различные операции. В отсортированных данных легче определить, имеются ли пропущенные элементы. Для двух отсортированных таблиц легче найти общие элементы.
Сортировка также является мощным средством ускорения работы практически любого алгоритма, в котором возникает необходимость частого обращения к определенным элементам. Как пишет один из классиков теории программирования Д. Кнут в [ 4 ] "Даже если бы сортировка была почти бесполезна, нашлась бы масса причин заняться ею! Изобретательные методы сортировки говорят о том, что она и сама по себе интересна как объект исследования". Анализ этих методов очень полезен и с точки зрения обучения, так как с их помощью можно наглядно проиллюстрировать самые разные ситуации. По словам создателя языка Паскаль, Н. Вирта, "создается впечатление, что можно построить целый курс программирования, выбирая примеры только из задач сортировки" [ 5 ].
Интересен этот класс алгоритмов еще и тем, что на нем наглядно демонстрируются богатейшие возможности программирования: насколько разными путями можно прийти к одной цели - получение упорядоченного массива! На множестве алгоритмов сортировки становится понятной необходимость сравнительного анализа алгоритмов и оценки их качества, критериями которого являются увеличение быстродействия и экономии памяти. Недаром вопросы, связанные с сортировкой, занимают важное место в школьном курсе информатики

2. Подготовительная работа к теме "Методы сортировки данных".

Поиск и сортировка относятся к табличным и другим сложным структурам данных, поэтому возникает необходимость, прежде всего, в изучении этих сложных структур данных, например, линейных и прямоугольных массивов (таблиц).
Структуру для представления однородной информации в программировании принято называть массивом. (Фактически термины таблица и массив в данном контексте - полные синонимы).
В 10 классе вводится понятие таблицы как новый способ хранения информации. Новые понятия лучше всего воспринимаются учениками в тех случаях, когда они возникают не случайно, а как необходимость при решении каких-либо новых задач. Новое понятие возникает в результате решения специально-подобранной вводной задачи. Фактически ученики сами изобретают недостающие средства, а учитель должен направить формирование этих средств в нужное русло.

Возможная вводная задача для темы "Таблицы" - нахождение периметра многоугольника с известными длинами сторон изложена в приложение 1. Эта задача подводит учеников к основным свойствам табличных величин: таблица состоит из множества простых переменных, к которым можно обращаться не по уникальным именам, а по общему имени таблицы с указанием номера элемента.

После такого введения ученики понимают, зачем нужны таблицы, они готовы разбираться в таких понятиях, как элемент, индекс, обращение к элементу и т. д.

Важный вопрос, на который надо отвечать при решении реальных задач, - когда следует и когда не следует объединять простые переменные в таблицы. Ключ к ответу - понимание таблицы как составной величины, хранящей однородную информацию.

Однородность означает, что все элементы таблицы равноправны: имеют одинаковый, содержательный смысл, при обработке над ними совершаются одинаковые операции.

Чтобы научить школьника решать задачи, необходимо, не только познакомить его с типовыми приемами, но и показать те ситуации, в которых срабатывает тот или иной прием.

Хорошая классификация должна помогать этому, ее применение должно сокращать путь от условия до решения. Для этого необходимо объединить в группы задачи, обладающие одновременно схожими условиями и принципами решения.(см. приложение №2)

Общность условий обеспечивает распознавание задачи учеником, отнесение ее к конкретному типу, то есть создает возможность реального применения классификации.
Общность решений помогает ученику сделать следующий шаг - подобрать метод решения, то есть обеспечивает результативность классификации.
Таким образом, в основу классификации должен лечь некий признак, явно видимый из условия задачи и существенно влияющий на ее решение. В качестве такого признака предлагается рассматривать информационную роль таблицы в алгоритме, то есть вид табличной величины.
Очевидно, что таблица может быть результатом алгоритма(заполнение), аргументом (обработка) и аргументом-результатом (модификация). При более внимательном рассмотрении становится ясно, что обработка (таблица - аргумент) включает слишком большой класс задач, решаемых разными методами. Среди них можно выделить две большие группы: задачи анализа и задачи поиска. В задачах анализа требуется просмотреть всю таблицу и определить какие-то ее характеристики (сумма, произведение, количество элементов с заданным свойством и т. д.) В задачах поиска требуется найти в таблице элемент, обладающий нужным свойством, причем просматривать всю таблицу для этого необязательно.
С другой стороны, многие задачи модификации не требуют освоения специальных приемов и сводятся к комбинации анализа и заполнения. Это, например, известная задача о корректировке отчета (элементы, меньшие100, заменить на 100) и ей подобные. Поэтому выделять модификацию как отдельный класс задач не стоит.
Реальный интерес представляют задачи перестановки, в которых необходимо переставить элементы заданной таблицы в соответствии с какими-то требованиями. Эти задачи не сводятся к другим и могут рассматриваться как самостоятельная группа. Главная задача перестановки - это сортировка элементов массива, то есть элементы массива необходимо переставить так, чтобы они располагались, например, по возрастанию. Задача сортировки массивов не падает с неба, а относится к одной из групп задач на табличные величины. Окончательно получаем такие группы задач:
1. Заполнение
2. Анализ
3. Поиск
4. Перестановка.
Серия задач для каждой группы приведена в приложении 3.

Фактически все основные приемы построения алгоритмов формируются на линейных таблицах. Обработка прямоугольных таблиц приводит к количественному, но не качественному усложнению. Линейная таблица - это основное, первичное понятие, а прямоугольная таблица может быть построена как линейная таблица, состоящая из линейных таблиц. Поэтому в общеобразовательном курсе достаточно рассмотреть только линейные таблицы, быть может, упоминая, но не разбирая подробно, прямоугольные. При реализации углубленного курса изучение прямоугольных таблиц необходимо, но и в этом случае сначала нужно твердо усвоить основные принципы обработки линейных таблиц.
По нашему школьному предмету ОИВТ, фактически, нет сборников задач и опубликованного дидактического материала. Учителю информатики приходится постоянно заниматься подбором и систематизацией условий задач.

Опыт работы за многие годы показал, что кроме составления алгоритмов и программ учителем и учениками желательно уделять большое внимание выполнению готовых алгоритмов.
Учащиеся при этом "обязаны":
1) выполнить алгоритм,
2) определить, что получается при его выполнении на конкретных данных,
3) восстановить условие задачи по готовому алгоритму,
4) проанализировать количество "элементарных" действий при выполнении алгоритма, что отражает скорость работы алгоритма или время его выполнения,
5) подобрать такие данные, для которых количество "элементарных" действий будет минимальным и такие данные, для которых он будет максимальным.

С готовыми алгоритмами можно работать в различных формах, например:
1. при объяснении всем учащимся одного и того же алгоритма;
2. при работе с учеником индивидуально;
3. при объяснении отдельной темы, ученикам, которые пропустили тему, например, по причине болезни;
4. при уяснении темы с теми учащимися, которые не всегда с первого раза усваивают материал.
Работа в различных формах с готовыми алгоритмами позволяет:
1. учитывать индивидуальные особенности учеников;
2. учитывать психологию, их различную по времени реакцию;
3. развивать их логические, алгоритмические способности;
4. углубить знания по соответствующей теме, так как для получения результата он обязан сам, как исполнитель выполнить алгоритм, а значит закрепить все конструкции, глубже понять, как они выполняются, какие особенности имеют.

Еще одним элементом подготовительной работы к теме "сортировка" является исследование массивов переменной размерности в языках программирования. В приложении 4 приведены задания, предлагаемые учащимся для решения.
Подготовительная работа, проведенная с учащимися в 10-х классах, позволяет далее перейти непосредственно к изучению методов сортировки.

Итак в первый год обучения (в 10 классе) заложен фундамент изучения таблиц, проработкой серии задач и алгоритмов на выбор максимальных и минимальных элементов, перестановку элементов и т. д.
В 11-ом классе - мы вплотную подходим к методам сортировки, опираясь на изученные алгоритмы обработки таблиц.
Рассматриваются задачи поиска нужного элемента, составление словарей, справочников, составление лотерейных таблиц, списка учеников в журнале.
Для решения многих задач удобно сначала упорядочить данные по определенному признаку.
Данные, например, элементы массива, можно отсортировать:
по возрастанию - каждый следующий элемент больше предыдущего:
а[ 1 ] < a < a[n];
по неубыванию - каждый следующий элемент не меньше предыдущего:
а <= а <=. . .<= а[n];
по убыванию - каждый следующий элемент меньше предыдущего:
а [ 1 ]> а> ... >а[n],
по невозрастанию - каждый следующий элемент не больше предыдущего:
а [ 1 ] >= а >= ... >=a[n].

3.Методы сортировки

Существует довольно много различных методов сортировки, отличающихся друг от друга степенью эффективности, под которой понимается количество сравнений и количество обменов, произведенных в процессе сортировки, время выполнения и объем занимаемой ОП. Рассмотрим подробно некоторые из указанных методов. Сначала приведены четыре простых метода. Каждый учитель может выбирать любой порядок изучения указанных методов, если предложенный порядок не устраивает.
Однако, перед тем как рассматривается любой из метод сортировки необходимо повторить отдельных уже изученных алгоритмов, на которые этот метод опирается.
Сначала рассмотрим два метода сортировки:
сортировку выбором (или линейную) и сортировку обменом (или пузырьковую).
Оба метода не очень эффективны и на практике используются крайне редко. Но тогда почему ими нужно вообще заниматься? Во-первых, во многих простых случаях (например, когда требуется отсортировать всего 20-25 чисел) они вполне удовлетворительны. Во-вторых, эти методы интересны для нас тем, что в них моделируется естественное поведение человека, осуществляющего сортировку в ручную. Именно эти два метода легче всего описываются в форме четких алгоритмов и приводят к простой программной реализации.

Рассмотрим сортировку выбором.

Сортировка выбором состоит в том, что сначала в неупорядоченной последовательности выбирается минимальный элемент. Этот элемент исключается из дальнейшей обработки, а оставшаяся последовательность элементов принимается за исходную, и процесс повторяется до тех пор, пока все элементы не будут выбраны. Очевидно, что выбранные элементы образуют упорядоченную последовательность. Выбранный в исходной последовательности минимальный элемент размещается на предназначенном ему месте упорядоченной последовательности несколькими способами:
1. Минимальный элемент после i-го просмотра перемещается на i-е место (i=1, 2 , 3, другого массива, а в старом, исходном, на месте выбранного размещается какое-то очень большое число, превосходящее по величине любой элемент сортируемого массива. Измененный таким образом массив принимается за исходный, и осуществляется следующий просмотр. Очевидно, что при этом размер обрабатываемого массива на 1 меньше размера предыдущего.
2. Минимальный элемент после i-го просмотра перемещается на i-ое место (i=1, 2, 3, заданного массива, а элемент с i-го места - на место выбранного. После каждого просмотра упорядоченные элементы (от первого до элемента с индексом i) исключаются из дальнейшей обработки, т. е. размер каждого последующего обрабатываемого массива на 1 меньше размера предыдущего.
Этот метод сортировки обычно применяется для массивов, не содержащих повторяющихся элементов. Для достижения поставленной цели можно действовать следующим образом:
1) выбрать максимальный элемент массива;
2) поменять его местами с последним элементом (после этого наибольший элемент будет стоять на своем месте);
3) повторить пункты. 1-2 с оставшимися п-1 элементами, то есть рассмотреть часть массива, начиная с первого элемента до предпоследнего, найти в ней максимальный элемент и поменять его местами с предпоследним; (п-1)-м элементом массива и так далее, пока не останется один элемент, уже стоящий на своем месте.
Всего потребуется п-1 раз выполнить эту последовательность действий. В процессе сортировки будет увеличиваться отсортированная часть массива, а не отсортированная, соответственно, уменьшаться.

Итак, этот метод основывается на нахождении максимального (минимального) значения и перестановках. Причем эти алгоритмы уже отработаны и мы просто на них опираемся. Поэтому перед тем, как рассматривать данный метод сортировки необходимо вспомнить решение этих задач. Единственная трудность, возникающая при составлении алгоритма, это то, что мы работаем с частью табличной величины. На примере данного алгоритма можно продемонстрировать использование вспомогательных алгоритмов или процедур, так как поиск максимального значения можно выделить как самостоятельную программу, то есть как процедуру.

Алгоритмы, реализующие этот метод, рассмотрены в приложении 5.
Можно предложить ученикам:
1. Подсчитать количество произведенных сравнений типа А[I] < AF.
2. Подсчитать количество произведенных перестановок типа Swap (A, B).
Проанализировав первый и второй способы с точки зрения эффективности алгоритма, который выражается в наименьшем количестве выполняемых пересылок и сравнений, вместе с учениками следует записать ещё один, третий способ сортировки выбором (см. приложение 5).
Ход сортировки третьим способом для сортировки массива 30, 17, 73, 47, 22, 11, 65, 54 отразим в таблице

На последующих уроках информатики следует закрепить изученный метод сортировки выбором.

Возвращаясь ещё раз к вопросу об эффективности алгоритмов сортировки выбором, установим, что наименьшее количество действий будет выполняться для исходного массива, уже отсортированного уже в нужном порядке. Наибольшее количество действий будет выполняться для исходного массива, отсортированного в "противоположном смысле".

Рассмотрим сортировку обменом (метод "Пузырька").

Сортировка обменом - метод, при котором все соседние элементы массива попарно сравниваются друг с другом и меняются местами в том случае, если предшествующий элемент больше последующего. В результате этого максимальный элемент постепенно смещается вправо и, в конце концов, занимает свое крайне правое место в массиве, после чего он исключается из дальнейшей обработки. Затем процесс повторяется, и свое место занимает второй по величине элемент, который также исключается из дальнейшего рассмотрения. Так продолжается до тех пор, пока вся последовательность не будет упорядочена.
Если последовательность сортируемых чисел расположить вертикально (первый элемент - внизу) и проследить за перемещениями элементов (рис. 2 в приложении 6), то можно увидеть, что большие элементы, подобно пузырькам воздуха в воде, "всплывают" на соответствующую позицию. Поэтому "сортировку", таким образом, называют еще сортировкой методом "пузырька", или "пузырьковой" сортировкой.
Сортировка методом простого обмена может быть применена для любого массива.
Итак, в сортировке "обменом" все соседние элементы попарно сравниваются друг с другом и меняются местами, если предшествующий элемент больше последующего. То есть мы опять основываемся на уже отработанных алгоритмах перестановки элементов.
Описание этого метода подробнее в приложении 6.

"Шейкер" - сортировка.

Несмотря на все сделанные выше усовершенствования, "пузырьковая" сортировка следующего (почти упорядоченного!) массива 5, 7, 12, 28, 36, 85, 2 будет проведена за семь проходов. Это связано с тем, что при сортировке, рассматриваемым методом, за один проход элемент не может переместиться влево больше чем на одну позицию. Так что если минимальный элемент массива находится в его правом конце (как в рассматриваемом примере), то придется выполнить максимальное число проходов. Поэтому естественно напрашивается еще одно улучшение метода "пузырьковой" сортировки - попеременные проходы массива в обоих направлениях, а не только от его начала к концу. В этом случае время сортировки может несколько сократиться. Такой метод сортировки называется "шейкер"-сортировкой (от английского слова shake - трясти, встряхивать). Его работа показана на примере сортировки массива из 8 элементов (на рис. 3 в приложении 7). Алгоритмы этого метода подробно изложены в приложении 7.

Сортировка подсчетом

Этот простой и легкий для понимания метод заключается в том, что каждый элемент массива сравнивается со всеми остальными. Место каждого элемента в отсортированном массиве зависит от числа элементов, меньших его. Иными словами, если некоторый элемент превышает 13 других, то его место в упорядоченной последовательности - 14. Следовательно, для сортировки необходимо сравнить попарно все элементы и подсчитать, сколько из них меньше каждого отдельного элемента. После этого все элементы исходного массива можно разместить на соответствующих им местах в новом, специально созданном массиве. Алгоритм сортировки подсчетом подробно изложен в приложении 8.

Сортировка вставками (методом прямого включения).

Сортировка вставками, так же как и сортировка методов простого выбора, обычно применяется для массивов, не содержащих повторяющихся элементов. Сортировка методом прямого включения, как и все описанные выше, производится по шагам. На k-м шаге считается, что часть массива, содержащая первые k-1 элементов, уже упорядочена, то есть a < a< . . . < a. Далее необходимо взять k-й элемент и подобрать для него такое место в отсортированной части массива, чтобы после его вставки упорядоченность не нарушилась, то есть надо найти такое j (1<=j<=k-1), что a<=a[k]

Более подробно этот метод рассмотрен в приложении 9

4. Более сложные и более эффективные методы сортировки.

При решении более сложных задач, в том числе олимпиадных, приходится обрабатывать большие наборы данных. Применение простых для понимания, но медленно работающих методов сортировки, изложенных в предыдущем разделе, становится нецелесообразно. Ученики начинают искать другие методы сортировки. Именно, когда ученикам недостает более эффективных методов сортировки и рассматриваются эти более сложные методы.
Преследуемая цель: знакомство с эффективными алгоритмами сортировки и поиска; реализация рекурсивных процедур и функций. Изучение быстрых методов сортировки проводится на кружках и факультативных занятиях.

Обменная сортировка с разделением (сортировка Хоара)

Сортировка методом простого обмена (методом "пузырька") является в среднем самой неэффективной. Это обусловлено самой идеей метода, который требует в процессе сортировки сравнивать и обменивать между собой только соседние элементы. Можно существенно улучшить метод сортировки, основанный на обмене. Это улучшение приводит к самому лучшему на сегодняшний день методу сортировки массивов, который можно назвать обменной сортировкой с разделением. Он основан на сравнениях и обменах элементов, стоящих на возможно больших расстояниях друг от друга. Предложил этот метод Ч. в 1962 году. Поскольку производительность этого метода впечатляюща, автор назвал его "быстрой сортировкой".
Более подробно этот метод рассмотрен в приложении 10.

Сортировка методом слияний

Существует еще один метод сортировки элементов массива, эффективность которого сравнительно велика, - метод слияний.
Перед тем как давать этот метод сортировки, ученикам модно предложить следующую задачу, которая когда-то была олимпиадной, а теперь решается на обычных уроках.:
Причем с минимальным количеством сравнений. На алгоритме этой задачи, которую могут решить сами ученики без подсказки учителя, и построен метод слияния.
Конечно, можно решить задачу, используя метод вставок - каждый элемент массива А разместить на соответствующем ему месте в массиве В. Однако, при этом количество сравнений превысит n+m.
Способ решения задачи изложен в приложении11.

Метод сортировки "слиянием" состоит в разбиении данного массива на несколько частей, которые сортируются по отдельности и впоследствии "сливаются" в одну.

Пусть массив а разбивается на части длиной k, тогда первая часть - a[I], a , . . ., a [k], вто-рая - a, a,..., a и так далее. Если n не делится на k, то в последней части будет менее k элементов.
После того как массивы-части упорядочены, можно объединить их в упорядоченные массивы-части, состоящие не более чем из 2k элементов, которые далее объе-динить в упорядоченные массивы длиной не более 4k, и так далее, пока не получится один упорядоченный массив. Таким образом, чтобы получить отсортированный массив этим методом, нужно многократно " сливать" два упорядоченных отрезка массива в один упорядоченный отрезок. При этом другие части массива не затрагиваются. Более подробно этот метод как факультативный материал рассмотрен в приложении 12.

5. Сравнительная характеристика методов сортировки.

Вспомним один из простых методов - метод подсчета. Поскольку этот метод, несмотря на усовершенствование, требует сравнения всех пар элементов, то продолжительность сортировки массива из n элементов будет пропорциональна n2. Несколько лучшие показатели имеют методы сортировки вставками, обменом и выбором, однако и в них продолжительность работы процедур также пропорциональна n2. Вместе с тем можно показать, что время, затрачиваемое на упорядочивание массива такими методами, как, например, быстрая сортировка или пирамидальная сортировка, пропорционально n log2n, т. е. значительно меньше. Поэтому все рассмотренные методы сортировки подразделяют на простые (n2) и усовершенствованные, или "логарифмические" (n log2n) .
Подробный анализ основных методов сортировки проведен в работах . В качестве показателей для оценки того или иного метода в них используются количество сравнений и количество перемещений элементов в ходе сортировки. Однако эти характеристики не учитывают затрат времени на другие операции, такие, как управление циклами, и др. Очевидно, что критерием для сравнения различных методов является время, затрачиваемое на сортировку. Данные о времени выполнения процедур сортировки получены Н. Виртом .
Конечно, современные компьютеры работают значительно быстрее, чем тогда, когда были проведены расчеты, т. е. данные, приведенные в , устарели. В то же время относительные показатели различных методов в целом не изменились. В приложении 12 представлены относительные характеристики девяти вариантов методов сортировки, полученные на основе результатов, приведенных Н. Виртом.
Приведенные данные демонстрируют явное различие методов: n2 и n log2n. Из таблицы 1 видно, что наилучшим среди простых методов является сортировка вставками, среди усовершенствованных - быстрая сортировка.
Н. Вирт отмечает также следующее:
- "пузырьковая" сортировка является наихудшей среди всех сравниваемых методов. Ее улучшенный вариант - "шейкер" - сортировка - все-таки хуже, чем сортировка простыми вставками и сортировка выбором;
- особенностью быстрой сортировки является то, что она сортирует массив с элементами, расположенными в обратном порядке практически так же, как и отсортированный в прямом порядке.
Следует добавить, что приведенные результаты были получены при сортировке числовых массивов. Если же значением элементов массива являются данные типа "запись", в которых сопутствующие поля (компоненты) занимают в 7 раз больше памяти, чем числовое поле, по которому проводится сортировка, то картина изменится.
В таблице 2 даны сравнительные характеристики методов сортировки массивов данных типа "запись".
Видно, что
1) сортировка выбором дает существенный выигрыш и оказывается лучшим из простых методов;
2) "пузырьковая" сортировка по-прежнему является наихудшим методом;
3) быстрая сортировка даже укрепила свою позицию в качестве самого быстрого метода и оказалась действительно лучшим алгоритмом сортировки.

Существует традиционное деление алгоритмов на численные и нечисленные. Численные алгоритмы предназначены для математических расчетов: вычисления по формулам, решения уравнений, статистической обработки данных и т.п. В таких алгоритмах основным видом обрабатываемых данных являются числа. Нечиcленные алгоритмы имеют дело с самыми разнообразными видами данных: символьной, графической, мультимедийной информацией. К этой категории относятся многие алгоритмы системного программирования (трансляторы, операционные системы), систем управления базами данных, сетевого программного обеспечения и т.д.

Для программных продуктов второй категории наиболее часто используемыми являются алгоритмы сортировки данных - упорядочения информации по некоторому признаку. От эффективности, прежде всего скорости, их выполнения во многом зависит эффективность работы всей программы.

Различают алгоритмы внутренней сортировки - во внутренней памяти и алгоритмы внешней сортировки - сортировки файлов. Далее мы будем рассматривать только внутреннюю сортировку.

Как правило, сортируемые данные располагаются в массивах. В простейшем случае это числовые массивы. Однако для нечисленных алгоритмов более характерна ситуация, когда сортируется массив записей (в терминологии Паскаля) или массив структур (в терминологии Си). Поле, по значению которого производится сортировка, называется ключом сортировки. Обычно оно имеет числовой тип. Например, массив сортируемых записей содержит два поля: наименование товара и количество товара на складе. В программе на Паскале он описан так:

Сортировка производится либо по возрастанию, либо по убыванию значения ключа A[i].key.

Во всех дальнейших примерах программ предполагается, что приведенные выше описания в программе присутствуют глобально и область их действия распространяется на процедуры сортировки. Хотя все примеры приводятся на Паскале, но по тому же принципу можно разработать функции сортировки на Си/Си++.

Алгоритм сортировки «методом пузырька» рассматривался в разделе 3.17. Здесь мы обсудим два алгоритма: сортировку простым включением и быструю сортировку.

Сортировка простым включением. Предположим, что на некотором этапе работы алгоритма левая часть массива с 1-го по (i - 1)-й элемент включительно

является отсортированной, а правая часть с i-го по n-й элемент остается такой, какой она была в первоначальном, неотсортированном массиве. Очередной шаг алгоритма заключается в расширении левой части на один элемент и, соответственно, сокращении правой части. Для этого берется первый элемент правой части (с индексом i) и вставляется на подходящее ему место в левую часть так, чтобы упорядоченность левой части сохранилась.

Процесс начинается с левой части, состоящей из одного элемента А, а заканчивается, когда правая часть становится пустой.

Теперь оценим сложность алгоритма сортировки простым включением. Очевидно, что временная сложность зависит как от размера сортируемого массива, так и от его исходного состояния в смысле упорядоченности элементов. Временная сложность будет минимальной, если исходный массив уже отсортирован в нужном порядке значений ключа (в данном случае - по возрастанию). Максимальное значение сложности будет соответствовать противоположной упорядоченности исходного массива, т.е. упорядоченности исходного массива по убыванию значений ключа. Обычно для алгоритмов сортировки временная сложность оценивается количеством пересылок элементов.

Оценим величину минимальной временной сложности алгоритма. Если массив уже отсортирован, то тело цикла while не будет выполняться ни разу. Выполнение процедуры сведется к работе следующего цикла:

Поскольку тело цикла for исполняется n - 1 раз, то число пересылок элементов массива

Мmin = 2(п - 1),

а число сравнений ключей равно

Сложность алгоритма будет максимальной, если исходный массив упорядочен по убыванию. Тогда каждый элемент А[i] будет «прогоняться» к началу массива, т.е. устанавливаться в первую позицию. Цикл while выполнится 1 раз при i = 2, 2 раза при i = 3 и т. д., п - 1 раз при i = п. Таким образом, общее число пересылок записей равно:

Более подходящей для реальной ситуации является средняя оценка сложности. Для ее вычисления надо предположить, что все элементы исходного массива - случайные числа и их значения никак не связаны с их номерами. В таком случае результат очередной проверки условия x. key

Разумно допустить, что среднее число выполнений цикла While для каждого конкретного значения i равно i/2, т. е. в среднем каждый раз приходится просматривать половину последовательности до тех пор, пока не найдется подходящее место для очередного элемента

Тогда формула для среднего числа пересылок (средняя оценка сложности) будет следующей:

Как максимальная, так и средняя оценка сложности алгоритма квадратична (является полиномом второй степени) по параметру п - размеру сортируемого массива.

Алгоритм быстрой сортировки. Этот алгоритм был разработан Э. Хоаром. В алгоритме быстрой сортировки используются три идеи:

Разделение сортируемого массива на 2 части, левую и правую;

Взаимное упорядочение двух частей (подмассивов) так, чтобы все элементы левой части не превосходили элементов правой части;

Рекурсия, при которой подмассив упорядочивается точно таким же способом, как и весь массив.

Для разделения массива на две части нужно выбрать некоторое «барьерное» значение ключа. Это значение должно удовлетворять единственному условию: лежать в диапазоне значений для данного массива (т.е. между минимальной и максимальной величиной). За «барьер» можно выбрать значение ключа любого элемента массива, например первого, или последнего, или находящегося в середине.

Далее нужно сделать так, чтобы в левом подмассиве оказались все элементы с ключом, меньшим барьера, а в правом - с большим: Затем, просматривая массив слева направо, необходимо найти позицию первого элемента с ключом, большим барьера, а просматривая справа налево - найти первый элемент с ключом, меньшим барьера. Следует поменять эти значения, затем продолжить встречное движение до следующей пары элементов, предназначенных для обмена. Необходимо повторять эту процедуру, пока индексы левого и правого просмотров не совпадут. Место совпадения станет границей между двумя взаимно упорядоченными подмассивами. Далее алгоритм рекурсивно применяется к каждому из подмассивов (левому и правому). В конечном счете приходим к совокупности из п взаимно упорядоченных одноэлементных массивов, которые делить дальше невозможно. Эта совокупность образует один полностью упорядоченный массив. Сортировка завершена!

Сложность алгоритма быстрой сортировки. Исследование временной сложности алгоритма быстрой сортировки является очень трудоемкой задачей, и поэтому мы здесь приводить его не будем. Рассмотрим лишь окончательный результат этого анализа. Временная сложность T как функция от п - размера массива - по порядку величины выражается следующей формулой:

Т(п) = 0 (n 1n (n)).

Здесь использовано принятое в математике обозначение: O(х) обозначает величину порядка х. Следовательно, временная сложность алгоритма быстрой сортировки есть величина порядка п 1n(n). Эта величина для целых положительных п меньше, чем п2 (вспомним, что алгоритм сортировки простым включением имеет сложность порядка n2). И чем больше значение п, тем эта разница существеннее. Например.