как с точки зрения скорости и правильности написать скрипт работа которого заключается вот в чем: есть файл, содержание допустим:
11 22 йц@ук 44
66 77 фы@ва 55
88 99 яч@см 00
44 55 йц@ук 22
нада убрать дубли строк в которых повторяются 3 столбик, т.е. где мыла.
как я придумал: сначала с помощью регулярки создаем массив всех мыл. потом удаляем дубли с помощью функции array_unique. потом цикл для каждой строки в файле, так же с помощью регулярки вытаскиваем мыло и еще запускаем цикл для каждого елемента в массиве мыл. и если они равны то сохраняем строчку и выходим из первого цикла. какие будут предложения?)
Используй bash скрипты под Linux.
Мне кажется это самое простое.
Тебе нужны команды sort и uniq.
Первая сортирует, вторая удаляет дубли.
Так вот, во второй можно указать, какую часть строки исследовать. (Нужно почитать мануал grep и написать регулярку).
Пишется с манами 30 минут.
P.S. Если не разберешься - завтра могу помочь. Го ПМ. Сейчас мегаустал и сплю...
Тогда можно несколько переделать твой алгоритм:
1. Как ты и сказал дернуть все мыла регуляркой и сохранить в 2 массива
2. 1 массив будет исходный, а по 2-ому пройтись через array_unique, затем вычислить между ними разницу, цель - найти все повторяющиеся значения.
3. Делаем проход с удалением повторяющихся значений по файлу - это будет оптимальней, полагая, что уникальных записей будет больше чем повторяющихся, следовательно проходов в цикле будет меньше.