Usos para poco mas de 11TB de libros técnicos

freishner

Capo
Se incorporó
16 Noviembre 2021
Mensajes
436
Accidentalmente, terminé haciendo un script que puede bajar cualquier libro, de una biblioteca digital (de membresía pagada accesible desde empresa), ya que solo permiten leer desde el browser, el dark mode no funcionaba y no me iba a quemar la vista leyendo de noche...

Luego que había descargado el libro de mi interés, caxe que se podía hacer bucle en el endpoint que permite leer cada libro en browser del recurso 1 al infinito e ignorar todo lo que diera un 404, de esa forma, el script puede ripear todo el contenido como si todavía estuviéramos en la internet de los 2000.

Hay poco mas de 11TB en libros técnicos, en hartas áreas, ing, finanzas, rrhh, marketing, ciencias sociales, mates, mecanica, medicina, educación... son poco mas de 100 mil títulos...

Unos colegas hindues me recomendaron meterlo todo en una nube de 100TB, pero aun queda la pregunta existencial... tanto material no debiera perderse creo yo, despues de todo, no todo el mundo puede pagar 100k por un tomo, ni mucho menos por varios tomos... digitales o físicos es una barbaridad barbárica :plaf2

Acepto sugerencias...
 

Soza

Linux
Se incorporó
25 Marzo 2013
Mensajes
954
nube y pagina con link magnetico para distribuir, ya que acá seguramente lo borrarán
 

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
No soy un abogado de la gran ciudad pero hasta el momento no veo ilegalidad en lo que menciona el compadre @freishner . De todos modos tenemos una sección especial para estas cosas que caminan por la cornisa del bien y el mal así que podrías dejar el detalle ahí y mandar invitaciones o enlaces por mp.
 
Se incorporó
19 Abril 2021
Mensajes
635
me veo en la obligacion de pedir o conseguir algunos titulos para una tarea jajaja, si decides compartirlos yo feliz de adquirir conocimiento
 

Carlos E. Flores

Zombie
Miembro del Equipo
MOD
Se incorporó
17 Marzo 2005
Mensajes
28.526
Te sugeriría no meterte en líos. Luego no va a venir internet a ayudarte si a alguien no le gusta lo que haces con eso.
 

freishner

Capo
Se incorporó
16 Noviembre 2021
Mensajes
436
No soy un abogado de la gran ciudad pero hasta el momento no veo ilegalidad en lo que menciona el compadre @freishner . De todos modos tenemos una sección especial para estas cosas que caminan por la cornisa del bien y el mal así que podrías dejar el detalle ahí y mandar invitaciones o enlaces por mp.
¿Cual sub foro es ese?

Aprovechando el tiempo libre, pude hacer unas mejoras, como usar ghostscript para optimizar el archivo resultante a 72dpi, suficiente para leer en un dispositivo, pero no para que sea impreso y comercializado. Por otra parte, tambien hice unas funciones de compresión para aplicar brotli.

Las métricas resultantes fueron las siguientes (para la curiosidad de algunos)
150 MB -> ghostcript -> 105.9MB -> brotli -> 103.4MB
Ghostscript me permite ahorrar cerca de un 29.4% y luego brotle puede recortar aprox un 2.36%.
Haciéndo un poco de cálculos brutos, ghostscript me permitiría ahorrar cerca de 3,2 TB y brotli terminaría sacando unos 187.7GB.
Finalmente el recurso quedaría en poco mas de 7.6 TB, osea, unos 500 USD en discos SSD más infraestructura y algunos extras.

Independiente de lo que se pudiera hacer, o dejar de hacer, me parece interesante haber hecho el ejercicio.

Supongo que sacaré una lista, y en algún momento la publicaré para compartir algunos textos, ya que no vale la pena el riesgo de ripear semejante cantidad de datos, porque por muy mangos que sean los que dejaron el bug, no creo que pase desapercibida una transferencia de semejante tamaño para 1 solo usuario...
 

Carlos E. Flores

Zombie
Miembro del Equipo
MOD
Se incorporó
17 Marzo 2005
Mensajes
28.526
¿Cual sub foro es ese?
SvnzPfg.png
 

ayn

MOD
Miembro del Equipo
MOD
Se incorporó
2 Noviembre 2005
Mensajes
5.254
Mmhhh podría prestar parte del drive de la empresa, tenemos 325 tb de los cuales estamos ocupando como 10 actualmente (con 13 años de uso de cuentas Google), por espacio no nos quedamos, pero debo preguntar primero si me dejan.

Saludos.
 

Tucson

Moin Moin!
Se incorporó
24 Agosto 2005
Mensajes
3.027
Yo opino que los altos mandos de c9 se podrían reunir para decidir si se rajan con unos Teras para hostear los susodichos papiros.

En una de esas mejoran las visitas del foro para así no tener solo gitanos cero aporte tratando de vender :sisi
 

stargeizer

Who cares?
Se incorporó
5 Noviembre 2005
Mensajes
178
Hazte/haznos un favor y usa material magnético para compartir la colección. (Si, estoy babeando, lo admito)

dir *.* > lista.txt y comparte la lista.

Dudo que tu empresa te autorice a compartir material protegido por copyright, descargado a la mala, y ciertamente dudo que los altos mandos de Capa 9 quieran ser los próximos "Hotel Galbadia" de la literatura técnica. Y en cualquier caso, no creo que ninguno por acá quiera verte metido en problemas en cualquier caso.
 

hpf

Lector entusiasta
Miembro del Equipo
MOD
Se incorporó
7 Mayo 2011
Mensajes
370
Antes de cualquier cosa, cuidado con eso, no arriesgaría mi pega por diversión. En C9 probablemente la respuesta será un rotundo NO.

Y la realidad, es que esa cantidad de información, no la va a aprovechar una sola persona, sea por tiempo o por interés.

Sinceramente, me parece más interesante la solución técnica que tomaste (en código) que la data en sí; otrora tiempo me encantaba hacer ese tipo de cosas (con bash y luego python). Siempre es divertido revisar ese código.

Y repito, no vale la pena arriesgar la pega por algo así, el mundo TI es súper chico, y la fama precede a las personas.
 

freishner

Capo
Se incorporó
16 Noviembre 2021
Mensajes
436
Antes de cualquier cosa, cuidado con eso, no arriesgaría mi pega por diversión. En C9 probablemente la respuesta será un rotundo NO.

Y la realidad, es que esa cantidad de información, no la va a aprovechar una sola persona, sea por tiempo o por interés.

Sinceramente, me parece más interesante la solución técnica que tomaste (en código) que la data en sí; otrora tiempo me encantaba hacer ese tipo de cosas (con bash y luego python). Siempre es divertido revisar ese código.

Y repito, no vale la pena arriesgar la pega por algo así, el mundo TI es súper chico, y la fama precede a las personas.
Opino que tienes razón.

Y agradezco, los comentarios de todos.
Por eso, es que encontré una solución alternativa al problema. Verán, semejante cantidad de datos, tanto en almacenamiento, como en tráfico, es algo difícil de gestionar (como ya nos hemos dado cuenta). Sin embargo, los recursos que componen las páginas son públicos, hasta un buscador los puede indexar, lo único que se necesita, es poder reunirlos y empaquetarlos en un único documento.
Éste enfoque, me permitiría ojear datos a nivel global usando una terminal con la herramienta find, y le daría la posibilidad a cualquier user, de accesar a material que un buscador cualquiera hubiera podido indexar. Además, reduce los TB a quizá un par de GB o MB.

Dicha meta data, pudiera ser descargada por programas como jdownloader, simplemente haciéndole copy paste a cada objeto json y guardándo todos los archivos de cada objeto en una única carpeta. Tambien pudiera fabricar dlc para jdownloader.

Luego, cada quien pudiera armarse cada uno, su propio algoritmo para empaquetar los archivos en un documento. De éso pudiera dejar un tutorial mas adelante.

Y así, colorín colorado, el cuento esta arreglado.
 

freishner

Capo
Se incorporó
16 Noviembre 2021
Mensajes
436
Un update cortito porque he estado full pega con los franchutes:

Recibo mensajes por interno, de todos aquellos que quieran una copia de la meta data.
 

Onomzio

CEO Capa9
Se incorporó
22 Noviembre 2005
Mensajes
2.116
Donde está la lista para revisar?
Desde que eliminaron zlibrary me siento desprotegido. Seguí la alternativa del bot de zlib en telegram pero no es lo mismo....
 
Subir